Mục tiêu của mô hình sinh là học phân bố p(x)p(x)p(x) của dữ liệu {xi}\{x_i\}{xi}. Cụ thể hơn, cho trước một họ các phân bố có thể học được {pθ(x)}\{p_{\theta}(x)\}{pθ(x)}, ta sẽ tìm phân bố có (log-)likelihood lớn nhất, hay hiểu một cách trực qua là phân bố tương thích nhất với tập dữ liệu cho trước. Việc này cũng tương đương với tìm phân bố có cross-entropy với dữ liệu nhỏ nhất....
Trong bài trước, ta đã biết mô hình năng lượng biểu diễn một phân bố không chuẩn hóa, cụ thể hơn
p(x)=exp(−E(x))Zp(x)=\frac{\exp( -E(x))}{Z}
p(x)=Zexp(−E(x))Với phân bố p(x)p(x)p(x) như trên, ta sinh dữ liệu bằng phương pháp stochasic gradient Langevin dynamics. Phương pháp này sử dụng gradient tại xxx của logp(x)\log p(x)logp(x) để lấy mẫu.
Từ điều này, ta có thể thấy việc học một mô hình năng...