3. Latent Dirichlet allocation(1/3)
3. Latent Dirichlet allocation
潜在ディレクト配分法(LDA)は、corpusの生成確率モデルです。基本的な考えは、文章は潜在的topicの任意の混在で表現され、更にtopicはワードの分布で特徴づけられている。1
LDAは、courpus Dの中の各document wに対して、次のgenerative processを仮定します。
1. Choose N ~ Poisson(ξ).
2. Choose q ~ Dir(α).
3. For each of the N words wn:
(a) Choose a topic zn ~ Multinomial(θ).
(b) Choose a word wn from p(w_n | z_n , β), a multinomial probability conditioned on the topic z_n.
この基本形の中で、いくつかの基本的名仮定が作られます、われわれは後のセクションでそれらのうちいくつかを除外します。最初に、ディリクレ分布の次元数k(および、さらにtopic変数zの次元数)は既知であり固定であると仮定します。次に、単語の確率はk×V行列βによってパラメータ化されます、β_ij = P(w^j=1, z^i=1), これは推定するために固定の定量として扱います。
最後に、Poisson仮定においては更に追加される、あるいは必要とされるような利用される現実的な文書長の分布は重要視しません。すなわち、Nは他のデータ生成変数(θ及びz)から独立しています。それは付随的な変数であり、私たちは、一般にsubsequent developmentにおいて、その不確定性を無視するでしょう。
as random mixuture = 任意の混合 っぽい。