3. Latent Dirichlet allocation(2/3)
k次元のディレクレ任意変数θが(k-1) simplexの値をとるとする。(θiは0よりも大きく、かつΣθi=1であるとき、k次元ベクトルθはk-1 simplexである)そして、θがこのsimplex上においては以下の確率分布を持つ。
p(θ|α) = Γ(Σα) / Π (Γ α) θ_1 ^ {α_1 - 1)} ... θ_k ^ {α_k - 1)}
ここで、パラメータaはk次元ベクトルであってaiは0よりも大きい。そしてΓ(x)はガンマ関数である。ディレクレはsimplexにおいては扱いやすい分布である。それは指数関数的なファミリーであり、有限の次元の十分統計量を持っており、多項分布に結合しています。Section5では、これらの特性は、LDAのための推論とパラメータ推定のアルゴリズムの開発を促進するでしょう。
ここで、パラメータaとbが与えられた場合の、θ、N個のtopic z、そしてN wordsが与えられた時の結合確率は以下で示される。
p(θ, z, w | α, β) = p(θ|α) Π {n=1~N} { p(z_n | θ) p(w_n | z_n, θ) }
where p(zn jq) is simply qi for the unique i such that zi
n = 1.
ここで、p(z_n | θ) はz_n^i = 1の時にθに単純化できる。
訳注:
- simplex - http://ja.wikipedia.org/wiki/%E5%8D%98%E4%BD%93_(%E6%95%B0%E5%AD%A6)
- この式の導入は…http://ja.wikipedia.org/wiki/%E3%83%87%E3%82%A3%E3%83%AA%E3%82%AF%E3%83%AC%E5%88%86%E5%B8%83
P(x, a) = (1/Z) × Π x ^ (a - 1)
Z = Π ( Γ(a) ) ÷ Γ(Π(a)) を単純に解けばでるよね?