3. Latent Dirichlet allocation(3/3)
θで積分し、zで総和をとると、我々はdocumentの周辺分布を得られる:
p(w | α, β ) = ...
最後に、1documentに対する周辺確率の積によって、corpusの確率が得られる。
p(D | α, β ) = ...
LDA modelを図1に確率グラフィックモデルとして表した。この図が明らかにしているように、LDA表現には3つのレベルがある。パラメータα、βはcorpusレベルのパラメータであり、corpusを生成する段階において1度だけサンプルされると考えられる。
変数θ_dは、documentレベルの変数であり、文書ごとに1度サンプルされる。最後に、変数z_nとw_nはwordレベルの変数であり、それぞれの文章のそれぞれのword毎に1度サンプルされる。
LDAをsimple Ditichlet-multinomial clustering modelと区別する事が重要である。従来のクラスタリングモデルでは、Dirichletが2レベルmodelが必要とされていた。Dirichletはcurpusに対して1度サンプルされ、multinomial clustering 変数がcurpus内の各documentに対して1度選択される、そしてcluster変数上のdocument状態に対してword集合が選択される。
多くのクラスタリングモデルのように、そのようなmodelでは厳密にdocumentは1つのtopicに配分されていた。一方、LDAは3つのレベルを導入し、そして取り分け、topic nodeはdocumentの中から何度もサンプルされる。このモデルにおいて、documentは複数のtopicと関連付ける事が出来る。
図1に示した図に類似した構造としては、Bayesian statical modelingが研究されている、それは階層モデル(Gelman et ak., 1995)や更に精確には、状態独立階層モデル(Kass and Steffery, 1989)として知られている。これらのmodelではまたparametric empirical Bayes modelとして知られている。termが特有のモデル構造だけではなく、モデルにおけるパラメータ最適化する手段にも用いられる(Morris, 1983)。
実際に、Section 5で我々は議論するように、我々は単純なLDA実装のために、empirical Bayes approachをαやβのパラメータ推定のために導入する。しかし、Bayesian を用いる事が全てではないと我々はまた考える。