anobiidae's blog

個人的に自然言語処理とかに関して、調べ物したもののメモとかを残す場所。

3. Latent Dirichlet allocation(3/3)

θで積分し、zで総和をとると、我々はdocumentの周辺分布を得られる:

p(w | α, β ) = ...

 

最後に、1documentに対する周辺確率の積によって、corpusの確率が得られる。

p(D | α, β ) = ...

 

LDA modelを図1に確率グラフィックモデルとして表した。この図が明らかにしているように、LDA表現には3つのレベルがある。パラメータα、βはcorpusレベルのパラメータであり、corpusを生成する段階において1度だけサンプルされると考えられる。

 

変数θ_dは、documentレベルの変数であり、文書ごとに1度サンプルされる。最後に、変数z_nとw_nはwordレベルの変数であり、それぞれの文章のそれぞれのword毎に1度サンプルされる。

 

LDAをsimple Ditichlet-multinomial clustering modelと区別する事が重要である。従来のクラスタリングモデルでは、Dirichletが2レベルmodelが必要とされていた。Dirichletはcurpusに対して1度サンプルされ、multinomial clustering 変数がcurpus内の各documentに対して1度選択される、そしてcluster変数上のdocument状態に対してword集合が選択される。

 

多くのクラスタリングモデルのように、そのようなmodelでは厳密にdocumentは1つのtopicに配分されていた。一方、LDAは3つのレベルを導入し、そして取り分け、topic nodeはdocumentの中から何度もサンプルされる。このモデルにおいて、documentは複数のtopicと関連付ける事が出来る。

 

図1に示した図に類似した構造としては、Bayesian statical modelingが研究されている、それは階層モデル(Gelman et ak., 1995)や更に精確には、状態独立階層モデル(Kass and Steffery, 1989)として知られている。これらのmodelではまたparametric empirical Bayes modelとして知られている。termが特有のモデル構造だけではなく、モデルにおけるパラメータ最適化する手段にも用いられる(Morris, 1983)。

 

実際に、Section 5で我々は議論するように、我々は単純なLDA実装のために、empirical Bayes approachをαやβのパラメータ推定のために導入する。しかし、Bayesian を用いる事が全てではないと我々はまた考える。