3. Latent Dirichlet allocation(1/3)

3. Latent Dirichlet allocation

潜在ディレクト配分法(LDA)は、corpusの生成確率モデルです。基本的な考えは、文章は潜在的topicの任意の混在で表現され、更にtopicはワードの分布で特徴づけられている。1

LDAは、courpus Dの中の各document wに対して、次のgenerative processを仮定します。

1. Choose N ～ Poisson(ξ).

2. Choose q ～ Dir(α).

3. For each of the N words wn:

(a) Choose a topic zn ～ Multinomial(θ).

(b) Choose a word wn from p(w_n | z_n , β), a multinomial probability conditioned on the topic z_n.

この基本形の中で、いくつかの基本的名仮定が作られます、われわれは後のセクションでそれらのうちいくつかを除外します。最初に、ディリクレ分布の次元数k(および、さらにtopic変数zの次元数)は既知であり固定であると仮定します。次に、単語の確率はk×V行列βによってパラメータ化されます、β_ij = P(w^j=1, z^i=1), これは推定するために固定の定量として扱います。

最後に、Poisson仮定においては更に追加される、あるいは必要とされるような利用される現実的な文書長の分布は重要視しません。すなわち、Nは他のデータ生成変数(θ及びz)から独立しています。それは付随的な変数であり、私たちは、一般にsubsequent developmentにおいて、その不確定性を無視するでしょう。

1. 私たちは、テキスト指向の直観を開発するようにLDAモデル中の潜在している多項式の変数をトピックと呼びます。しかし、私たちは、言葉のセット上で確率分布を表わす際にそれらの扱い方について、潜在的変数に関する認識論の要求をしません。

訳注：

as random mixuture = 任意の混合　っぽい。

anobiidae's blog

個人的に自然言語処理とかに関して、調べ物したもののメモとかを残す場所。

3. Latent Dirichlet allocation(1/3)