3. Latent Dirichlet allocation(3/3)
θで積分し、zで総和をとると、我々はdocumentの周辺分布を得られる:
p(w | α, β ) = ...
最後に、1documentに対する周辺確率の積によって、corpusの確率が得られる。
p(D | α, β ) = ...
LDA modelを図1に確率グラフィックモデルとして表した。この図が明らかにしているように、LDA表現には3つのレベルがある。パラメータα、βはcorpusレベルのパラメータであり、corpusを生成する段階において1度だけサンプルされると考えられる。
変数θ_dは、documentレベルの変数であり、文書ごとに1度サンプルされる。最後に、変数z_nとw_nはwordレベルの変数であり、それぞれの文章のそれぞれのword毎に1度サンプルされる。
LDAをsimple Ditichlet-multinomial clustering modelと区別する事が重要である。従来のクラスタリングモデルでは、Dirichletが2レベルmodelが必要とされていた。Dirichletはcurpusに対して1度サンプルされ、multinomial clustering 変数がcurpus内の各documentに対して1度選択される、そしてcluster変数上のdocument状態に対してword集合が選択される。
多くのクラスタリングモデルのように、そのようなmodelでは厳密にdocumentは1つのtopicに配分されていた。一方、LDAは3つのレベルを導入し、そして取り分け、topic nodeはdocumentの中から何度もサンプルされる。このモデルにおいて、documentは複数のtopicと関連付ける事が出来る。
図1に示した図に類似した構造としては、Bayesian statical modelingが研究されている、それは階層モデル(Gelman et ak., 1995)や更に精確には、状態独立階層モデル(Kass and Steffery, 1989)として知られている。これらのmodelではまたparametric empirical Bayes modelとして知られている。termが特有のモデル構造だけではなく、モデルにおけるパラメータ最適化する手段にも用いられる(Morris, 1983)。
実際に、Section 5で我々は議論するように、我々は単純なLDA実装のために、empirical Bayes approachをαやβのパラメータ推定のために導入する。しかし、Bayesian を用いる事が全てではないと我々はまた考える。
3. Latent Dirichlet allocation(2/3)
k次元のディレクレ任意変数θが(k-1) simplexの値をとるとする。(θiは0よりも大きく、かつΣθi=1であるとき、k次元ベクトルθはk-1 simplexである)そして、θがこのsimplex上においては以下の確率分布を持つ。
p(θ|α) = Γ(Σα) / Π (Γ α) θ_1 ^ {α_1 - 1)} ... θ_k ^ {α_k - 1)}
ここで、パラメータaはk次元ベクトルであってaiは0よりも大きい。そしてΓ(x)はガンマ関数である。ディレクレはsimplexにおいては扱いやすい分布である。それは指数関数的なファミリーであり、有限の次元の十分統計量を持っており、多項分布に結合しています。Section5では、これらの特性は、LDAのための推論とパラメータ推定のアルゴリズムの開発を促進するでしょう。
ここで、パラメータaとbが与えられた場合の、θ、N個のtopic z、そしてN wordsが与えられた時の結合確率は以下で示される。
p(θ, z, w | α, β) = p(θ|α) Π {n=1~N} { p(z_n | θ) p(w_n | z_n, θ) }
where p(zn jq) is simply qi for the unique i such that zi
n = 1.
ここで、p(z_n | θ) はz_n^i = 1の時にθに単純化できる。
訳注:
- simplex - http://ja.wikipedia.org/wiki/%E5%8D%98%E4%BD%93_(%E6%95%B0%E5%AD%A6)
- この式の導入は…http://ja.wikipedia.org/wiki/%E3%83%87%E3%82%A3%E3%83%AA%E3%82%AF%E3%83%AC%E5%88%86%E5%B8%83
補講:条件付確率
http://ja.wikipedia.org/wiki/%E6%9D%A1%E4%BB%B6%E4%BB%98%E3%81%8D%E7%A2%BA%E7%8E%87
P(A|B) :ある事象B が起こるという条件の下で別の事象A の確率
P(A,B) :ある事象Aとある事象B が同時に起こる確率
p(w_n | z_n , β) だと、
「あるz_nとβの条件下における、w_nの確率」かな?
確率論なんて忘れたよ(;ω;)
3. Latent Dirichlet allocation(1/3)
3. Latent Dirichlet allocation
潜在ディレクト配分法(LDA)は、corpusの生成確率モデルです。基本的な考えは、文章は潜在的topicの任意の混在で表現され、更にtopicはワードの分布で特徴づけられている。1
LDAは、courpus Dの中の各document wに対して、次のgenerative processを仮定します。
1. Choose N ~ Poisson(ξ).
2. Choose q ~ Dir(α).
3. For each of the N words wn:
(a) Choose a topic zn ~ Multinomial(θ).
(b) Choose a word wn from p(w_n | z_n , β), a multinomial probability conditioned on the topic z_n.
この基本形の中で、いくつかの基本的名仮定が作られます、われわれは後のセクションでそれらのうちいくつかを除外します。最初に、ディリクレ分布の次元数k(および、さらにtopic変数zの次元数)は既知であり固定であると仮定します。次に、単語の確率はk×V行列βによってパラメータ化されます、β_ij = P(w^j=1, z^i=1), これは推定するために固定の定量として扱います。
最後に、Poisson仮定においては更に追加される、あるいは必要とされるような利用される現実的な文書長の分布は重要視しません。すなわち、Nは他のデータ生成変数(θ及びz)から独立しています。それは付随的な変数であり、私たちは、一般にsubsequent developmentにおいて、その不確定性を無視するでしょう。
as random mixuture = 任意の混合 っぽい。
2. Notation and terminology(2/2)
形式的に、私たちは次の用語を定義します:
wordは、{1...V}でインデックスを付けられた vocabulary からのitemであると定義されて、不連続データの基本単位です。我々はwordsを単位基準ベクトルを使用して表現します、これはある要素が1と等しく、それ以外は0と等しいです。つまり、肩文字を使って表現するならば、vocabularyに含まれるv番目のwordをV長ベクトルwであらわすならば、w_v=1、かつ、w_u=0ただしuとvは等しくない、となります。
documentは \(w = (w_1, w_2, ... w_N)\) で表現されるN wordsのシーケンスです。ここで、w_nはシーケンス内でのn番目のwordです。
corpusはD={w_1, w_2, ..., w_M}で表現されるM documentの集合です。
私たちは、コーパスの確率モデルを見つけたい、高確率を単に割り当てない、に
コーパスのメンバー、また、他の「同様の」ドキュメントに高確率を帰します。
メモ:
うん?これだと1documentに特定wordが2個、3個含まれていても変わらない?
2. Notation and terminology(1/2)
それではまずLDAの御本尊たる、 http://www.cs.princeton.edu/~blei/papers/BleiNgJordan2003.pdf を読みましょうと。
Exciteの翻訳がほとんと使えるレベルだなあ……
2. 注釈と単語
我々はこの論文においてここでは「words」「documents」と「corpora」のような実体を参照してテキスト集合の言語を扱う。これは、特に私たちがトピックのような抽象的観念を捕らえることを目標とする潜在的変数を導入する場合、それが直観をガイドするのを支援するのに役立ちます。しかし重要なのは、LDAモデルがテキストに必ずしも結び付けられず、コラボラティブ・フィルタリング、コンテンツベースのイメージ検索およびバイオインフォマティクスのような領域からのデータを含むデータの収集に関する他の問題への適用を持っていることに注目することは重要です。確かに、セクション7.3のうち、私たちは、コラボラティブ・フィルタリング領域の実験結果を示します。
不明単語とか
- corpora = コーパスの複数形(ど、どんな変形してるんだ)
- collaborative filtering
- content-based image retrieval
TF-IDFからLDAまでの軌跡(らしきもの)
LDA(Latent Dirichlet Allocation)の論文 (David M.Blei, et al , 2003)にあった、ここら辺のドキュメント解析技術について纏めてみると
- Information retrieval(IR) (Baeza-Yates and Ribeiro-Nto, 1999)
- tf-idf scheme (Salton and McGill, 1983)
- latent scmantic indexing (LSI) (Deerwester et al., 1990)
- (Generative model of textを持ち込み (Papadimitriou etal., 1998))
- probabilistic LSI (pLSI) (Hoffman., 1999)
ここから下はLDAが生まれた経緯っぽい
- assumption of exchngeabillity for the words in a document(Aldous, 1985)
- cclassic representation theorem due to de Finetti(1990)
ということでぐぐってみたら
http://irthoughts.wordpress.com/2009/04/03/vector-space-probabilistic-lsi-and-lda/
ってちゃんとまとまっているサイトあるじゃないですかやだー