anobiidae's blog

個人的に自然言語処理とかに関して、調べ物したもののメモとかを残す場所。

3. Latent Dirichlet allocation(3/3)

θで積分し、zで総和をとると、我々はdocumentの周辺分布を得られる: p(w | α, β ) = ... 最後に、1documentに対する周辺確率の積によって、corpusの確率が得られる。 p(D | α, β ) = ... LDA modelを図1に確率グラフィックモデルとして表した。この図が明…

3. Latent Dirichlet allocation(2/3)

k次元のディレクレ任意変数θが(k-1) simplexの値をとるとする。(θiは0よりも大きく、かつΣθi=1であるとき、k次元ベクトルθはk-1 simplexである)そして、θがこのsimplex上においては以下の確率分布を持つ。 p(θ|α) = Γ(Σα) / Π (Γ α) θ_1 ^ {α_1 - 1)} ..…

補講:条件付確率

http://ja.wikipedia.org/wiki/%E6%9D%A1%E4%BB%B6%E4%BB%98%E3%81%8D%E7%A2%BA%E7%8E%87 P(A|B) :ある事象B が起こるという条件の下で別の事象A の確率 P(A,B) :ある事象Aとある事象B が同時に起こる確率 p(w_n | z_n , β) だと、 「あるz_nとβの条件下に…

3. Latent Dirichlet allocation(1/3)

3. Latent Dirichlet allocation 潜在ディレクト配分法(LDA)は、corpusの生成確率モデルです。基本的な考えは、文章は潜在的topicの任意の混在で表現され、更にtopicはワードの分布で特徴づけられている。1 LDAは、courpus Dの中の各document wに対して、次…

2. Notation and terminology(2/2)

形式的に、私たちは次の用語を定義します: wordは、{1...V}でインデックスを付けられた vocabulary からのitemであると定義されて、不連続データの基本単位です。我々はwordsを単位基準ベクトルを使用して表現します、これはある要素が1と等しく、それ以外は…

2. Notation and terminology(1/2)

それではまずLDAの御本尊たる、 http://www.cs.princeton.edu/~blei/papers/BleiNgJordan2003.pdf を読みましょうと。 Exciteの翻訳がほとんと使えるレベルだなあ…… 2. 注釈と単語 我々はこの論文においてここでは「words」「documents」と「corpora」のよう…

さて、最新近いものは?

うーん、ICML2011で報告があったというこれが面白そうなんだけどなあ。 http://www.slideshare.net/tsubosaka/icml2011-readingsage

TF-IDFからLDAまでの軌跡(らしきもの)

LDA(Latent Dirichlet Allocation)の論文 (David M.Blei, et al , 2003)にあった、ここら辺のドキュメント解析技術について纏めてみると Information retrieval(IR) (Baeza-Yates and Ribeiro-Nto, 1999) tf-idf scheme (Salton and McGill, 1983) latent sc…

今後の計画?

LDA(Latent Ditichlet Allocation)ってなーに?(~8/15) Gibbs samplingってなーに?(~9/1) HPC(Hierarchical Poisson Convolution)ってなーに?(~9/15) ぐらいかなー、今のところは。