anobiidae's blog

個人的に自然言語処理とかに関して、調べ物したもののメモとかを残す場所。

自然言語処理

3. Latent Dirichlet allocation(1/3)

3. Latent Dirichlet allocation 潜在ディレクト配分法(LDA)は、corpusの生成確率モデルです。基本的な考えは、文章は潜在的topicの任意の混在で表現され、更にtopicはワードの分布で特徴づけられている。1 LDAは、courpus Dの中の各document wに対して、次…

2. Notation and terminology(2/2)

形式的に、私たちは次の用語を定義します: wordは、{1...V}でインデックスを付けられた vocabulary からのitemであると定義されて、不連続データの基本単位です。我々はwordsを単位基準ベクトルを使用して表現します、これはある要素が1と等しく、それ以外は…

2. Notation and terminology(1/2)

それではまずLDAの御本尊たる、 http://www.cs.princeton.edu/~blei/papers/BleiNgJordan2003.pdf を読みましょうと。 Exciteの翻訳がほとんと使えるレベルだなあ…… 2. 注釈と単語 我々はこの論文においてここでは「words」「documents」と「corpora」のよう…

さて、最新近いものは?

うーん、ICML2011で報告があったというこれが面白そうなんだけどなあ。 http://www.slideshare.net/tsubosaka/icml2011-readingsage

TF-IDFからLDAまでの軌跡(らしきもの)

LDA(Latent Dirichlet Allocation)の論文 (David M.Blei, et al , 2003)にあった、ここら辺のドキュメント解析技術について纏めてみると Information retrieval(IR) (Baeza-Yates and Ribeiro-Nto, 1999) tf-idf scheme (Salton and McGill, 1983) latent sc…

今後の計画?

LDA(Latent Ditichlet Allocation)ってなーに?(~8/15) Gibbs samplingってなーに?(~9/1) HPC(Hierarchical Poisson Convolution)ってなーに?(~9/15) ぐらいかなー、今のところは。