LDAの実装その２

自然言語処理 LDA

def inference(self): """イテレーション1回分の推論を行う""" for m, doc in enumerate(self.docs): z_n = self.z_m_n[m] for n, t in enumerate(doc): # n 番目の単語 t (トピック z)についてカウンタを減算 z = z_n[n] self.n_m_z[m, z] -= 1 self.n_z_t[…

2012-07-30

しーかたがないのでCGBのコードを解読解読

LDA 自然言語処理

http://d.hatena.ne.jp/n_shuyo/20110214/lda さんのコードを眺めつつ、CGBを実装するか… class LDA: """LDA : collapsed Gibbs で推論""" def __init__(self, K, alpha, beta): self.K = K self.alpha = alpha # parameter of topics prior self.beta = bet…

2012-07-28

wikipediaのタイトルを辞書登録するか（車輪の再発明）

自然言語処理 MeCab

http://d.hatena.ne.jp/aidiary/20101230/1293691668 http://fukushimu.blog.shinobi.jp/Entry/76/ ここらへんを参考に、ipadicからもうちょっとだけ賢い（というか都合のよい）辞書を作ろうか思案中だったけど、ライセンス条項がめんどくさいから、なしかな…

2012-07-28

MeCabの謎……メニューの「辞書リコンパイル」は無効？

MeCab 自然言語処理

Windows版MeCabの場合、 ①インストール時に文字コード指定 ②インストール後のメニューで、Recompile XXXX dictionary の二か所で文字コード指定ができそうだけど…… 実質上、①インストール時、のみが有効っぽい。こまったもんだなあ？ x64環境特有の問題？と…

2012-07-27

4.1 Unigram model

自然言語処理 LDA

4.1 Unigram model unigram model下では、全てのdocumentのwordは１つの周辺確率から独立して存在しています。 p(w)= ... これを図3aにグラフィックモデルとして図示します。

2012-07-27

4. Relationship with other latent variable models

自然言語処理 LDA

4. Relationship with other latent variable models この章では、我々はLDAとテキストに対する単純な潜在変数モデル - unigram model, a mixture of unigrams そして pLSI model との比較を行う。さらに、我々はこれらのモデルと一体となった幾何学的解釈を…

2012-07-27

3.2 A continuous mixture of unigrams

自然言語処理 LDA

3.2 A continuous mixture of unigrams 図1に示されるLDA model は古典的な階層的ベイズの論文の中でしばしば研究された2レベルのモデルより多少精巧です。隠しtopic変数zを除外する事で、我々はLDAを2階層modelとして理解する事が出来ます。特にword分布 p…

2012-07-26

3.1 LDA and exchangeability

自然言語処理 LDA

3.1 LDA and exchangeability 任意変数(z_1, ... z_N)の有限集合、結合分布が順列に依存しない場合に、「exchangeable」であるという。もし、piが1からNまでの整数の順列を持っているならば、 p(z_1, ... z_N) = p (z_pi(1), ... , z_pi(z_N)) もし全ての有…

2012-07-25

MeCabるか…… Windowsな場合

自然言語処理

MeCabのライセンスは GPL(the GNU General Public License) LGPL(Lesser GNU General Public License) BSD ライセンスに従って本ソフトウェアを使用,再配布することができます。ということなので、BSDライセンスに従えば、LGPLのために動的リンク対応をし…

2012-07-25

3. Latent Dirichlet allocation(3/3)

自然言語処理 LDA

θで積分し、zで総和をとると、我々はdocumentの周辺分布を得られる： p(w | α, β ) = ... 最後に、１documentに対する周辺確率の積によって、corpusの確率が得られる。 p(D | α, β ) = ... LDA modelを図1に確率グラフィックモデルとして表した。この図が明…

2012-07-24

3. Latent Dirichlet allocation(2/3)

LDA 自然言語処理

k次元のディレクレ任意変数θが(k-1) simplexの値をとるとする。（θiは0よりも大きく、かつΣθi=1であるとき、k次元ベクトルθはk-1 simplexである）そして、θがこのsimplex上においては以下の確率分布を持つ。 p(θ|α) = Γ(Σα) ／ Π (Γ α) θ_1 ^ {α_1 - 1)} ..…

2012-07-23

補講：条件付確率

自然言語処理確率

http://ja.wikipedia.org/wiki/%E6%9D%A1%E4%BB%B6%E4%BB%98%E3%81%8D%E7%A2%BA%E7%8E%87 P(A|B) ：ある事象B が起こるという条件の下で別の事象A の確率 P(A,B) ：ある事象Aとある事象B が同時に起こる確率 p(w_n | z_n , β) だと、「あるz_nとβの条件下に…

2012-07-23

3. Latent Dirichlet allocation(1/3)

自然言語処理 LDA

3. Latent Dirichlet allocation 潜在ディレクト配分法(LDA)は、corpusの生成確率モデルです。基本的な考えは、文章は潜在的topicの任意の混在で表現され、更にtopicはワードの分布で特徴づけられている。1 LDAは、courpus Dの中の各document wに対して、次…

2012-07-23

2. Notation and terminology(2/2)

LDA 自然言語処理

形式的に、私たちは次の用語を定義します: wordは、{1...V}でインデックスを付けられた vocabulary からのitemであると定義されて、不連続データの基本単位です。我々はwordsを単位基準ベクトルを使用して表現します、これはある要素が1と等しく、それ以外は…

2012-07-23

2. Notation and terminology(1/2)

LDA 自然言語処理

それではまずLDAの御本尊たる、 http://www.cs.princeton.edu/~blei/papers/BleiNgJordan2003.pdf を読みましょうと。 Exciteの翻訳がほとんと使えるレベルだなあ…… 2. 注釈と単語我々はこの論文においてここでは「words」「documents」と「corpora」のよう…

2012-07-22

さて、最新近いものは？

自然言語処理

うーん、ICML2011で報告があったというこれが面白そうなんだけどなあ。 http://www.slideshare.net/tsubosaka/icml2011-readingsage

2012-07-22

TF-IDFからLDAまでの軌跡（らしきもの）

自然言語処理

LDA(Latent Dirichlet Allocation)の論文 (David M.Blei, et al , 2003)にあった、ここら辺のドキュメント解析技術について纏めてみると Information retrieval(IR) (Baeza-Yates and Ribeiro-Nto, 1999) tf-idf scheme (Salton and McGill, 1983) latent sc…

2012-07-22

今後の計画？

自然言語処理

LDA(Latent Ditichlet Allocation)ってなーに？（～8/15） Gibbs samplingってなーに？(～9/1) HPC(Hierarchical Poisson Convolution)ってなーに？(～9/15) ぐらいかなー、今のところは。

anobiidae's blog

個人的に自然言語処理とかに関して、調べ物したもののメモとかを残す場所。

2012-07-01から1ヶ月間の記事一覧

LDAの実装その２

しーかたがないのでCGBのコードを解読解読

wikipediaのタイトルを辞書登録するか（車輪の再発明）

MeCabの謎……メニューの「辞書リコンパイル」は無効？

4.1 Unigram model

4. Relationship with other latent variable models

3.2 A continuous mixture of unigrams

3.1 LDA and exchangeability

MeCabるか…… Windowsな場合

3. Latent Dirichlet allocation(3/3)

3. Latent Dirichlet allocation(2/3)

補講：条件付確率

3. Latent Dirichlet allocation(1/3)

2. Notation and terminology(2/2)

2. Notation and terminology(1/2)

さて、最新近いものは？

TF-IDFからLDAまでの軌跡（らしきもの）

今後の計画？