anobiidae's blog

個人的に自然言語処理とかに関して、調べ物したもののメモとかを残す場所。

2012-07-01から1ヶ月間の記事一覧

LDAの実装その2

def inference(self): """イテレーション1回分の推論を行う""" for m, doc in enumerate(self.docs): z_n = self.z_m_n[m] for n, t in enumerate(doc): # n 番目の単語 t (トピック z)についてカウンタを減算 z = z_n[n] self.n_m_z[m, z] -= 1 self.n_z_t[…

しーかたがないのでCGBのコードを解読解読

http://d.hatena.ne.jp/n_shuyo/20110214/lda さんのコードを眺めつつ、CGBを実装するか… class LDA: """LDA : collapsed Gibbs で推論""" def __init__(self, K, alpha, beta): self.K = K self.alpha = alpha # parameter of topics prior self.beta = bet…

wikipediaのタイトルを辞書登録するか(車輪の再発明)

http://d.hatena.ne.jp/aidiary/20101230/1293691668 http://fukushimu.blog.shinobi.jp/Entry/76/ ここらへんを参考に、ipadicからもうちょっとだけ賢い(というか都合のよい)辞書を作ろうか思案中だったけど、ライセンス条項がめんどくさいから、なしかな…

MeCabの謎……メニューの「辞書リコンパイル」は無効?

Windows版MeCabの場合、 ①インストール時に文字コード指定 ②インストール後のメニューで、Recompile XXXX dictionary の二か所で文字コード指定ができそうだけど…… 実質上、①インストール時、のみが有効っぽい。 こまったもんだなあ? x64環境特有の問題?と…

4.1 Unigram model

4.1 Unigram model unigram model下では、全てのdocumentのwordは1つの周辺確率から独立して存在しています。 p(w)= ... これを図3aにグラフィックモデルとして図示します。

4. Relationship with other latent variable models

4. Relationship with other latent variable models この章では、我々はLDAとテキストに対する単純な潜在変数モデル - unigram model, a mixture of unigrams そして pLSI model との比較を行う。さらに、我々はこれらのモデルと一体となった幾何学的解釈を…

3.2 A continuous mixture of unigrams

3.2 A continuous mixture of unigrams 図1に示されるLDA model は古典的な階層的ベイズの論文の中でしばしば研究された2レベルのモデルより多少精巧です。隠しtopic変数zを除外する事で、我々はLDAを2階層modelとして理解する事が出来ます。 特にword分布 p…

3.1 LDA and exchangeability

3.1 LDA and exchangeability 任意変数(z_1, ... z_N)の有限集合、結合分布が順列に依存しない場合に、「exchangeable」であるという。もし、piが1からNまでの整数の順列を持っているならば、 p(z_1, ... z_N) = p (z_pi(1), ... , z_pi(z_N)) もし全ての有…

MeCabるか…… Windowsな場合

MeCabのライセンスは GPL(the GNU General Public License) LGPL(Lesser GNU General Public License) BSD ライセンス に従って本ソフトウェアを使用,再配布することができます。 ということなので、BSDライセンスに従えば、LGPLのために動的リンク対応をし…

3. Latent Dirichlet allocation(3/3)

θで積分し、zで総和をとると、我々はdocumentの周辺分布を得られる: p(w | α, β ) = ... 最後に、1documentに対する周辺確率の積によって、corpusの確率が得られる。 p(D | α, β ) = ... LDA modelを図1に確率グラフィックモデルとして表した。この図が明…

3. Latent Dirichlet allocation(2/3)

k次元のディレクレ任意変数θが(k-1) simplexの値をとるとする。(θiは0よりも大きく、かつΣθi=1であるとき、k次元ベクトルθはk-1 simplexである)そして、θがこのsimplex上においては以下の確率分布を持つ。 p(θ|α) = Γ(Σα) / Π (Γ α) θ_1 ^ {α_1 - 1)} ..…

補講:条件付確率

http://ja.wikipedia.org/wiki/%E6%9D%A1%E4%BB%B6%E4%BB%98%E3%81%8D%E7%A2%BA%E7%8E%87 P(A|B) :ある事象B が起こるという条件の下で別の事象A の確率 P(A,B) :ある事象Aとある事象B が同時に起こる確率 p(w_n | z_n , β) だと、 「あるz_nとβの条件下に…

3. Latent Dirichlet allocation(1/3)

3. Latent Dirichlet allocation 潜在ディレクト配分法(LDA)は、corpusの生成確率モデルです。基本的な考えは、文章は潜在的topicの任意の混在で表現され、更にtopicはワードの分布で特徴づけられている。1 LDAは、courpus Dの中の各document wに対して、次…

2. Notation and terminology(2/2)

形式的に、私たちは次の用語を定義します: wordは、{1...V}でインデックスを付けられた vocabulary からのitemであると定義されて、不連続データの基本単位です。我々はwordsを単位基準ベクトルを使用して表現します、これはある要素が1と等しく、それ以外は…

2. Notation and terminology(1/2)

それではまずLDAの御本尊たる、 http://www.cs.princeton.edu/~blei/papers/BleiNgJordan2003.pdf を読みましょうと。 Exciteの翻訳がほとんと使えるレベルだなあ…… 2. 注釈と単語 我々はこの論文においてここでは「words」「documents」と「corpora」のよう…

さて、最新近いものは?

うーん、ICML2011で報告があったというこれが面白そうなんだけどなあ。 http://www.slideshare.net/tsubosaka/icml2011-readingsage

TF-IDFからLDAまでの軌跡(らしきもの)

LDA(Latent Dirichlet Allocation)の論文 (David M.Blei, et al , 2003)にあった、ここら辺のドキュメント解析技術について纏めてみると Information retrieval(IR) (Baeza-Yates and Ribeiro-Nto, 1999) tf-idf scheme (Salton and McGill, 1983) latent sc…

今後の計画?

LDA(Latent Ditichlet Allocation)ってなーに?(~8/15) Gibbs samplingってなーに?(~9/1) HPC(Hierarchical Poisson Convolution)ってなーに?(~9/15) ぐらいかなー、今のところは。