anobiidae's blog

個人的に自然言語処理とかに関して、調べ物したもののメモとかを残す場所。

TF-IDFからLDAまでの軌跡(らしきもの)

LDA(Latent Dirichlet Allocation)の論文 (David M.Blei, et al , 2003)にあった、ここら辺のドキュメント解析技術について纏めてみると

  • Information retrieval(IR) (Baeza-Yates and Ribeiro-Nto, 1999) 
  • tf-idf scheme (Salton and McGill, 1983)
  • latent scmantic indexing (LSI) (Deerwester et al., 1990)
  • (Generative model of textを持ち込み (Papadimitriou etal., 1998))
  • probabilistic LSI (pLSI) (Hoffman., 1999)

ここから下はLDAが生まれた経緯っぽい

  • assumption of exchngeabillity for the words in a document(Aldous, 1985)
  • cclassic representation theorem due to de Finetti(1990)

 

 ということでぐぐってみたら

http://irthoughts.wordpress.com/2009/04/03/vector-space-probabilistic-lsi-and-lda/

ってちゃんとまとまっているサイトあるじゃないですかやだー