TF-IDFからLDAまでの軌跡(らしきもの)
LDA(Latent Dirichlet Allocation)の論文 (David M.Blei, et al , 2003)にあった、ここら辺のドキュメント解析技術について纏めてみると
- Information retrieval(IR) (Baeza-Yates and Ribeiro-Nto, 1999)
- tf-idf scheme (Salton and McGill, 1983)
- latent scmantic indexing (LSI) (Deerwester et al., 1990)
- (Generative model of textを持ち込み (Papadimitriou etal., 1998))
- probabilistic LSI (pLSI) (Hoffman., 1999)
ここから下はLDAが生まれた経緯っぽい
- assumption of exchngeabillity for the words in a document(Aldous, 1985)
- cclassic representation theorem due to de Finetti(1990)
ということでぐぐってみたら
http://irthoughts.wordpress.com/2009/04/03/vector-space-probabilistic-lsi-and-lda/
ってちゃんとまとまっているサイトあるじゃないですかやだー