anobiidae's blog

個人的に自然言語処理とかに関して、調べ物したもののメモとかを残す場所。

2. Notation and terminology(2/2)

形式的に、私たちは次の用語を定義します:

wordは、{1...V}でインデックスを付けられた vocabulary からのitemであると定義されて、不連続データの基本単位です。我々はwordsを単位基準ベクトルを使用して表現します、これはある要素が1と等しく、それ以外は0と等しいです。つまり、肩文字を使って表現するならば、vocabularyに含まれるv番目のwordをV長ベクトルwであらわすならば、w_v=1、かつ、w_u=0ただしuとvは等しくない、となります。

 

documentは \(w = (w_1, w_2, ... w_N)\) で表現されるN wordsのシーケンスです。ここで、w_nはシーケンス内でのn番目のwordです。

 

corpusはD={w_1, w_2, ..., w_M}で表現されるM documentの集合です。

 

私たちは、コーパスの確率モデルを見つけたい、高確率を単に割り当てない、に

コーパスのメンバー、また、他の「同様の」ドキュメントに高確率を帰します。

 
私たちはcorpusに対する確率モデルを見つけたい。それは、corpusのメンバーに対して高い確率を割りつけるだけではなく、更に"似ている"documentsに対しても高い確率を割りつけたい。
 

メモ:

うん?これだと1documentに特定wordが2個、3個含まれていても変わらない?