anobiidae's blog

個人的に自然言語処理とかに関して、調べ物したもののメモとかを残す場所。

Fast LDA(3/3)

By organizing the segments in this way, we can obtain a substantial advantage:

この方法でsegmentを組織化することで、以下のようなadvantageを得る事が出来る。

 

we can check each segments in order, knowing only p1 . . . pk and Zk, and if we find that u falls within a particular segment sk l , the remaining segments are irrelevant.

我々はそれぞれのp1,...pkとして並んでいるsegmentとZkをチェックする。そしてもしsegment s_k_l部分でuが決定できれば、残りのsegmentについては見当違いとできる。

 

Importantly, if for our sequence of bounds Z1 . . .ZK, an intermediate bound Zl depends only on the values of ajk and bjk for k ≤ l, then we may be able to draw the sample after only examining topics 1 . . . l.

重要なことは、もしbounds Z1, ZKの我々のシーケンスに対しては、bound Zlはajk, bjkの値だけを必要としている場合、我々はきっとtopic 1...lだけからsampleを選出する事が出来るだろう。

 

Given that in LDA, the probability mass is typically concentrated on a small subset of topics for a given word and document, in practice we may have to do far fewer operations per sample on average.

LDAにとってはこれによって、確率が、既知のwordとdocumentに対するtopicの小さな部分集合に集中する事が出来、実運用上、平均的に1サンプル当たりの処理を減らせた。

 

※ aとかbの説明はまだ出てきていないっす。