2011-11-04から1日間の記事一覧

IIR6章まとめ

6章は、タームの重み付けとVSM(ベクトル空間モデル)について。1章で、Boolean検索について学んだが、これはWeb検索などでは実用的ではない。Boolean検索では、クエリのタームを含むドキュメントが全て結果として返ってくるので、クエリが単純だとヒットしす…

IIR5章まとめ

5章は、インデックス圧縮について。主に、辞書の圧縮と、ポスティングの圧縮に焦点をあてる。 ターム統計 そもそもどの程度のタームがあるのか。ターム数に上限はあるのか。以下に2つの法則を挙げる。 ヒープの法則 ボキャブラリサイズを、ターム数をとする…