IIR4章まとめ - Hello World!!

4章は、インデックス構築について。ハードウェアにも言及した、実用上の構築アルゴリズムを説明している。

インデックスは巨大でありメモリには載っかりきらないので、ディスクを使うことにする。

アルゴリズムは以下。

①ドキュメントセットを等分割。

②分割されたそれぞれでタームid-ドキュメントidをソートする。

③ソートされた中間ファイルをディスク上に保存する。

④全ての中間ファイルをマージする。

BSBIでは、ターム→タームidのマッピングうをしなければならない。

このマッピングはサイズが非常大きくなり、コストがかかる。

そこで、タームidを用いずにターム-ドキュメントidというペアを作り、動的に追加していく。

BSBIと比べて速く、メモリ効率がよい。

Webスケールなどの大規模なインデキシングには、複数のコンピュータが必要。

以下にデータフローを示す。

空いているperserにsplitsを、空いているinverterにsegment filesを割り当てる。

ドキュメントを読み込み、ターム-ドキュメントidのペアを編集する。
頭文字によりj個に分割された部分にそれらを書き込む。(上図の場合はj=3)

ターム-ドキュメントidのペアを部分ごとに集め、ソートしてpostingsに書き込む。

上記では、ドキュメントセットは静的として話を進めてきたが、実際にはドキュメントの挿入・削除・変更などが行われ、動的にドキュメントセットが変更される。

基本的なアイデアとしては、インデックスをメインインデックスと補助インデックスに分ける。

マージの容易さとインデキシングの効率はトレードオフ