2011-11-02から1日間の記事一覧

IIR3章まとめ

3章は、クエリ入力支援について。 辞書 大量のタームが含まれているインデックスから、どのようにクエリのタームを見付けるか。大きく分けて、ハッシュと木構造の2つのデータ構造がある。どのような時に、どちらを使えばいいのか? ハッシュ クエリのターム…

IIR2章まとめ

前章ではBoolean検索についてまとめたが、ドキュメントもタームもそのままも状態では用いることができない。そこでそれらの問題点、前処理の方法を考えることにする。 ドキュメント フォーマットの問題 pdf, word, excel, html etc... フォーマットごとに処…