11章では確率モデルについて説明する。
確率モデルは、クエリとドキュメントがどの程度適合しているかを推定する、理論的な基礎となる。
PRP
まず、クエリとドキュメントが適合するかを表す確率変数を定義し、適合していれば 1 、そうでなければ 0 の2値を取るものとする。
そして、適合性の推定確率 P(R=1|d,q)によりランキングを行う。
これをPRP(Probability Ranking Principle)という。
以下では、PRPで伝統的に用いられているBIM(Binary Independence Model)について説明する。
BIM
クエリとドキュメントを、タームベクトル(出現: 1, 非出現: 0)で表現する。また、各タームは独立している。
まず、ベイズの定理で以下の式が得られる。
次に、ドキュメントのランキングを簡単にするために、オッズを考える。
ここで赤枠の部分は、クエリに対して定数なので無視してよい。
また、ベクトルの各要素は0か1なので、それによって項を分割する。
ここで、次のように置き換える。
ここで、クエリに出現しない単語は適合・不適合ドキュメントにおいて同じくらい出現すると仮定する。
すなわち、のときと仮定する。
ここで赤枠の部分は、クエリに対して定数なので無視してよく、青枠の部分で決まることになる。
よって、文書群、クエリが与えられた際にを推定する問題、すなわち、クエリベクトルに対して適合/非適合な文書それぞれに索引語が出現する確率を推定する問題へと帰着したことになる。
また、現代の全文検索に対応するべく、BIMに単語のtfや文書長などを加味して性能を改善したモデルをOkari BM25といい、現在最も広く使われている、ロバストなモデルとなっている。