IIR11章まとめ

11章では確率モデルについて説明する。

確率モデルは、クエリとドキュメントがどの程度適合しているかを推定する、理論的な基礎となる。

基本的な定理

ベイズの定理

オッズ

PRP

まず、クエリとドキュメントが適合するかを表す確率変数 R_{d,q}を定義し、適合していれば 1 、そうでなければ 0 の2値を取るものとする。

そして、適合性の推定確率 P(R=1|d,q)によりランキングを行う。

これをPRP(Probability Ranking Principle)という。

以下では、PRPで伝統的に用いられているBIM(Binary Independence Model)について説明する。

BIM

クエリとドキュメントを、タームベクトル(出現: 1, 非出現: 0)で表現する。また、各タームは独立している。

まず、ベイズの定理で以下の式が得られる。

次に、ドキュメントのランキングを簡単にするために、オッズを考える。

ここで赤枠の部分は、クエリに対して定数なので無視してよい。

また、各タームは独立しているので、以下のように変形できる。

したがって、以下のようになる。

また、ベクトルの各要素は0か1なので、それによって項を分割する。

ここで、次のように置き換える。


すると、以下の表のようになる。

ここで、クエリに出現しない単語は適合・不適合ドキュメントにおいて同じくらい出現すると仮定する。

すなわち、q_t = 0のとき p_t = u_tと仮定する。

すると、以下のように変形できる。

これは、更に次のように変形できる。

ここで赤枠の部分は、クエリに対して定数なので無視してよく、青枠の部分で決まることになる。

よって、青枠の部分のlogをとった RSV_dの計算に落ち着く。

また、次のように c_tを定める。

すると、最終的に以下の式が得られる。

よって、文書群、クエリが与えられた際に c_tを推定する問題、すなわち、クエリベクトルに対して適合/非適合な文書それぞれに索引語が出現する確率を推定する問題へと帰着したことになる。

また、現代の全文検索に対応するべく、BIMに単語のtfや文書長などを加味して性能を改善したモデルをOkari BM25といい、現在最も広く使われている、ロバストなモデルとなっている。