IIR8章まとめ

8章では、サーチエンジンの評価について考察する。

まず、サーチエンジンの何を評価したいのか。スピード？サイズ？コスト？

それらは全て、ユーザの満足度が基となっている。

では、ユーザの満足度とは何か。あるユーザにとっては反応スピードだったり、別のユーザにとってはUIだったりする。

しかし、最も重要なのは、検索結果と情報ニーズとの適合性である。

よって検索結果と情報ニーズとの適合性を評価していく。

まず、評価には以下のものが必要である。

適合率(Precision)は、検索結果に対して、情報ニーズを満たす結果がどの程度含まれているかを示す尺度である。

再現率(Recall)は、情報ニーズを満たす結果全体のうち、どの程度が検索結果に含まれているかを示す尺度である。

上表を用いると、以下のような式になる。

適合率と再現率はトレードオフである。

適合率を良くしようとすると再現率が下がるし、再現率を良くしようとすると適合率が下がる。

F値とは、適合率と再現率の調和平均であり、適合率と再現率のトレードオフの指標である。F値が高ければ性能が良いことを示す。

以下のような式になる。

αはPとRの重みであり、α=0.5(β=1)がよく用いられる。すなわち、PとRを同じ重みにすることが多い。

その場合は、以下のような式になる。

これを特に $F_1$ 値という。

適合率、再現率、F値は、ランキングされていない集合に対する評価尺度である。

そこで、ランキングに対する評価を考えることにする。

検索結果に対して、上位K件に対する適合率・再現率をそれぞれ求め、それをプロットしたグラフを、適合率-再現率曲線(Precision-recall curve)という。

上グラフの赤線は、補完適合率(interpolated precision)と呼ばれ、ある点より再現率が高い範囲における適合率の最大値である。

※同じ情報検索システムでも、クエリによって適合率-再現率曲線は大幅に異なる場合があるため、異なる情報ニーズ間の比較をするのには適していない。

簡単な例を挙げておく。

ランキング	適合性	適合率	再現率
1	◯	1/1 = 1.00	1/4 = 0.25
2	◯	2/2 = 1.00	2/4 = 0.50
3	×	2/3 = 0.67	2/4 = 0.50
4	×	2/4 = 0.50	2/4 = 0.50
5	◯	3/5 = 0.60	3/4 = 0.75
6	×	3/6 = 0.50	3/4 = 0.75
7	◯	4/7 = 0.57	4/4 = 1.00
8	×	4/8 = 0.50	4/4 = 1.00
9	×	4/9 = 0.44	4/4 = 1.00
10	×	4/10 = 0.40	4/4 = 1.00