8章では、サーチエンジンの評価について考察する。
まず、サーチエンジンの何を評価したいのか。スピード?サイズ?コスト?
それらは全て、ユーザの満足度が基となっている。
では、ユーザの満足度とは何か。あるユーザにとっては反応スピードだったり、別のユーザにとってはUIだったりする。
しかし、最も重要なのは、検索結果と情報ニーズとの適合性である。
よって検索結果と情報ニーズとの適合性を評価していく。
まず、評価には以下のものが必要である。
- ドキュメントセット
- クエリ群
- クエリとドキュメントの適合性
評価尺度
適合率と再現率
適合率(Precision)は、検索結果に対して、情報ニーズを満たす結果がどの程度含まれているかを示す尺度である。
再現率(Recall)は、情報ニーズを満たす結果全体のうち、どの程度が検索結果に含まれているかを示す尺度である。
適合率と再現率はトレードオフである。
適合率を良くしようとすると再現率が下がるし、再現率を良くしようとすると適合率が下がる。
ランキング評価
適合率、再現率、F値は、ランキングされていない集合に対する評価尺度である。
そこで、ランキングに対する評価を考えることにする。
適合率-再現率曲線
検索結果に対して、上位K件に対する適合率・再現率をそれぞれ求め、それをプロットしたグラフを、適合率-再現率曲線(Precision-recall curve)という。
上グラフの赤線は、補完適合率(interpolated precision)と呼ばれ、ある点より再現率が高い範囲における適合率の最大値である。
※同じ情報検索システムでも、クエリによって適合率-再現率曲線は大幅に異なる場合があるため、異なる情報ニーズ間の比較をするのには適していない。
簡単な例を挙げておく。
ランキング | 適合性 | 適合率 | 再現率 |
---|---|---|---|
※上表は、検索結果が全10件の場合
11点補完平均適合率
再現率が0.0, 0.1, 0.2, …, 1.0 における11点の補完適合率を求め、それらの平均を求めたものを、11点補完平均適合率(11-point interpolated average precision)という。
MAP
平均適合率を各情報ニーズに付いて算出し、それを全情報ニーズについて平均したものを、MAPといい、複数の情報ニーズへの評価を一つの値にまとめる指標である。
R-適合率
適合文書集合のサイズが分かっている場合、そのサイズをRelとして、上位Rel件の適合率を求める。これをR-適合率という。
適合性評価のベンチマーク
適合性評価には、以下のものが必要である。
- ドキュメントセット
- 情報ニーズの集合
- 人間による適合性評価
また、標準的なベンチマークとしては、Cranfield、TRECなど、様々なものがある。
Kappa統計
そもそも適合率評価とは主観的なものにすぎない。
本当に適合しているかどうかをどのように判断したらよいか?
そこで用いるのがKappa統計であり、複数の適合率判断に対して、判断の一致率を検定するものである。
A/Bテスト
A/Bテストとは、一部のユーザにだけ新しいシステムを使ってみてもらい、今までのシステムとの効果を比較し、評価する手法。
新しいシステムがユーザの満足度を向上させているかを直接的に見ることができる。
Marginal Relevance
今までは、適合性をクエリ-ドキュメント間の独立したものとして考えてきたが、他のドキュメントとの類似関係を利用して適合性を求めることを考える。
これをMarginal Relevanceといい、ユーザの満足度を評価する、より現実的な手法といえる。
ランキング結果の表示
多くのサーチエンジンのランキング結果表示は以下のようになっている。
ここでは、赤枠で囲んだ部分に着目する。この部分をスニペットといい、そのページのサマリを表示する。
サマリの表示方法として、以下の2つがある。
静的サマリ
クエリに関係なく、常に同じサマリが表示される。
サマリがドキュメントのサブセットであり、ドキュメントの最初の50ワードや、キーセンテンスといった、決まった部分を表示する。