IIR19章まとめ

19章は、Web検索の基本についてまとめている。

検索システムがなければ、欲しい情報を見付けることは当然難しい。

Webにおいて、検索は不可欠なものである。

Webには、似たような情報がいっぱいある。

例えば、検索結果が似たような情報ばかりだとユーザはいらいらするし、いくら情報ニーズと適合していても、似たような情報の後に出てくると価値がなくなる。

このような理由で、重複データはなくしたい。

では、どのように重複データを見付け、なくすことができるのか？

ここでは、文法上の類似度の高いものを重複と判断する。(意味的な類似度をコンピュータで求めるのは難しい)

2つのドキュメントをnグラムを適用し、その類似度をJaccard係数で求める。

以下に例を示す。

J(d1, d2) = 3/8 = 0.375

J(d1, d3) = 0

ドキュメントにおいて、nグラムを全て扱うとかなりコストがかかるが、それらをスケッチし、nグラムの一部のみを扱うことで、効率がよくなる。

Hello World!!