2011-11-12から1日間の記事一覧

IIR19章まとめ

19章は、Web検索の基本についてまとめている。検索システムがなければ、欲しい情報を見付けることは当然難しい。 Webにおいて、検索は不可欠なものである。 広告 ご存知の通り、広告は検索結果の右側に現れる。Web検索システムにおいて広告は非常に重要であ…

IIR18章まとめ

18章は、行列の特異値分解とLSIについて。 LSI クエリとドキュメントの類似度の計算は、以下のようなクエリ-ドキュメント行列が基本となっている。 通常、この行列は膨大であり、計算コストが高い。よって、この行列をより小さな行列で近似することで計算量…

IIR17章まとめ

16章で、フラットクラスタリングについてまとめたのに引き続き、17章では階層的クラスタリングについて説明する。階層的クラスタリングとは、以下のような階層を自動的に作り出すことである。 HAC HAC(Hierarchical Agglomerative Clustering)は、ボトムアッ…

IIR16章まとめ

16章は、フラットクラスタリングについて。 クラスタリング クラスタリングとは、データセットをクラスタと呼ばれるサブセットにグループ化する手法。データの類似度を基にクラスタに分ける。教師なし学習(訓練データで学習せずに、データの分布などなどから…

IIR21章まとめ

21章はリンク解析について。PageRankやHITSについて説明している。Webをグラフとして考える。 以下の点から、リンク解析は重要である。 あるページのみを見るよりも、そのページのリンク情報も一緒に見るほうが効果がある。 アンカーテキストは、そのページ…

IIR20章まとめ

20章は、クローラについて。Web検索システムはドキュメントセットをクロールし、ページを取得している。 シンプルなクローラ 基本的なクローラは、以下のように動作する。Webはよくリンクされていると仮定する。 まず、起点となるURLをエンキューする。 以下…