読者です 読者をやめる 読者になる 読者になる

勉強

英会話教材メモ

CD付 ネイティブなら子どものときに身につける 英会話なるほどフレーズ100―誰もここまで教えてくれなかった使える裏技作者: スティーブソレイシィ,ロビンソレイシィ出版社/メーカー: アルク発売日: 2000/04/10メディア: 単行本購入: 77人 クリック: 631回こ…

シェル操作課題やってみた

シェル操作課題やってみた.log.txt server1,1343363124,30,/video.php server2,1343363110,20,/profile.php server3,1343363115,7,/login.php server1,1343363105,8,/profile.php server2,1343363205,35,/profile.php server2,1343363110,20,/profile.php s…

AccuracyとPrecisionの違い

クラス判定などの精度には,AccuracyとPrecisionの2種類がある.Accuracyは,単純にどれだけ正解したかを表し,(TP + TN) / (TP + FP + TN + FN)となる.Precisionは,分類された各クラスのうち,どれだけ正しいのかを表し,positeve: TP / (TP + FP) negati…

Introduction to Information Retrieval

Introduction to Information Retrievalの復習が終わったので、まとめておく。 Introduction to Information Retrieval作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambridge University Press発売日: 2008/07/07メ…

IIR19章まとめ

19章は、Web検索の基本についてまとめている。検索システムがなければ、欲しい情報を見付けることは当然難しい。 Webにおいて、検索は不可欠なものである。 広告 ご存知の通り、広告は検索結果の右側に現れる。Web検索システムにおいて広告は非常に重要であ…

IIR18章まとめ

18章は、行列の特異値分解とLSIについて。 LSI クエリとドキュメントの類似度の計算は、以下のようなクエリ-ドキュメント行列が基本となっている。 通常、この行列は膨大であり、計算コストが高い。よって、この行列をより小さな行列で近似することで計算量…

IIR17章まとめ

16章で、フラットクラスタリングについてまとめたのに引き続き、17章では階層的クラスタリングについて説明する。階層的クラスタリングとは、以下のような階層を自動的に作り出すことである。 HAC HAC(Hierarchical Agglomerative Clustering)は、ボトムアッ…

IIR16章まとめ

16章は、フラットクラスタリングについて。 クラスタリング クラスタリングとは、データセットをクラスタと呼ばれるサブセットにグループ化する手法。データの類似度を基にクラスタに分ける。教師なし学習(訓練データで学習せずに、データの分布などなどから…

IIR21章まとめ

21章はリンク解析について。PageRankやHITSについて説明している。Webをグラフとして考える。 以下の点から、リンク解析は重要である。 あるページのみを見るよりも、そのページのリンク情報も一緒に見るほうが効果がある。 アンカーテキストは、そのページ…

IIR20章まとめ

20章は、クローラについて。Web検索システムはドキュメントセットをクロールし、ページを取得している。 シンプルなクローラ 基本的なクローラは、以下のように動作する。Webはよくリンクされていると仮定する。 まず、起点となるURLをエンキューする。 以下…

IIR15章まとめ

15章では、サポートベクターマシンとドキュメントにおける機械学習について説まとめている。 サポートベクターマシン(Support Vector Machines) サポートベクターマシン(SVM)は、データを2クラスに分類する高性能な線形識別アルゴリズムである。まず、訓練デ…

IIR14章まとめ

13章に続き14章もテキスト分類の話題だが、今回はベクトル空間も用いた手法について考える。 特徴選択 テキスト分類は、一般に高次元のドキュメント空間になる。しかしそこにはレアなタームも多く含まれており、それらは分類に誤りを生じさせるので、ノイズ…

IIR13章まとめ

13章は、テキスト分類とナイーブベイズについて。 テキスト分類 例えば、メールボックスの中からスパムをフィルタリングすることを考えよう。スパムと自動で判別し、フィルタリングするためには、どうすればよいか? また、言語による分類など、様々なところ…

IIR11章まとめ

11章では確率モデルについて説明する。確率モデルは、クエリとドキュメントがどの程度適合しているかを推定する、理論的な基礎となる。 基本的な定理 ベイズの定理 オッズ PRP まず、クエリとドキュメントが適合するかを表す確率変数を定義し、適合していれ…

IIR12章まとめ

12章は言語モデルについて。 言語モデル 言語モデルとは何か?まず、以下の有限オートマトンを見てみる。 この例だと I wish I wish... が生成される。このように、タームとタームの関係性をモデル化したものが、言語モデルである。 確率的言語モデル 確率的…

IIR10章まとめ

10章では、XMLにおける探索において。主なサーチエンジンは、構造化されていないテキストが検索対象だが、ここでは、構造化されているドキュメント(ここではXML)における検索を考える。以下の例で説明する。 Shakespeare Macbeth Macbeth’s castle Will I wi…

IIR9章まとめ

第9章は、適合性フィードバックとクエリ拡張について。情報検索において、再現率をどのように向上させることができるだろうか?例えば、"aircraft" というクエリを投げたとする。この時、単純な情報検索システムでは、"aircraft" は含まれていないが "plane"…

IIR8章まとめ

8章では、サーチエンジンの評価について考察する。まず、サーチエンジンの何を評価したいのか。スピード?サイズ?コスト?それらは全て、ユーザの満足度が基となっている。では、ユーザの満足度とは何か。あるユーザにとっては反応スピードだったり、別のユ…

IIR7章まとめ

6章でVSMについて述べたが、それを実際に適用しようとすると、かなりの計算コストがかかる。そこで7章では、VSMの計算コストを出来るだけ小さくすることを考える。 クエリベクトルの非正規化 6章では、コサイン類似度を求める際、ドキュメントベクトルとクエ…

IIR6章まとめ

6章は、タームの重み付けとVSM(ベクトル空間モデル)について。1章で、Boolean検索について学んだが、これはWeb検索などでは実用的ではない。Boolean検索では、クエリのタームを含むドキュメントが全て結果として返ってくるので、クエリが単純だとヒットしす…

IIR5章まとめ

5章は、インデックス圧縮について。主に、辞書の圧縮と、ポスティングの圧縮に焦点をあてる。 ターム統計 そもそもどの程度のタームがあるのか。ターム数に上限はあるのか。以下に2つの法則を挙げる。 ヒープの法則 ボキャブラリサイズを、ターム数をとする…

IIR4章まとめ

4章は、インデックス構築について。ハードウェアにも言及した、実用上の構築アルゴリズムを説明している。 BSBI(Blocked Sort-Based Indexing) インデックスは巨大でありメモリには載っかりきらないので、ディスクを使うことにする。アルゴリズムは以下。①ド…

IIR3章まとめ

3章は、クエリ入力支援について。 辞書 大量のタームが含まれているインデックスから、どのようにクエリのタームを見付けるか。大きく分けて、ハッシュと木構造の2つのデータ構造がある。どのような時に、どちらを使えばいいのか? ハッシュ クエリのターム…

IIR2章まとめ

前章ではBoolean検索についてまとめたが、ドキュメントもタームもそのままも状態では用いることができない。そこでそれらの問題点、前処理の方法を考えることにする。 ドキュメント フォーマットの問題 pdf, word, excel, html etc... フォーマットごとに処…

IIR1章まとめ

Boolean検索 Boolean検索では、Boolean演算子(and,or,not)を用いてクエリを作成する。例えば、 CAESAR AND BRUTUS というクエリを投げると、CAESARとBRUTUSというタームを共に含むドキュメントをサーチする。インデックスとして、以下のような行列を作成する…

【AP】応用情報勉強法

2週間の勉強で応用情報の午前は何とかなったので、ポイントを書き留めておく。1.メインはFEの参考書で十分これ使って勉強した。 平成22年度 イメージ&クレバー方式でよくわかる 栢木先生の基本情報技術者教室作者: 栢木厚出版社/メーカー: 技術評論社発売…