LSI
クエリとドキュメントの類似度の計算は、以下のようなクエリ-ドキュメント行列が基本となっている。
通常、この行列は膨大であり、計算コストが高い。
よって、この行列をより小さな行列で近似することで計算量を下げたい。
LSI(Latent Semantic Indexing)とは、高次元の空間にある行列を射影により小さな行列で近似する手法。
近似には、SVD(行列の特異値分解)を使い、相互にに関連のありそうな索引語の次元を特定の次元に縮退させることで全体の次元を削減し、計算コストを下げられる。
また、"car" と "automobile" のような関連語を1つの次元であらわすことにより、再現率も向上させられ、一石二鳥である。