全文検索技術は,統制語によるキーワード付けを行う方式と比較して,全処理を自動化できることによる低コスト性,検索量の増加による再現率の向上,という特徴を持つ。全文検索を実現するアルゴリズムには,文字列検索,シグネチャファイル,転置ファイルなどがある。日本語の全文検索システムでは特徴素の取り方として,形態素解析(単語)とN-gram(文字)があり,それぞれ得失がある。転置ファイルを用いた全文検索技術では,ランキング検索が用いられることが多いが,これには通常tf-idf法(文書中の単語頻度×文書DB中での単語の重要度)により関連度が計算される。
抄録全体を表示