抄録
情報検索システムにおいて,最近では情報がファイル化された後の検索処理に関する技法は一応実用にたえるものとなったので,ファイル作成までの技術,そのうちでもとくに索引作成の自動化は,今後早急に解決しなければならない問題となってきた。本稿はこのような自動索引作成の意義に触れ,従来の手法の概括的整理を行なった上で,いわゆる「複合語」を抽出単位とした自動索引システムを提唱している。すなわち,従来の自動索引の手法は原文脈から単語を索引語の単位として抽出していたが,これでは索引語としてのSpecificityに欠け,かつ索引ファイルの冗長性が大きい。KWESTとはKey Word Extracted as a String of Termsの略で,原文脈中のストップワードではさまれた用語のストリングを抽出の単位として,これを索引語とするものである。サンプルの評価では,KWIC/KWOC手法によるファイルに対して47.8%の冗長性低下をみた。