抄録
用語は研究成果を記述するために用いられる言語記号であり,研究成果の記述された文献を高度利用し,研究のさらなる発展を期する上で重要な役割を担うものである.本論文では,日本語研究文献テキストから,自然言語処理技術を応用した手法により用語候補を機械的に抽出するための方法について論じる.日本語では多くの用語は語幹レベルでの複合語として出現するが,現在の形態素分類に従う複合語抽出をそのまま適用するのでは,再現率を保ちつつ用語抽出の適合率を高めることは容易ではない.本研究では,抽出対象となる複合語の内部構造と,テキスト内での複合語の前後に対する接続関係に制約を設けることにより,適合率を下げることなく多くの複合語用語候補を抽出することが可能となることを示す.また,抽出された複合語用語候補について,候補間に成立する入れ子関係や候補が関連すると考えられる部分研究テーマの側面から整理し,体系化する試みについて述べる.