抄録
本稿では, コーパスから新しい言語資料となり得る文の拘束表現の一つである呼応表現を客観的かつ網羅的に抽出することを目的として, さまざまな類似尺度を用いて抽出を行い, その結果を比較評価することにより, 呼応表現抽出手法の確立を目指す.呼応表現とは, 一文において陳述副詞と呼ばれる副詞や係助詞が文の叙法性を決定する文末近くにある述語の表現を拘束する表現である.この表現を知ることで文末に達する前に文を理解することが可能となる。我々は, このような呼応表現を実用的な規模でコーパスから抽出し, 呼応表現のデータベースを作成することを目標としている.そこで, 本稿では, 呼応表現を抽出する問題に適した尺度を検討する.尺度の適用性を評価するために, 7つの尺度それぞれの上位500件 (計3500件) を正解候補とした後, 人手で判定し, 正解作成を行った.その得られた正解表現で評価した結果, 本実験において, イエーツの補正公式が上位の辺りで高い正解率を持ち, 補完類似度が評価対象とする抽出表現が増しても他の尺度に比べ再現率を保持したことを報告する.また, 網羅性と精度の向上を目指し, 抽出結果の統合や文中の要素間の距離について考える.その結果, 本実験において, 網羅性とともに精度の向上が得られたことを示す。