時間情報抽出は大きく分けて時間情報表現抽出,時間情報正規化,時間的順序関係解析の三つのタスクに分類される.一つ目の時間情報表現抽出は,固有表現・数値表現抽出の部分問題として解かれてきた.二つ目の時間情報正規化は書き換え系により解かれることが多い.三つ目のタスクである時間的順序関係解析は,事象の時間軸上への対応付けと言い換えることができる.日本語においては時間的順序関係解析のための言語資源が整備されているとは言い難く,アノテーション基準についても研究者で共有されているものはない.本論文では国際標準である ISO-TimeML を日本語に適応させた時間的順序関係アノテーション基準を示す.我々は『現代日本語書き言葉均衡コーパス』(BCCWJ) の新聞記事の部分集合に対して,動詞・形容詞事象表現に TimeML の
〈EVENT〉 相当タグを付与し,その事象の性質に基づき分類を行った.また,この事象表現と先行研究 (小西, 浅原, 前川 2013) により付与されている時間情報表現との間の関係として,TimeML の
〈TLINK〉 相当タグを付与した.事実に基づき統制可能な時間情報正規化と異なり,事象構造の時間的順序関係の認識は言語受容者間で異なる傾向がある.このようなレベルのアノテーションにおいては唯一無二の正解データを作ることは無意味である.むしろ,言語受容者がいかに多様な判断を行うかを評価する被験者実験的なアノテーションが求められている.そこで,本研究では三人の作業者によるアノテーションにおける時間的順序関係認識の齟齬の傾向を分析した.アノテーション結果から,時間軸上の相対的な順序関係については一致率が高い一方,時区間の境界については一致率が低いことがわかった.
抄録全体を表示