2024 年 31 巻 1 号 p. 105-133
文書レベル関係抽出 (DocRE) は文書中のすべてのエンティティの組の関係を推定するタスクである.エンティティ組の関係推定に十分な手掛かりを含む文の集合を根拠と呼ぶ.根拠は関係抽出の性能を改善できるが,既存研究では DocRE と根拠認識を別々のタスクとしてモデル化していた.本稿では,根拠認識を関係抽出のモデルに統合する手法を提案する.具体的には,エンティティ組のエンコード過程において,根拠に高い重みを配分するように自己注意機構を誘導することにより,根拠に注目した分散表現を得る.さらに,根拠のアノテーションが付与されていないデータに根拠の疑似的な教師信号を付与し,大量の自動ラベル付けデータを活用する方法を提案する.実験結果から,提案手法は文書レベル関係抽出のベンチマーク DocRED 及び Re-DocRED において,関係抽出と根拠認識の両方で現時点の世界最良性能を達成した.