2020 年 27 巻 4 号 p. 825-852
本稿は質問を対象とした抽出型要約を扱う.ニューラルネットワークによる抽出型要約モデルの学習には,大規模なラベル付きデータが必要となる.ユーザが自由に記述する Yahoo! 知恵袋などのコミュニティ QA (CQA) に投稿される質問に対しては,ラベル付きデータの獲得が難しい.そこで,本研究ではラベル付きデータが不足する問題を軽減するため,小規模な人手ラベル付きデータに加え,CQA から大量に獲得可能な質問-回答ペアを活用する,半教師あり要約モデルを提案する.また,提案モデルの学習法として,質問-回答ペアを活用した事前学習,同時学習,Distant Supervision による疑似ラベルの活用,サンプリング手法などを提案する.従来の半教師あり学習の枠組みでは考慮されてこなかった,質問-回答といったペア構造から,効率的に要約モデルを学習する手法を考察する.実験より,適切なサンプリング法や疑似ラベルを用いた同時学習手法により,特にラベル付きデータが小規模な場合に良い性能を示したことを報告する.