2021 年 28 巻 1 号 p. 3-25
近年の言語モデリング技術の進展に伴い,クローズドブック質問応答と呼ばれる,読解を伴わない質問応答タスクの研究が進められている.既存研究では,モデルの訓練可能なパラメータ数を増大させることや,モデルの構造をより洗練されることに重点が置かれてきた.本研究では,モデルに多様な事実知識を効率的に持たせるために,データ指向のアプローチを選択し,その有効性を検証する.具体的には,事実知識の知識源として Wikipedia を利用した拡張データセットを作成し,モデルの訓練に利用する.実験により,データ拡張を用いて訓練したモデルが,訓練データでは見られなかった質問に正しく答えることができ,モデルが拡張データから新しい知識を学習していることを示唆する結果が得られた.正解率の評価では,Quizbowl の従来の最高性能を更新し,TriviaQA の強力な系列生成モデルに匹敵する性能をおよそ 20 分の 1 のパラメータ数で実現した.