2025 年 32 巻 2 号 p. 497-519
高性能かつ頑健な言語処理モデルを構築するために,多様な質問応答 (QA) データセットにおける訓練,評価,分析が重要である.しかし,多様な QA データセットが存在する言語は英語だけであり,他の言語では少数の QA データセットしか存在しない.我々は,少数の基本的な QA データセットしか存在しない日本語を対象とし,人間の情報欲求から自然に発生する質問からなる Natural Questions (NQ) の日本語版を構築する.自然な質問を収集するために検索エンジンのクエリログを用い,アノテーションのコストを低減するためにクラウドソーシングを用いて,Japanese Natural Questions (JNQ) を構築した.また,NQ の派生で yes/no 質問からなる BoolQ の日本語版 Japanese BoolQ (JBoolQ) を構築した.どちらのデータセットを構築する際においても,より良いデータセットを得るために,オリジナルの NQ もしくは BoolQ のデータセット仕様を再定義した.JNQ は 16,641 質問文,JBoolQ は 6,467 質問文からなる.さらに,JNQ から 3 つのタスク,JBoolQ から一つのタスクを定義し,それぞれのベースラインモデルを作成し評価した.これらのデータセットにより,日本語における QA モデルや言語処理モデルの研究が促進されることが期待される.