自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文(査読有)
日本語 Natural Questions と BoolQ の構築
植松 拓也王 昊福田 創河原 大輔柴田 知秀
著者情報
ジャーナル フリー

2025 年 32 巻 2 号 p. 497-519

詳細
抄録

高性能かつ頑健な言語処理モデルを構築するために,多様な質問応答 (QA) データセットにおける訓練,評価,分析が重要である.しかし,多様な QA データセットが存在する言語は英語だけであり,他の言語では少数の QA データセットしか存在しない.我々は,少数の基本的な QA データセットしか存在しない日本語を対象とし,人間の情報欲求から自然に発生する質問からなる Natural Questions (NQ) の日本語版を構築する.自然な質問を収集するために検索エンジンのクエリログを用い,アノテーションのコストを低減するためにクラウドソーシングを用いて,Japanese Natural Questions (JNQ) を構築した.また,NQ の派生で yes/no 質問からなる BoolQ の日本語版 Japanese BoolQ (JBoolQ) を構築した.どちらのデータセットを構築する際においても,より良いデータセットを得るために,オリジナルの NQ もしくは BoolQ のデータセット仕様を再定義した.JNQ は 16,641 質問文,JBoolQ は 6,467 質問文からなる.さらに,JNQ から 3 つのタスク,JBoolQ から一つのタスクを定義し,それぞれのベースラインモデルを作成し評価した.これらのデータセットにより,日本語における QA モデルや言語処理モデルの研究が促進されることが期待される.

著者関連情報
© 2025 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top