日本語 Natural Questions と BoolQ の構築

植松 拓也; 王 昊; 福田 創; 河原 大輔; 柴田 知秀

doi:10.5715/jnlp.32.497

抄録

高性能かつ頑健な言語処理モデルを構築するために，多様な質問応答 (QA) データセットにおける訓練，評価，分析が重要である．しかし，多様な QA データセットが存在する言語は英語だけであり，他の言語では少数の QA データセットしか存在しない．我々は，少数の基本的な QA データセットしか存在しない日本語を対象とし，人間の情報欲求から自然に発生する質問からなる Natural Questions (NQ) の日本語版を構築する．自然な質問を収集するために検索エンジンのクエリログを用い，アノテーションのコストを低減するためにクラウドソーシングを用いて，Japanese Natural Questions (JNQ) を構築した．また，NQ の派生で yes/no 質問からなる BoolQ の日本語版 Japanese BoolQ (JBoolQ) を構築した．どちらのデータセットを構築する際においても，より良いデータセットを得るために，オリジナルの NQ もしくは BoolQ のデータセット仕様を再定義した．JNQ は 16,641 質問文，JBoolQ は 6,467 質問文からなる．さらに，JNQ から 3 つのタスク，JBoolQ から一つのタスクを定義し，それぞれのベースラインモデルを作成し評価した．これらのデータセットにより，日本語における QA モデルや言語処理モデルの研究が促進されることが期待される．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）