人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 1E4-GS-6-02
会議情報

制御可能な日本語時間推論データセットの構築
*杉本 智紀尾上 康雅谷中 瞳
著者情報
会議録・要旨集 フリー

詳細
抄録

時間に関する自然言語推論は事前学習済み言語モデルにとって挑戦的なタスクである.そのため,これまで様々な評価用データセットが構築されてきた.しかし,既存のデータセットは主に英語を対象としており,他言語を扱ったものは少ない.そこで本研究では,時間推論に関する日本語NLIベンチマークを構築する.提案手法では,まず形式意味論のテストセットに基づいて様々な推論パターンからなる時間推論テンプレートを作成する.次に,テンプレートに対して日本語格フレームを用いて動詞や名詞,時間表現を自動で割り当てることで,多様な時間推論の問題を生成する.構築したデータセットを制御して分割し,言語モデルの学習・評価に用いることで,時間推論パターンや時間表現における多言語・単言語の言語モデルの汎化性能を評価する.実験により,既存の言語モデルは習慣などの特定の言語現象の理解に課題があることを示す.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top