JSICK: 日本語構成的推論・類似度データセットの構築

谷中 瞳; 峯島 宏次

doi:10.11517/pjsai.JSAI2021.0_4J3GS6f02

抄録

単語と文の構造に基づいて新しい文を構成的に理解し，文間の意味的関係を認識することは，より人間らしい自然言語理解をコンピュータによって実現するための基本的な課題の一つである．本研究では，英語の構成的推論・類似度データセットSICKを人手で日本語に翻訳することで日本語の含意関係認識・文間類似度データセットJSICKを構築し，JSICKを学習した汎用言語モデルBERTが否定表現や量化表現といった多様な意味現象を構成的に捉えられているかについて，意味現象のタイプごとに評価を行う．さらに，語順を変えても意味内容が変わらないという日本語独自の性質を考慮して，モデルが意味現象を構成的に捉えているかについて分析を行う．実験の結果，現行の汎用言語モデルは数量表現や語順の入れ替えの扱いにおいて，改善の余地があることが示唆された．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）