日本語数量表現コーパスと推論データセットの構築

小谷野 華那; 谷中 瞳; 峯島 宏次; 戸次 大介

doi:10.5715/jnlp.30.432

抄録

自然言語推論は，前提文が真であるとき，仮説文が真ならば含意，偽ならば矛盾，どちらともいえないならば中立であると判定するタスクであり，言語理解の基礎をなすタスクの一つである．数量表現が現れる文間の推論では，論理的含意と推意の間で判定が異なることがある．また否定文や条件文などの文脈に数量表現が現れる推論では，推論の向きが通常の文脈とは反転することが知られている．さらに日本語の数量表現は出現形式が柔軟であり，様々な助数辞の種類や数量表現の用法がある．しかし，これらの意味論的・語用論的特徴に着目したコーパス，及び，数量表現の理解を問うような推論データセットの構築は十分に進められていない．そこで本研究では，既存の日本語ツリーバンクに含まれる文を用いて，助数辞の種類，数量表現の出現形式，用法といった情報を付与したコーパスを構築する．その上で，このコーパスに基づき，日本語数量表現の推論データセットを構築する．また，構築した推論データセットを用いて，事前学習済み言語モデルである日本語BERTモデルが数量表現の理解を必要とする推論をどの程度扱えるかを調査する実験を行った．実験の結果，日本語 BERT モデルは，様々な数量表現を含む推論の扱いについて課題があることを確認した．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）