人工知能学会全国大会論文集
Online ISSN : 2758-7347
第35回 (2021)
セッションID: 4J3-GS-6f-01
会議情報

複単語表現の意味計算を要する文類似度評価データの構築
*神戸 隆志横井 祥吉川 将司乾 健太郎
著者情報
会議録・要旨集 フリー

詳細
抄録

類似テキスト検索や生成されたテキストの自動評価など,自然言語処理・テキストマイニングの広範なアプリケーションにおいて文の類似度の計算が重要な役割を果たす.しかし文類似度に関する研究の多くは,自然言語における重要な要素である複単語表現 (Multi-Word Expression; MWE) を考慮していない.複単語表現とは “hot dog” のように句を構成する各単語の意味から句全体の意味を自然に推定できないような句である.言うまでもなく,文全体の意味計算のためには各文に含まれる単語単位での意味計算だけでなく複単語表現の意味計算が必要となる.複単語表現に頑健な文類似度尺度の研究開発を後押しするため,複単語表現の意味計算を要する文類似度評価データを構築する.具体的には,逆翻訳と制約付き文生成を組み合わせた文ペアの生成手法と,BERT によるマスクの予測に基づく文ペアの生成手法を用いる.提案手法によって,類似した文ペアとそうでない文ペアのバランスの取れたデータを作ることが可能であることを示した.

著者関連情報
© 2021 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top