主催: 一般社団法人 人工知能学会
会議名: 2021年度人工知能学会全国大会(第35回)
回次: 35
開催地: オンライン
開催日: 2021/06/08 - 2021/06/11
類似テキスト検索や生成されたテキストの自動評価など,自然言語処理・テキストマイニングの広範なアプリケーションにおいて文の類似度の計算が重要な役割を果たす.しかし文類似度に関する研究の多くは,自然言語における重要な要素である複単語表現 (Multi-Word Expression; MWE) を考慮していない.複単語表現とは “hot dog” のように句を構成する各単語の意味から句全体の意味を自然に推定できないような句である.言うまでもなく,文全体の意味計算のためには各文に含まれる単語単位での意味計算だけでなく複単語表現の意味計算が必要となる.複単語表現に頑健な文類似度尺度の研究開発を後押しするため,複単語表現の意味計算を要する文類似度評価データを構築する.具体的には,逆翻訳と制約付き文生成を組み合わせた文ペアの生成手法と,BERT によるマスクの予測に基づく文ペアの生成手法を用いる.提案手法によって,類似した文ペアとそうでない文ペアのバランスの取れたデータを作ることが可能であることを示した.