Zero-shotラベルセットの自動生成および聴解テスト対話の属性分類

NI YANGDI; SHAN Junjie; 西原 陽子

doi:10.11517/pjsai.JSAI2024.0_1J5OS10c04

抄録

Zero-shot分類は，同じテキストに対しても，ラベルセットの選択により異なる分類結果が得られる可能性がある．本論文では，対義語置換やWordNetを用いた同義語への変換によって，同じ分類目標に対して大量のラベルセット候補を生成し，適切なラベルセットを抽出する手法を提案する．分類手法として，1.BERTによるテキストのcos類似度を用いる手法，2. OpenAIのEmbeddingモデルを用いる手法，3. MoritzLauerモデルを用いる手法の合計3種類を用意した．評価実験では，日本語能力試験の過去問から，N1からN5の各レベル50件ずつの聴解テスト対話文を収集し，合計250件に対して分類を行った．分類された対話文の属性は，対話場所（6分類），話者の人間関係(2分類，4分類），対話形式（2分類）の3つであった． 212個のラベルセット候補を作成し，精度をRMSE（二条平均誤差）で算出したところ，提案手法によりZero-shot分類の精度が高いラベルセットが得られることを確認した.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）