LLMを用いた質的コーディングによる音声対話における沈黙の分類

井上 昂治; 内田 貴久; 河原 達也; 石黒 浩

doi:10.11517/jsaislud.106.0_88

抄録

音声対話における「沈黙」は、思考、ターン調整、ためらいなど多様な意図を含んでいるが、従来の音声対話処理では主に「無音区間の長さ」という物理量として扱われてきた。本研究では沈黙の分類体系を構築することを目的とする。まず、クラウドソーシングを用い、対話音声中の沈黙に対して聴取者が抱いた「その理由」と「印象」を自由記述で収集した。次に、大規模言語モデル（LLM）を用いた質的コーディングを適用し、記述データの概念化と構造化を行った。このボトムアップなアプローチにより、沈黙の「理由」で10種類、「印象」で12種類の分類ラベルを構築した。また、構築したラベルの自動認識実験を通じて、現在のLLMでは対人関係や感情に関わる沈黙の認識には課題があることがわかった。

著者関連情報

お気に入り & アラート

閲覧履歴

発行機関からのお知らせ

PDF閲覧時に認証を求められる記事がございます（発行後1年間）が，研究会登録メンバーは無料で閲覧可能です．認証のための購読者番号やパスワードは会員マイページにログインし「お知らせ」にてご確認下さい．メンバー以外の方は，storesにて購入いただけます．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）