主催: 人工知能学会
会議名: 第105回言語・音声理解と対話処理研究会
回次: 105
開催地: 東京科学大学大岡山キャンパス 蔵前記念会館 くらまえホール
開催日: 2025/11/10 - 2025/11/11
p. 47-51
人手で作成された高品質なカウンセリング対話の公開データセットは極めて少ない.本研究ではこの資源不足を解消するため,日本語の大規模なカウンセリングコーパス「KokoroChat」を英語と中国語へ高品質に翻訳し,多言語データセットへと拡充する.しかし,単一のLLMによる翻訳は,モデル固有のバイアスや弱点により品質が不安定になる傾向がある.そこで本研究では高品質な翻訳を実現するため,複数のLLMの出力を統合する新たな手法を提案する.具体的には,まず3種類のLLMによる翻訳を生成する.次に,単一のLLMが各翻訳の長所を統合し欠点を補完することで,より洗練された翻訳を生成する.実験の結果,提案手法による翻訳は単一のLLMの翻訳よりも高品質であったことが確認された.提案手法を用いて新たに構築した多言語データセット「Multilingual KokoroChat」は.近日中に公開する予定である.