人工知能学会研究会資料 言語・音声理解と対話処理研究会
Online ISSN : 2436-4576
Print ISSN : 0918-5682
最新号
選択された号の論文の42件中1~42を表示しています
  • 川勝 玲英, 杉本 徹
    原稿種別: 研究会資料
    p. 01-06
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    本研究は,積極的傾聴法と対話の文脈に着目することで,ユーザにより高い満足度を与える傾聴対話システムを構築することを目標とする.我々が提案するシステムは,積極的傾聴法に基づいた5種類の応答(繰り返し応答,相槌応答,要約応答,掘り下げ質問,共感応答)を生成する.また,掘り下げ質問と共感応答において対話履歴を用いることで文脈に沿った応答を生成する.被験者に提案システムを使用してもらう評価実験を行った結果,システムの傾聴性や話の理解度,およびユーザの会話の満足度と継続利用に関する評価の向上を確認した.

  • Liu Yueliang, Qi Zhiyang, 稲葉 通将
    原稿種別: 研究会資料
    p. 07-11
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    While Large Language Models (LLMs) show significant potential in psychological counseling, rigorous, multi-dimensional evaluation of dialogue quality is paramount to ensure service reliability and professional accountability. This critical assessment is necessary to identify best practices, continuously improve LLM performance, and build user trust in automated generative mental health support. Addressing the challenge of conducting this complex evaluation effectively, we introduce a novel Explanation-Guided Score Prediction Framework leveraging KokoroChat, a large-scale Japanese counseling dialogue dataset. The proposed framework fundamentally enhances the evaluation of LLM-based counseling systems by integrating quantitative score prediction with interpretable, structured explanations. These LLM-generated rationales (comprising a "reason" and a "reflection") serve as auxiliary supervision signals during the training process, effectively aligning the model's predictions with the logic of human evaluative reasoning. This approach encourages the model to learn semantically rich representations of counseling dialogues.

  • 奥田 一世, 稲葉 通将
    原稿種別: 研究会資料
    p. 12-15
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    タスク指向対話システムにおいて対話状態追跡 (DST) は重要な役割を担うが, その学習データセットに含まれるアノテーションエラーはDSTモデルの性能を低下させる一因となる. 人手によるエラー修正は高コストであるため, 本研究では2つのDSTデータセットの自動修正フレームワークを提案する. 一つは、アノテーションエラー検出モデルを用いてエラーを特定し, そのデータのみを修正する手法であり, もう一つはLLMとDSTモデルを連携してアノテーションエラーを修正する手法である. 事前学習済み言語モデルをファインチューニングして構築したエラー検出モデルを MultiWOZ データセットで評価した結果, 性能は十分ではなかったものの, 埋められたスロット数が多いデータをエラーと誤判定しやすい傾向を発見した.

  • 福田 りょう, 叶 高朋, 俵 直弘, デルクロア マーク, 小川 厚徳, 千葉 祐弥, 安藤 厚志
    原稿種別: 研究会資料
    p. 16-21
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    応答の遅延を抑えた音声対話システムを実現するため,ユーザの発話中に将来の単語を先読みする予測型音声認識や,数秒先のターン交替を予測する技術が研究されてきた.本研究では,音声認識モデルWhisperに基づく,予測型ASRとターン交替予測を同時に行うマルチタスク学習モデルを提案する.提案モデルは発話途中の音声を受け取り,音声認識,将来単語の予測,およびターン交替予測を自己回帰的に実行する.これにより,観測された部分発話から得られる韻律的および言語的特徴に加え,予測された将来の単語をターン交替予測に活用することが可能である.Switchboardコーパスを用いた実験の結果,提案するマルチタスクモデルは,単一タスクモデルよりもターン交替予測において高い精度を示した.また,会話の文脈を導入することで予測型ASRとターン交替予測の精度が改善することを確認した.

  • Alexi Ayrton, 三河 多聞, 太田 健吾, 西村 良太, 北岡 教英
    原稿種別: 研究会資料
    p. 22-26
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    近年、大規模言語モデルの発展により、人間らしく自然な対話が可能となりつつある。今後は3Dアバターなどの対話エージェントを介したマルチモーダルな対話機会が増加すると予想される。その際、単なる言語理解だけでなく、音声や動作などの多様な表現を考慮しつつ統合的に生成する必要がある。本研究は、テキストから音声および頭部動作・顔表情を同時に生成できるマルチモーダルモデルの構築を目的とし、最適輸送条件付きフローマッチング手法を応用することで複数モダリティの一貫した生成を実現している。

  • 仙石 悠成, 小尾 賢生, 船越 孝太郎
    原稿種別: 研究会資料
    p. 27-30
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    本研究は、言語聴覚士(ST)が実施する初回簡易嚥下評価を自動化し、嚥下リハビリを支援する対話型 AI システムの開発を目的とする。提案システムはカメラおよびマイクから得られるマルチモーダル情報を統合し、大規模言語モデル(LLM)を用いて利用者の応答や身体状態に応じた対話を生成するものである。現時点ではシステム全体のアーキテクチャ設計を行うとともに、臨床現場との調整を通じて,簡易嚥下評価を自動化対象とする研究方針を明確化した。今後は音響イベント検出と映像処理の統合、対話生成モジュールの初期実装を進め、臨床現場において運用可能なプロトタイプの構築を目指す。

  • 中畔 彪雅, 吉野 幸一郎
    原稿種別: 研究会資料
    p. 31-36
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    When the same linguistic content carries different acoustic nuances, particularly in terms of expressed emotions, the corresponding dialogue system response must align with the given nuance. However, existing SLMs such as Qwen2-Audio are not necessarily robust against such differences. In this work, we define a task that detects the consistency or inconsistency between the emotional label of an utterance and the system's response, and build a model to perform this prediction. We hypothesize that emotion labels are a control signal that modulates text interpretation, and we construct a prediction model based on Feature-wise Linear Modulation (FiLM).

  • 亀山 京右, 駒谷 和範, 中野 幹生
    原稿種別: 研究会資料
    p. 37-42
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    対話システムのデバッグの効率化には,多様なユーザとの対話データから問題を自動検出することが求められる.そのためには,システムにどのような問題が生じているのか把握し,発話のエラー類型を整理する必要がある.本研究では,大規模言語モデル(LLM)ベースの対話システムとユーザシミュレータの対話を分析し,発話エラーについてまとめ,自動検出を試みた.まず,旅行に関するインタビューを行うシステムの対話をもとに,発生している問題と対話破綻検出のエラー類型の関係を分析した.次に,これらの問題に対して,LLMを用いた自動検出を試行した.分析の結果,LLMベースの対話システムでは,話題遷移エラーや似た表現の繰り返しなど文脈レベルの問題の割合が高いという結果が得られた.自動検出では,文脈上の問題を検出しやすい一方,用法エラーやプロンプト情報との矛盾を含む発話の検出が難しいという傾向が得られた.

  • 内山 宗也, 稲葉 通将
    原稿種別: 研究会資料
    p. 43-46
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    In response to the rising demand for mental-health care and the concomitant shortage of counselors, research into AI counseling using Large Language Models(LLMs) has been progressing. However, AI risks giving inappropriate responses , and when a client confides a serious problem, it is necessary to replace the AI with a human counselor. In such cases, it is extremely important to summarize the dialogue history so that the succeeding counselor can quickly and accurately understand the context of the dialogue. Nevertheless, in counseling handover situations, the optimal summary format for facilitating a smooth AI-to-human transition and eliciting prompt, high-quality responses has not been sufficiently investigated. In this study, we propose an "dialogue format summary with final turn" as a summary format that naturally includes the final utterances in the dialogue history and the surrounding context. To evaluate the effectiveness of the proposed summary format, we conducted a response-generation experiment in which both LLMs and human counselors produced responses under multiple summarization formats. By measuring the quality of responses and the handoff time, we identify the summarization format that best facilitates a smooth handoff.

  • 鈴木 諒待, 斉 志揚, 稲葉 通将
    原稿種別: 研究会資料
    p. 47-51
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    人手で作成された高品質なカウンセリング対話の公開データセットは極めて少ない.本研究ではこの資源不足を解消するため,日本語の大規模なカウンセリングコーパス「KokoroChat」を英語と中国語へ高品質に翻訳し,多言語データセットへと拡充する.しかし,単一のLLMによる翻訳は,モデル固有のバイアスや弱点により品質が不安定になる傾向がある.そこで本研究では高品質な翻訳を実現するため,複数のLLMの出力を統合する新たな手法を提案する.具体的には,まず3種類のLLMによる翻訳を生成する.次に,単一のLLMが各翻訳の長所を統合し欠点を補完することで,より洗練された翻訳を生成する.実験の結果,提案手法による翻訳は単一のLLMの翻訳よりも高品質であったことが確認された.提案手法を用いて新たに構築した多言語データセット「Multilingual KokoroChat」は.近日中に公開する予定である.

  • 深見 真奈, 稲葉 通将
    原稿種別: 研究会資料
    p. 52-54
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    特定の人物やキャラクターをのロールプレイをLLMに行わせる際,あらかじめ定義されたペルソナに従って応答を生成することが主流である.しかし,人間の性格は人生を通して変化し続ける.本研究ではLLMに人生経験を与えることで,自らの性格を生み出し,変容させることができるかを検証する.人生体験の収集方法として人生グラフを採用する.人生グラフとは,ある年齢での人生体験のエピソードと幸福度をプロットし曲線的に繋げたものである.分析ではBig Five 性格特性および日常的な場面における道徳的価値と個人的利益のどちらに重きを置くかという価値観を測る尺度を用いる.また,LLMに対してどのような人生体験および人生グラフの与え方が有効であるかを検証する.

  • 米山 蒼祐, 森 大毅
    原稿種別: 研究会資料
    p. 55-57
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    これまでの対話システム研究において実際の会話に比べ対話システムの応答までにかかる時間は非常に長いことが問題とされており、これまでの研究では発話間でのフィラーを利用したり、ユーザの発話終了タイミングを前もって予測して応答内容を生成するなどの実時間に対する対処がとられてきた。本研究では先に述べた実時間的な改善ではなく擬似的な応答遅延の改善を試みる。ユーザが知覚する遅延の原因はシステムが与えられる音響・視覚的影響がユーザ発話後の応答にしかないことが原因だと考え、ユーザ発話内におけるシステムの相槌によってユーザが感じる遅延がどのように影響を受けるのかを検証する。検証にはVADベースの話者交替を行うシステムを利用し、相槌送出に関してはWoZで操作した。実験ではシステムと雑談をしてもらい相槌の有無による2条件で被験者間実験を行い主観評価に基づき相槌による効果を検証した。

  • 三輪 拓真, 小田 悠介, 大中 緋慧, 河野 誠也, 吉野 幸一郎
    原稿種別: 研究会資料
    p. 58-63
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    複数の機械学習モデルのカスケード実装は個々のモジュールを独立に訓練可能な一方で,前段モジュールの最終仮説を出力した段階でその仮説以外の情報が一部欠損してしまうという課題がある.この問題を解決するため一般的にはN-best 訓練法が用いられるが,Nに応じて訓練・推論コストが増加する課題がある.本研究では音声対話状態を題材に,ASR モデルの出力する各仮説の確率値からなるベクトルを量子機械学習モデルへと入力し,複数仮説の同時処理を行うことで,従来の N -best 訓練法における学習・推論コスト増加を抑制するフレームワークを提案する.提案法を音声対話追跡タスクのデータセットである DSTC2 に適用し,精度を維持しつつ大幅なパラメータ数の削減が可能であることを確認した.

  • 小尾 賢生, 吉川 禎洋, 佐伯 真於, 江口 政貴, 松山 洋一
    原稿種別: 研究会資料
    p. 64-69
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    大規模化が進む音声対話システムの開発では,品質管理や評価にかかる人的コストの増加が課題であり,その解決策としてユーザーエミュレータの活用が期待されている.しかし,従来の音声対話システムを用いたエミュレータでは,発話の重なりなどの相互行為の再現が困難であった.近年注目されるfull-duplex音声対話モデルは,同時双方向のやり取りが可能であるため,ユーザーエミュレータの開発に適していると考えられる.本研究では,full-duplex音声対話モデルを大規模な第二言語学習者(L2学習者)インタビュー対話データで適応し,言語習熟度を考慮した発話が行えるL2学習者エミュレータ(L2LE)を開発する.さらに,学習者の自発的発話を引き出す音声対話システムInteLLAとのインタビュー対話を行い,得られたデータの分析を通して,L2LEが実際のL2学習者の対話特性を再現可能であるか検討する.

  • 長尾 萌, 寺尾 光一郎, 澤井 沙季, 青山 新吾, 岩橋 直人
    原稿種別: 研究会資料
    p. 70-74
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    大規模言語モデル活用の際に、表層的な発話だけでなく内面も同時に出力させることにより、大規模言語モデルのパーソナリティをより効果的に表出することや、対話相手の内面推測に応用することにより、教育や福祉の分野において、対話相手の感情に寄り添った対話の実現を目指す。

  • 寺尾 光一郎, 相良 陸成, 岩橋 直人
    原稿種別: 研究会資料
    p. 75-79
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり
  • 山口 達也, 設樂 一碩, 吉岡 隆宏, 石原 正樹
    原稿種別: 研究会資料
    p. 80-85
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり
  • 中野 幹生, 駒谷 和範
    原稿種別: 研究会資料
    p. 86-87
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    本発表ではオープンソース対話システム構築フレームワークDialBBと,DialBBを用いて構築したテキスト対話システムおよびマルチモーダル対話システムのデモを行う.DialBBは,対話システム工学の教材として開発されているもので,非技術者および初学者が,容易に対話システムの設計,構築,テスト,デプロイ,運用を行えるようになることを目指している.本発表では,DialBBの使い方の説明と,DialBBを用いて構築した様々なアプリケーションのデモンストレーションを行う.

  • 上原 佑太, 辻田 隆善
    原稿種別: 研究会資料
    p. 88
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり
  • 小林 優佳, 白木 佑弥, 労 瑛瑩, 久島 務嗣, 西田 隼輔, 吉田 尚水
    原稿種別: 研究会資料
    p. 89-90
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    近年、AIやDXの急速な進展、グローバル競争の激化、少子高齢化の進行、そして人的資本経営への関心の高まりを背景に、企業経営における人財戦略の重要性は一層高まっている。これらの環境変化に対応するため、事業戦略と連動した人財戦略の立案が不可欠であるが、ノウハウ・体制不足、属人的な判断による客観性や一貫性の低さといった課題がある。一方、生成AIの進化により、人財戦略立案支援にも応用が期待されている。しかし、単一の生成AIでは、多角的かつ創造的な戦略立案には限界がある。そのため、複数のAIエージェントが協調してタスクを遂行する「マルチエージェントシステム」が注目されている。各エージェントに異なる役割や視点を持たせることで、集合知による多角的な戦略の導出が可能となる。本システムでは、有名人や歴史上の人物像を各エージェントに付与し、マルチエージェントによる議論を通じて企業の人財戦略立案を支援する。

  • 石川 真也
    原稿種別: 研究会資料
    p. 91
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    ugo株式会社は、警備・点検に加え、接客や案内などの対人業務を支援するロボット「ugo」を開発しています。今までにLLMを用いた多言語対話システムを搭載し、音声認識・応答生成・RAGによる質問応答・会話要約機能を組み合わせることで、接客品質を改善する仕組みを報告しました。今年度はその発展として、サイネージと連携し補足情報や商品画像を提示できる機能を追加しました。質問内容に応じてサイネージ上に関連情報を表示することで、顧客体験の向上を実現します。本システムは2025年4月より、商業施設や公共施設、大阪万博などで稼働し、累計5000件を超える会話セッションを遂行しました。本発表では、実運用で得られた課題および今後の応用可能性を議論します。

  • 坂野 純, 吉岡 寛悟, 片岡 敬志郎, 山添 隆文, 德永 陽子, 住谷 哲夫
    原稿種別: 研究会資料
    p. 92-93
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    大規模言語モデル(LLM)搭載エージェントのメタバース応用には、空間認知と身体的行動生成が課題となる。視覚言語モデル(VLM)を用いるアプローチは、高い学習・推論コストが実用上の制約となっている。本取組ではこの制約を回避するため、VLMを介さず、空間・オブジェクトに行為の可能性、すなわちアフォーダンス情報を埋め込むアーキテクチャを採用する。この構造化テキストをLLMへプロンプト入力することで、軽量かつ高速な状況理解とインタラクティブな行動生成を可能にする。本稿では、NPCが対話と行動を統合し、状況に応じて自律的に反応するメタバース「MetaMe」上の実装例を報告する。本取組は、仮想空間における知的キャラクターの振る舞いを豊かにする、低コストでスケーラブルなアプローチを提示するものである。

  • 荒木 貴正
    原稿種別: 研究会資料
    p. 94
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    生成AIの登場により対話型ロボットのユースケースが拡大し、AIを活用したロボットに関する研究開発ニーズが高まっている。ユカイ工学では2015年よりコミュニケーションロボットを開発・販売した経験を活かし、生成AIを搭載したロボット開発を効率的に行うためのプロトタイピングキット「Tiny AFE kit」を発表した。本キットでは汎用的なCPUとOSを採用し、生成AIとの接続やモーター制御ソフトウェアの組込みを容易にする環境に加え、米DSP Concepts社の高性能Audio Front End(AFE)ソフトウェアを標準搭載。ノイズキャンセルやエコー除去機能によりノイズ環境に強い高精度な会話を実現するためのプロトタイピングキットとなる。本キットにより研究開発とユーザー検証の期間短縮と低コスト化を実現し、家庭向けや観光案内など対話型ロボットの開発を支援する。

  • 小栗 賢章, 杉森 健, 三上 崇志
    原稿種別: 研究会資料
    p. 95-96
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    本稿では、プロアクティブな声掛けと対話ジェスチャーを実現する自律応対アバターのデモを紹介する。アバターは人検知と状況推定(姿勢・距離・滞留など)により介入の適切性を判断し、最初の声掛けと整合するジェスチャーを即時に提示する。その後は、LLMが生成する発話内容とTTSの韻律情報を用いて、相槌などの対話ジェスチャーをリアルタイム合成する。本デモを通じて、AIアバターを用いた集客と自然な対話コミュニケーションの実現を提案する。

  • 宮澤 幸希, 佐藤 可直
    原稿種別: 研究会資料
    p. 97-98
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    人と機械の自然で円滑な対話を実現するためのターン交替可能点認識モデルを紹介する。旧来のシステムでは、ユーザー発話終了後の無音区間の長さに基づいてシステム発話のタイミングを決定するものが多かった。しかしながらこの方法では、ユーザー発話を遮ってしまったり、返答が極端に遅れてしまう問題があった。我々の開発したモデルは、ユーザー発話の音響的特徴量から話者交替が許容されるタイミング(TRP: Transition Relevant Point)を逐次的に予測する。本発表では、提案モデルにより決定されるシステム発話のタイミングのデモを行う。

  • 松原 誠二郎, 竹邊 日和
    原稿種別: 研究会資料
    p. 99-102
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり
  • 伊藤 瞭介, 滝口 哲也, 平田 充宏, 森 祐美子, 堀田 聰子, 有木 康雄
    原稿種別: 研究会資料
    p. 103-108
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり
  • 山本 賢太, 堀口 勇輝, 駒谷 和範
    原稿種別: 研究会資料
    p. 109-114
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    音声対話システムが複数のユーザと同時に対話する際には,複数の話者が同時に発話を開始するなど,発話が重複する場面が生じる.このような状況に適切に対応できない場合,ユーザが重要な内容を聞き逃したり,発話の意図を誤解したりする結果,ユーザの理解や満足度を損なう.そのため,発話重複時にシステムが修復行動を行い,発話の流れを維持することは重要な課題である.本研究では,この課題に取り組むため,発話重複時に想定される修復行動を「発話を繰り返す」「割り込みに応じる」など11種類に分類し,状況に応じて適切な修復行動を選択するモデルの構築を目指す.この目的を達成するために,発話重複を多く含む多人数対話データを新たに収集した.このデータに対する複数のアノテータによる修復行動のアノテーション結果と,修復行動選択に関する予備的な分析結果を報告する.

  • 橋本 慧海, 柳楽 浩平, 水本 武志, 白松 俊
    原稿種別: 研究会資料
    p. 115-119
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    定期的に会議が行われる会議体の組織構造を分析するとき,発話の内容による分析が主流である.しかし,機密性の高い社内会議などは内容や結果を外部に公開できないため分析が難しい.そこで本研究では,内容の情報を用いない会議体の分析方法について検討する.具体的には,最大発話者の属性間のターンテイクに着目し,そのネットワーク構造から会議体の特徴を分類する.分析データには,政府の委員会や検討会などのうち逐語録が公開されている記録を用いた.また,発話者の属性には産・学・官の3属性に事務局・座長の2属性を加えた5属性とした.4つの異なる組織の会議を分析したところ,会議の目的によって属性間ターンテイクの構造に違いが見られた.具体的には,政策や制度設計を議題とする会議体は産がターンテイクの中心になり,教育や学校関連の会議では学・官がより大きな役割を果たしていた.今後はデータの拡充と構造の時間変化も分析を行いたい.

  • 山田 真基, 森 大毅
    原稿種別: 研究会資料
    p. 120-124
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    我々は普段の会話にて相槌をうまく出しわけることによって、傾聴の意思を見せる、同意や理解の度合いを示す、といった非言語コミュニケーションを行なって円滑に会話を進めている。近年の対話システム研究でも、相槌の違いに着目してユーザー体験の差を調べた研究は少なくないが、対話エージェントの内部状態に基づき、音響的に変化のある相槌を表出するシステムがユーザーとの会話にどのような影響を与えるかを調べた研究はない。本研究では、音声対話システムが打つ相槌が、対話エージェントの内部に仮想的に設計した理解状態に基づいて音響的に変化させ打ち分けるようになっているシステムを設計した。このシステムに対し、常に一定の相槌を打つようなシステムの2つのどちらかでユーザーに対話をさせたときのユーザー側の振る舞いを分析し、ユーザーの振る舞いにどのように影響を与えているのかを調査することが本研究の目的である。

  • 長澤 史記, 橋本 慧海, 白松 俊
    原稿種別: 研究会資料
    p. 125-129
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    対話を通じてユーザーの要求や悩みを引き出して適切な機能や支援を提供するためには、自己開示を促してユーザーの本心を引き出すだけでなく、システムの役務提供に必要な情報を的確に聞き出すことが重要である。このような対話の実現に向けて本研究では質問木により話題を管理するインタビュー対話システムを提案する。質問木では質問事項を話題の親子関係に基づいて木構造グラフ上に配置し、システムは質問話題の深堀/転換をグラフ上の探索の形で管理する。本研究ではこの質問木を用いて自己開示と情報収集を両立する手法として、話題展開の数手先で必要な質問事項にたどり着くように質問木を自動生成する手法についての検討を行った。LLMを用いた質問木作成機構と、質問着作成機構を組み込んだチャットボットを試作して提案手法の有効性を評価した。

  • 池見 侑亮, Baihaqi Muhammad Yeza, Kruengkrai Canasai, 中村 泰, 吉野 幸一郎
    原稿種別: 研究会資料
    p. 130-131
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    コミュニケーションにおいて、ジェスチャーは発話の理解補助や社会的情報の伝達に重要な役割を担う。特に人間のジェスチャーは外向的・内向的といった個人の性格特性と整合しており、適切な社会的シグナルを送るために性格特性を考慮したジェスチャーが必要である。そこで本研究では、大規模言語モデル(LLM)を活用し、ロボットの性格特性(例:外向性・内向性)を反映した共発話ジェスチャー生成手法を提案する。

  • 木澤 妃名子, 有本 泰子, 岡ノ谷 一夫
    原稿種別: 研究会資料
    p. 132-136
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    人と人のコミュニケーション場面では笑い声に笑顔を返すといったクロスモーダルな共起笑いが観測されている.本研究では,モダリティが制限された場面で、クロスモーダルな共起笑いの表出頻度が変化するか調査する.4つの条件 (笑顔に笑顔を返す,笑い声に笑い声を返す,笑顔に笑い声を返す,笑い声に笑顔を返す)における共起笑いの表出頻度を算出し,オンラインでビデオチャットをした話者とボイスチャットをした話者間で比較をした.モダリティの違いによって4つの条件での共起笑いの表出頻度に差がないを帰無仮説としたカイ二乗検定を行った.その結果,p= 0.051で有意傾向であった.残差分析を行った結果, ボイスチャット条件の方が笑顔に笑い声を返すことが有意に少なかった.一方で,ボイスチャットでは相手の表情を見ることができないにも関わらず,笑い声に笑顔を返したり,笑顔に笑顔を返す頻度はビデオチャット条件と同程度であった.

  • 鈴木 翔貴, 森 大毅
    原稿種別: 研究会資料
    p. 137-140
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    一般的な対話システムは、非流暢性を含まない発話をすることが多い。これは、システムのユーザーにとって聞き取りやすい内容であると考えられる。非流暢性は、発話プランニングの際に高い認知負荷がかかった時に、生じるとされている。このことから、非流暢性は、聞き手においては、後続情報の複雑性を予測するための手がかりになると考えられる。そこで、本研究では、対話システムの非流暢性を含む発話によってユーザーに発話内容の理解度が向上するか検証した。システムは、ユーザーに計算尺の使い方の説明をする。計算尺の用語の回答と計算尺を使用する試験を実施し、理解度の検証をする。システムが発する非流暢性の再現は、フィラーを発話内に組み込むこととし、フィラーあり条件とフィラーなし条件で検証する。

  • 鈴木 一生, 稲葉 通将
    原稿種別: 研究会資料
    p. 141-143
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    Recent advances in Large Language Models (LLMs) have made it possible to generate natural and diverse commentary in board games such as chess and shogi. However, existing commentary systems for these games often produce mechanically phrased explanations, lacking emotional richness and the sense of companionship that arises when playing with a friend.In this study, we focus on shogi and aim to develop a shogi dialogue system that enables users to engage in more natural, human-like interactions while playing. The proposed system is designed to provide a graphical interface, extract multifaceted features from game states (such as SFEN representation, legal moves, engine evaluations with depth-dependent variations, reading lines, and piece influence), and combine them with a commentary dataset constructed from game records for generating commentary responses. By fine-tuning LLMs and designing prompts that incorporate uncertainty, surprise, and emotional expressions, the system seeks to generate responses that are not only analytical but also emotionally engaging. We evaluate whether such responses enhance entertainment value and user engagement compared to conventional commentary systems.

  • 高橋 哲朗, 菊池 浩史, 楊 潔, 西川 寛之, 小室 允人, 牧野 遼作, 佐藤 志貴, 佐々木 裕多, 岩田 伸治, 邊土名 朝飛, ...
    原稿種別: 研究会資料
    p. 144-149
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    人間同士の対話において相手への配慮は不可欠であり、同様の期待が対話システムにもますます求められるようになっている。本研究では、ライブコンペ7のシチュエーショントラックでは「相手からの愚痴を聞きながら決断を後押しする」というシチュエーションにおいて複数の人との対話を行うことにより15の対話システムの評価とその結果の分析を行った。参加したシステムは、対話を明確な段階に構造化する、対人関係をモデル化する、認知行動療法の技法を取り入れるといった多様な戦略を実装していた。分析の結果、これらのアプローチが、共感性や整合性の向上に寄与していることが明らかになり、また、社会的に繊細なシチュエーションにおける対話戦略の重要性が浮き彫りになった。

  • HU CHEN-YU, 朝倉 卓人, 吉野 幸一郎
    原稿種別: 研究会資料
    p. 150-151
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    In collaborative problem-solving, particularly in technical domains like mathematics, discussions often combine spoken dialogue with a shared visual space, such as a whiteboard. A critical challenge for comprehending these interactions is resolving the reference between ambiguous expressions in dialogue (e.g., pronouns) and the specific symbols or equations written on the board.To address this, and drawing inspiration from research in Visually-Grounded Dialogue, we propose a new annotation schema for capturing the discourse structure of these multimodal discussions by explicitly linking dialogue utterances to their corresponding element on the whiteboard.

  • 吉田 快, 吉野 幸一郎
    原稿種別: 研究会資料
    p. 152-157
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    目標指向対話において、システム自身の目標に向かってユーザとの対話を進める上では、ユーザに誘導を感じさせず、またシステム自身の目標を意識させないことでユーザ体験を良くすることが重要である。本研究ではユーザにシステム自身の目標や誘導に気づかれることなく目標を達成させることを目的として、システム発話の誘導感の自動評価を行うSBIS-TGC (Surprisal Based Induction Score for Target-Guided Conversation)を提案する。SBIS-TGCは外部言語モデルを用いて発話間のサプライザルを計算することで、発話の誘導感を定量化する。SBIS-TGCを用いた発話選択を行う対話システムを用いた対話実験により、目標指向対話において対話の誘導感を減らし、ユーザに誘導先を意識させずに対話を行うようにできることが示された。

  • 木村 洋太, 白松 俊, 長澤 史記
    原稿種別: 研究会資料
    p. 158-162
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    人とロボットが対話を通じて関係を構築する際、ユーザープライバシーの扱いをどのように制御するかは重要な課題である。 特に、ロボットが他者に共有するユーザー情報を適切に判断できるかどうかは、ラポール形成に深く関わる。 そこで、我々は他者のプライバシーにおける情報開示度の異なった対話ロボットを設計し、ユーザー体験にどのような影響があるかを検討する。 本研究では、プライバシーに全く配慮をしない「おせっかい型」と、自己開示尺度の深い他者の話題は開示しない「配慮型」の対話ロボットを設計した。 これら2つを用い、ユーザーのロボットに対する信頼感や自己開示欲などの影響を比較し、ラポール形成とプライバシーの扱いにどのような関係性があるかを明らかにする。

  • 佐藤 志貴, 岩田 伸治, 邊土名 朝飛, 佐々木 裕多, 山崎 天, 守屋 彰二, 大萩 雅也, 菊池 浩史, 楊 潔, 斉 志揚, 児玉 ...
    原稿種別: 研究会資料
    p. 163-168
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    本稿は,対話システムライブコンペティション7(DSLC7)タスクトラックの開催を通して収集した対話コーパスの分析に基づき,タスクを遂行可能なマルチモーダルタスク指向対話システムの構築のための知見を提示・議論する.DSLC7のタスクトラックでは,対話システムが旅行代理店の窓口販売員として,ユーザーの2つの旅行目的に合致する観光地を提案する「観光地選定タスク」を設定した.本トラックの予選に出場した9チームの対話システムと人間の間の日本語音声・映像対話257本と各対話に対する人間による主観評価値,さらにシステムの挙動に関する自由記述を収集したうえで,自由記述での言及が多かった観点と主観評価値との相関を調査した.調査結果に基づいてタスク達成や対話満足度の向上のための知見や対話システムの現状の到達点について考察したうえで,今後のコンペティションの展望についても議論する.

  • 越智 景子, ララ ディベッシュ, 井上 昂治, 河原 達也, 熊崎 博一
    原稿種別: 研究会資料
    p. 169-173
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    本稿ではこれまで我々が開発してきた傾聴対話を人間2名とロボットとの3者での傾聴に拡張したシステムを利用した社会実装について報告する。精神科デイケア施設の活動内で、リハビリテーションの目的のために対人交流が重要であるものの、利用者同士の日常会話に繋がらないこともしばしばである。そこで、多人数傾聴ロボットを導入して互いに話す役割と聞く役割を3分ずつ行う活動を実施した。その結果、感情がPleasureとArousalについてそれぞれ有意に会話前後で改した。さらに、会話の前よりも後のほうが有意に相手のことをよく知れた・より親しみをもったという評価を得た。ロボットが患者同士が慣れない会話開始直後から質問を活発に行うことができるため場をつなぐ貢献ができることが示唆された。

  • 井上 昂治, Elmers Mikey, Fu Yahui, Pang Zi Haur, 森 大河, Lala Divesh, 越智 景子, ...
    原稿種別: 研究会資料
    p. 174-179
    発行日: 2025/10/27
    公開日: 2025/10/27
    会議録・要旨集 認証あり

    本研究では、日本語・英語・中国語の三言語に対応するマルチリンガル相槌予測モデルを構築し、相槌タイミングの言語間比較分析を行った。提案モデルはTransformerを基盤とし、約250時間の多言語対話データを用いて、聞き手の相槌が生起する確率をフレーム単位で予測する。実験の結果、マルチリンガルモデルは各言語において単言語モデルと同等以上の性能を示した。さらに、摂動評価を通じてモデルの挙動を分析したところ、相槌予測に寄与する音声特徴が言語ごとに異なることが明らかになった。これらの結果は、本モデルが言語に普遍的な手がかりと各言語固有のパターンの双方を学習していることを示唆しており、相槌タイミングの言語横断的な理解に貢献するものである。

feedback
Top