人工知能学会研究会資料 言語・音声理解と対話処理研究会
Online ISSN : 2436-4576
Print ISSN : 0918-5682
96回 (2022/12)
選択された号の論文の49件中1~49を表示しています
  • 黒田 佑哉, 荒木 雅弘
    原稿種別: 研究会資料
    p. 01-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    近年対話システムにおいて,ロールプレイング対話への活用が期待されている.これは話者の設定が決まっている中でその状況に適した対話を行うものであり,特定状況における利用者の対話能力向上の効果が見込まれる.この適用例として,医療面接シミュレータは医療教育における模擬患者との医療面接課題での患者役の訓練コストを無くし,発話を細かく統一できる点で有用である.本研究ではこの実現にあたり,返答を決定する際に必要な質問内容の識別に焦点を当てた.対象となる発話は複雑で多様であり大量のデータを収集することも困難であるため,それらの条件下でも機能するモデルが必要となる.このことから本研究では,データ量に関係なく作成できるルールベース機構と,少量のデータでも比較的機能しやすく複雑さや多様さへの対応が見込める事前学習モデルをFine-Tuningしたモデルを組み合わせた手法を提案し,他の手法との比較評価を行なった.

  • 森 大河, 伝 康晴, Kristiina Jokinen
    原稿種別: 研究会資料
    p. 02-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    相槌や頷きなどの聞き手反応を予測しようとする研究は数多くある。これらの研究は二人会話をデータとして用いている。しかし、多人数会話では聞き手の立場が多様であり、聞き手反応の生成に影響を与える可能性がある。そこで本研究では三人会話コーパスを使用し、マルチモーダルなリソースから抽出した特徴量と聞き手の立場の違いを識別する特徴量を用いて、相槌と頷きを同時予測するモデルを構築した。実験の結果、本モデルは二人会話に基づく先行研究と同程度の精度でこれらの聞き手反応を予測できることが示された。

  • 武田 海人, 松吉 俊, 兼松 祥央, 三上 浩司
    原稿種別: 研究会資料
    p. 03-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    本研究では簡易なゲームシナリオを対象とし、テーブルトークロールプレイングゲーム(TRPG)の司会進行役であるゲームマスターをテキストチャットにより演じるAIを試作した。TRPGは対話とダイスを振った結果により進行するゲームである。複数プレイヤーが参加し、分身となるキャラクターのロールプレイを通して問題や謎を解決する。ゲーム内の行動は対話で宣言し、行動の成否はダイスの出目とキャラクターの能力値を比較し決定する。ゲームマスターは対話によりシナリオの描写を行い、プレイヤーの発話や行動に応じて適切な対応と発話をしなければならない。本研究ではプレイヤーの行動可能範囲が限定され、ゲームマスターが担当する人間キャラクターが存在しない簡易なシナリオを作成した。そのシナリオを用いて経験者、素人、本研究のAIの3者のゲームマスターが、協力的、非協力的なプレイヤー群に対しTRPGを進行した実験について報告する。

  • 萬處 修平, 岡 夏樹, 松島 茜, 深田 智, 吉村 優子, 川原 功司, 田中 一晶
    原稿種別: 研究会資料
    p. 04-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    対話処理の計算モデルの研究において、話し手の心的態度を表すとされる終助詞の獲得のモデル化は手薄である。我々は言語と画像に加えて様々な主観的感覚を入力とし、各単語と各種感覚・心的状態の関係を学習するモデル Subjective-BERTを提案し、新情報を伝えるときに用いられる「よ」、情報共有を確認するときに使われる「ね」等の意味獲得を目指してきた。本論文では、この「よ」「ね」の意味とともに、環境内の具体物や行為、心的・身体的状態を指す内容語の意味が、どのように内部表現されているかを分析する。これまでに、単語、画像認識、主観的感覚それぞれの認識結果のembeddingを調べ、モーダルごとにクラスタが生成され、言語クラスタ内では似た働きの単語が近くに配置されていることを確認した。今後は、終助詞「よ」「ね」の働きに応じて内容語とその指示対象間のattentionが変化するという仮説を検証する。

  • 高橋 正樹, 朝原 隆太朗, 稲葉 通将
    原稿種別: 研究会資料
    p. 05-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    自然言語処理技術を活用した推薦システムの研究がニュース推薦やオンラインショッピングにおける商品推薦などで盛んに行われている.しかし,既存の推薦システムでは,ユーザの行動履歴が無い,もしくは少ない状態では適切な推薦を行うことができないコールドスタート問題が存在する.一方で,雑談対話には話者の嗜好に関する多様な情報が含まれている.そこで本研究では,雑談対話が与えられ,その対話をもとに対話中の話者が好む観光地を推薦するタスクを提案する.加えて,適切な推薦を行うための手法の提案およびデータの分析などについても行う.

  • 奥田 一世, 稲葉 通将
    原稿種別: 研究会資料
    p. 06-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    近年,タスク指向型対話システムの研究は活発に進められており,そのためのマルチターン対話データセットも複数構築されている. 一方で, 学習データにアノテーションエラーが含まれている場合, タスク指向型対話システムの性能が低下することが知られている.本研究では, 現在までに複数回アップデートされているMultiWOZデータセットに着目し,その更新差分からアノテーションエラーを取得する.それらを学習データとして用いることでアノテーションエラーの自動検出モデルを構築する. 実験では,アノテーションエラーを自動的に除外して学習を行う対話状態追跡モデルを構築し,アノテーションエラー自動検出モデルの有効性を評価する.

  • 小野関 宏己, 稲葉 通将
    原稿種別: 研究会資料
    p. 07-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    知識に基づく雑談応答生成モデルの研究が近年活発に行われている.しかし,それらのモデルは対話中のキーワードに対する説明的な応答を生成しやすい傾向があり,ユーザーを楽しませる能力に欠けている.そこで,本研究では,モデルが知識文の興味深さ・珍しさの度合いを意味するトリビアスコアを自動推定し,トリビアスコアを用いて知識選択を行う手法を提案する.トリビアスコアを使用することで,モデルが複数の知識文の中からより興味深い知識文を選択して応答を生成できるようになり,ユーザーにとって面白みのある雑談対話を実現することができる.本研究ではWikipediaの記事を知識として用いて対話を行ったコーパスであるWizard of Wikipediaに対してトリビアスコアのアノテーションを行い,Transformer Memory Networkの知識選択モデルにトリビアスコアを組み込むことで,提案手法の評価を行う.

  • 山﨑 康之介, 田中 翔平, 河野 誠也, 湯口 彰重, 吉野 幸一郎
    原稿種別: 研究会資料
    p. 08-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    対話ロボット・システムに対するユーザの発話はしばしば曖昧であり、必ずしも明示的な要求ではない。こうしたケースでも、対話ロボットやシステムは何らかのユーザ補助タスクを行うことが期待される場合がある。例えば、ユーザが「ごちそうさまでした」と発話した場合、潜在的には「ダイニングテーブルに置かれたケチャップを片付ける」などの行動が期待される。システムがこうした気の利いた行動・発話を行おうとする場合、何らかの常識推論が必要である。そこで本研究では、近年自然言語処理の分野で盛んに研究されている知識推論モデルによって、曖昧なユーザ発話を入力した場合にロボットが行うべき行動を推論過程付きで説明するモデルを構築する。具体的には、行動に対してif-then関係を生成することができる知識推論モデルCOMETを再帰的に用い、こうした気の利いた行動選択結果と行動選択の推論過程を示すことができるシステムを構築する。

  • 田中 義規, 稲葉 通将
    原稿種別: 研究会資料
    p. 09-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    ECサイトやレビューサイトで投稿されるユーザレビューは,実際に商品を使用した際の感想や要望など,商品に関するユーザ視点の具体的な情報を含む.そのため,ユーザレビューは商品の購入を検討しているユーザにとって,購入の意思決定を後押しする重要な情報である.本研究では,対話システムを活用した新たなレビュー作成支援手法を提案する.提案システムはユーザにインタビューを行い,商品を使用した感想を聞き出す.次に対話内容に基づき,商品のテキストレビューと,それに対応する数値評価を生成する.提案システムは,商品に関する良い点や悪い点をバランス良く,かつ詳細に聞き出すことで極端な評価を減らし,また,購入を検討しているユーザにとって有用な情報を含むレビューの作成が期待される.加えて,システムとの対話のみでレビューを作成できる点は,レビューをあまり書かないユーザにとって,レビューを投稿するための動機付けとなりうる.

  • 岩橋 千穂, 稲葉 通将
    原稿種別: 研究会資料
    p. 10-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    複数話者の対話形式によって読者に情報を伝える対話形式コンテンツは,ニュース記事などの非対話形式コンテンツと比較して,簡潔な発話の応酬で構成されるため内容を理解し易い.そこで本研究では,非対話データを用いた対話形式コンテンツの自動生成を行う.ここでは,非対話データ内の情報を提示する人物と,質問などを通してその情報を聞き出すような発言をする人物による2者の対話を想定する.本研究では,情報を聞き出す発話に焦点を当て,対話データと非対話データを合わせて使用して学習を行うマルチソース学習による応答生成手法を提案する.提案する応答生成手法により,非対話データの内容に基づく応答を生成する.

  • 薛 強, 滝口 哲也, 有木 康雄
    原稿種別: 研究会資料
    p. 11-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    近年,外部知識を用いる対話システムでは,対話に関連する外部知識と対話履歴を連結して,対話生成モデルに入力し,応答文を生成するという応答生成方法が主流となっている.しかし,対話生成モデルは外部知識を無視し,対話履歴のみに基づいて応答文を生成してしまうという問題がある.この問題に対して,外部知識を常に含むように,外部知識を応答文の一部と見做し,埋め込んだ外部知識の前後の内容を対話穴埋めモデルにより補充するという,知識ベース応答生成手法をこれまでに提案してきた.本研究では,従来提案した対話穴埋めモデルに対話生成モデルを新たに組み合わせることにより,より精度の高い知識ベース応答生成手法を提案する。また、補充する内容の長さを自動的に探索できるように、対話穴埋めモデルの改善手法も新たに提案する。従来手法との比較実験により,提案する応答生成手法は,多様性と正確性評価指標において最高値を示した.

  • 谷口 琉聖, 武田 龍, 駒谷 和範, 翠 輝久, 細見 直希, 山田 健太郎
    原稿種別: 研究会資料
    p. 12-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    物体検出の結果を用いることで、ユーザが意図する画像中の目的地点を推定する対話システムを構築している。しかし、確信度が低い検出物体を用いると誤解が生じる可能性がある。一方で確信度が高い物体のみを用いると目的地点に近い物体を目印として使えないことがある。そこで本研究では、物体検出の確信度とシステム性能の関係を調査した。物体検出器により画像中の物体の確信度を得て、その閾値をもとに対話に用いる物体を取捨した。システム性能の評価尺度には、推定した目的地点の誤差と推定に要したターン数を用いた。その結果、両方の尺度を考慮した際に最適な閾値が存在することを示した。

  • 稲積 駿, 河野 誠也, 湯口 彰重, 川西 康友, 吉野 幸一郎
    原稿種別: 研究会資料
    p. 13-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    視覚的質問応答(VQA: Visual Question Answering)は、画像に関する質問が与えられた時に回答を導くタスクであり、質問と画像中の情報から回答が一意に決定する状況を仮定する。しかし、VQAをロボット対話などの実世界対話に応用しようとした場合、主語の省略や指示語の利用が生じ、その情報を補完するように視線や指差しなど様々なコンテキスト情報が用いられる場合がある。本研究ではこうした曖昧性に対処できるVQAシステムを構築することを指向して、特に画像中の人物が見ている対象の情報を利用したVQAデータセットを構築した。具体的には、視線情報がアノテーションされた画像に対して、視線情報で補完される曖昧な質問を含むVQAデータセットをクラウドソーシングで構築した。

  • 川島 瑠奈, 飯尾 尊優, 東中 竜一郎
    原稿種別: 研究会資料
    p. 14-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    エンターテインメント分野における雑談対話システムの応用例の一つとして、ユーザが考えた任意のキャラクタと雑談できる対話システムの実現を目指している。こうした対話システムでは、キャラクタの背景や人物像を詳細に設定することにより、キャラクタとの雑談をより楽しむことができると期待される。しかしながら、ユーザがキャラクタに対して詳細な背景や人物像を設定することはコストがかかる。そこで本研究では、ユーザがキャラクタの簡易なプロフィールテーブルから、そのキャラクタの背景や人物像を説明する文章を自動的に生成する手法を提案する。具体的には、pixiv百科事典の人物・キャラクタカテゴリの記事からプロフィールテーブルと概要の文章を抽出し、それぞれ入力データ・出力データとして、rinna社のGPT2をファインチューニングした。本稿では提案手法の概要と自動評価とユーザの主観評価の結果について報告する。

  • 倉田 楓真, 佐伯 真於, 藤江 真也, 松山 洋一
    原稿種別: 研究会資料
    p. 15-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    本研究では,言語・音響・視覚情報を用いたターンテイキングのためのマルチモーダルな深層学習モデルを提案する.これまでの対話システムにおけるターンテイキング研究では主に言語情報と音響情報の扱いに焦点が当てられてきた.しかし,伝統的な会話分析によれば,視覚情報はターンテイクの手がかりとして有用であることが示されている.そこで本研究では視覚的手がかりの中でも視線・口・頭部の動作に着目し,それらを活用したマルチモーダル発話終了予測モデルを構築した.そして,それらの視覚特徴の有効性を検証した.実験の結果,視線が最も重要なターンテイクの手がかりであり,次いで口,頭の動きが重要であるという結果になった.また,提案手法は音響情報と言語情報のみを用いたモデルよりも高い性能を示した.

  • 髙﨑 環, 吉永 直樹, 豊田 正史
    原稿種別: 研究会資料
    p. 16-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    スマートスピーカーの普及に伴い、対話システムが特定ユーザと継続的に雑談を行うことが期待されるようになっている。そのような状況下では、長期間にわたる過去の対話履歴を考慮した応答を生成することが求められる。しかし、既存のニューラル対話モデルの入力長には制限があるため、膨大な対話ログをそのまま入力するのは困難である。既存手法では過去の対話履歴を要約やプロフィール文に圧縮する手法が用いられているが、応答生成用のデータに加え、圧縮器を訓練する追加の教師データが必要である。本研究では、現在進行中の対話に有用な過去発話を抽出する、雑談応答の生成に特化した抽出器を提案する。大規模なTwitterデータセットを用いた実験を行い、提案した過去発話抽出器が、質問応答システムで用いられる既存の抽出器を上回る性能であることを示した。

  • 天谷 武琉, 由井 達也, 森田 純哉, 光田 航, 東中 竜一郎, 竹内 勇剛
    原稿種別: 研究会資料
    p. 17-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    対話を通したインタラクションでは,対話者間による話題に対する共通基盤の形成が対話を協調的に実現することに深く寄与していることがこれまでの研究をを通して確認されている.一般にそれらの研究は,対話者が相互に生成した発話の内容とその文脈の流れを記述したエスノメソドロジカルな分析や,それらの分析を通して得られた統計的情報に基づく対話システムの発話生成技術の開発に主眼を置いたものが占めている.一方,それぞれの発話を通して対話者の認知状態が相互にどのような知識や概念に基づいて生成されたものであるのかなど,対話中の対話者間の認知的なインタラクションの過程に着目した研究はほとんど行われてきていない.そこで本研究はタングラム命名課題(TNT)を通して得られた対話データに対してTransformerモデルを適用し,対話者間の認知状態の過程を推定することを目指し,その認知モデルを構築することを目的とする.

  • 佐藤 敏紀
    原稿種別: 研究会資料
    p. 18-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    近年の自然言語処理分野における基盤モデルは英語圏を中心に発展してきたが,LINEはNAVERと共同で独自の日本語の基盤モデルの開発を進めてきた。本講演ではその基盤モデルを対話システムに対して応用し,様々な知見を得たので,その詳細をお伝えする.2021年の対話システムライブコンペティション4と,2022年のIROS2022の対話ロボットコンペティションにおけるシステムを中心に,その実装の詳細とその背景,実用的なシステムを実現するために基盤モデル以外に必要となった技術,関連する議論について紹介し,今後の展望についても可能な限り述べる.

  • 東中 竜一郎, 高橋 哲朗, 堀内 颯太, 稲葉 通将, 佐藤 志貴, 船越 孝太郎, 小室 允人, 西川 寛之, 宇佐美 まゆみ, 港 隆 ...
    原稿種別: 研究会資料
    p. 19-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    対話システムライブコンペティション5の概要について述べる.具体的には,マルチモーダル対話を対象にした背景,オープントラックとシチュエーショントラックのタスク設定,評価尺度などについて説明し,予選の結果について述べる.

  • 金崎 翔大, 渡邉 寛大, 河野 誠也, 湯口 彰重, 桂井 麻里衣, 吉野 幸一郎
    原稿種別: 研究会資料
    p. 20-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    本論文は第5回対話システムライブコンペティションのオープントラックに提出したマルチモーダル対話システムについて述べる。本システムは応答生成モジュールとそれに続く、ふるまい制御モジュールから構成される。応答生成モジュールは、Transformer encoder-decoderモデルに基づいており、対話行為ラベルを付与した対話履歴から対話行為ラベル付き応答候補をend-to-endに生成し、エントレインメントと呼ばれる対話現象を考慮したリランキングを適用することにより最終的なシステム応答を決定する。ふるまい制御モジュールでは応答生成モジュールが生成した応答の対話行為ラベルと自動推定されたシステム応答の感情ラベルからCGエージェントの表情、身振り・手振りの動作をルールに基づいて制御する。本論文では、コンペティションの予選ラウンドにおける本システムの評価結果についても述べる。

  • 守屋 彰二, 塩野 大輝, 岸波 洋介, 藤原 吏生, 木村 昴, 松本 悠太, 曾根 周作, 赤間 怜奈, 鈴木 潤, 乾 健太郎
    原稿種別: 研究会資料
    p. 21-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    本稿では,第5回対話システムライブコンペティションのオープントラックに提出したシステムについて述べる.本システムは,ニューラル応答生成機構,リランキング機構,ルールベースアバター制御機構を組み合わせたマルチモーダル雑談対話システムである.応答生成機構では,複数の応答生成モデルに対し3種類のデータセットを用いてfinetuningを行った.リランキング機構では,生成された応答候補に対し,様々なスコアに基づいてフィルタリングを行い,自然かつ話題に適した応答が選択されるようパラメータを調整した.アバター制御機構では,選択された応答の感情を予測し,感情と応答内容に沿った表情制御および姿勢制御を行った.上記の機構を組み合わせることにより,自然な発話を行うマルチモーダル雑談対話システムを実現した.

  • 山崎 天, 川本 稔己, 大萩 雅也, 水本 智也, 小林 滉河, 吉川 克正, 佐藤 敏紀
    原稿種別: 研究会資料
    p. 22-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    本稿では、対話システムライブコンペティション5のオープントラックに提出したマルチモーダル対話システムについて述べる。本システムはTransformerをベースとした言語モデルの「HyperCLOVA」を用い、ユーザの発話に応じて選択するFew-Shotプロンプトを利用して応答候補の生成を行う。プロンプトは5種類あり、音声認識誤り時の応答生成、一般的な応答生成、知識応答生成、ペルソナ一貫性を考慮した応答生成、短文抑制のための応答生成を目的としたものを組み合わせて利用する。後に、不適切な発話を除去するフィルタリングを通し、最終的な出力を得る。予選の結果では1位を獲得したが、マルチモーダル化したことにより、幾つかの課題が顕在化した。

  • 大野 瞬, 石井 均, 木原 諒子, 片上 大輔, 酒造 正樹, 前田 英作
    原稿種別: 研究会資料
    p. 23-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    友人から借りた大切なものを紛失した状況において,許しを得るロボット対話エージェントを開発した.エージェントはものを失くしてしまった背景を説明し,謝罪の意志を示した後,紛失してしまったものに対する補償を提案するシナリオをルールベースで作成した.借りていたものを用意するのには時間がかかり,それがすぐに必要である状況下で可能な限り早く用意可能な代替品の提供を提案する.提案が受け入れてもらえるよう,マルチモーダルCGエージェントであるCGEricaに自然な発話と文脈に応じた振る舞いを実装した.我々はチームYuruKumaとして,対話システムライブコンペティション5に参加した.予選会においては「どれくらい(シチュエーションに適した)人らしい会話か」という評価基準に対して5段階のリッカート尺度が用いられた.我々のシステムは50人のクラウドワーカから評価を受け,平均3.8点を得た.

  • 吉川 克正, 川本 稔己, 山崎 天, 水本 智也, 小林 滉河, 大萩 雅也, 佐藤 敏紀
    原稿種別: 研究会資料
    p. 24-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    本稿では、対話システムライブコンペティション5のシチュエーショントラックに提出した対話システムについて述べる。本システムはルールベースによる対話状態の制御とTransformerをベースとした基盤モデルの「HyperCLOVA」を用いて応答生成を行った。基盤モデルには対話履歴だけでなく、状況や発話者のペルソナをFew-Shotのプロンプトとして入力することでシチュエーションに沿った応答生成を可能にした。また、シチュエーションに沿わない応答を生成した場合に備えて、再度生成を行う機構を複数備えている。その結果、本システムは予選で2位の成績を収め、基盤モデルだけではシチュエーションに沿ったタスク指向対話の応答生成ができないことを確認した。また、音声認識誤りに起因する不自然な応答の抑制や音声対話でのリアルタイム性の追求など未だ課題が残る。本稿では、予選の対話ログを参照し課題の議論を行う。

  • 白井 宏美
    原稿種別: 研究会資料
    p. 25-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    「対話システムライブコンペティション」に2020年第3回から参戦し,2022年第5回のシチュエーショントラック予選で3年連続1位を獲得した.対話システムは「どれくらいシチュエーションに適しており,かつ,人らしい会話か」を評価軸として5段階で評価され,結果は4.111(スコアの最大は5.0)となった.今回,設定されたのは「謝罪する」というシチュエーションである.第4回まではテキストチャットシステムであったが,今回初めてマルチモーダル対話システムが対象とされた.評価者らから「人と同じように表情も辛そうに見えた」「テンポやリズムが人らしい」「話し方(申し訳ない感じとか間とか)がとても自然で悪いなという気持ちが伝わってきた」などのコメントを得ることができた.マルチモーダル情報をどのように利用して,謝罪する「雑談対話システム(非タスク指向型対話システム)」を構築したかについて述べる.

  • 大塚 淳史, 石井 亮, 野本 済央, 杉山 弘晃, 深山 篤, 中村 高雄
    原稿種別: 研究会資料
    p. 26-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    近年,深層学習型の雑談対話システムの性能向上に伴い,対話システムやモデルに個人性を持たせるための研究が多く行われるようになった.例えば、有名人や漫画やアニメのキャラクタを再現する対話モデルや,架空のペルソナ像に沿った対話を行う研究があるが,個人性の再現には学習データの収集方法や特徴抽出など様々な側面で課題がある.本研究では事前学習した対話モデルにファインチューニングすることで個人性を再現する対話モデルを実装する.その際に,あらかじめ性別や年齢、居住地などのユーザ属性を付与した事前学習モデルの学習手法を提案する.ユーザ属性を付与した事前学習対話モデルをファインチューニングすることで,特定の個人の再現性が向上すること実験によって示す.

  • 李 晃伸, 石黒 浩
    原稿種別: 研究会資料
    p. 27-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    ムーンショットの「アバター共生社会」プロジェクトでは、機械が話す自律対話と人が遠隔操作する会話(アバター)の両者を融合させた自律・遠隔融合対話システムの研究開発を行っている。これを実社会で幅広く実現するためには、両モードで利用者に違和感を与えず、高い存在感と生命感を備え、幅広い応用が可能な高度なCGエージェント(CG Cybernetic Agent: CG-CA)が必要である。本稿ではこのために筆者らが設計・開発したCGエージェントについて述べる。対話のためにエージェントが体現すべきリアリティ、そのためのデザイン、アバターとの関係性について包括的に論じたうえで、構築したCG-CA(3D 1体、2D 3体)を紹介する。また開発したシステム (MMDAgent/Unreal Engine)、制御プロトコル、感情セットについても述べる。本システムは研究用途向けに近日配布可能となる予定である。

  • 徳永 清輝, 田村 和弘, 大武 美保子
    原稿種別: 研究会資料
    p. 28-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    我々は高齢者の認知症予防に向けた認知機能訓練のための対話システムを開発している。対話システムの評価も様々な観点での評価が考えられるが、被験者自身に確認してもらうことで話への共感度などを確認できる可能性がある。しかしながら、従来の対話システムでは対話直後に評価するようにシステムがサポートしていない。対話終了後にアンケート形式で対話直後に話の共感度についてもその場で確認することが出来るようになった。 また、高齢者自身でその場で評価することが可能となった。従来は実験管理者が配信できるようにしていたが、高齢者が実施したい時にいつでも話題を選択して実施できるようなトレーニングモードを実装した。本稿では、拡張した2つの機能紹介、システム上の工夫ならびに実際に高齢者の方に使ってもらった予備実験の結果について報告する。

  • 山本 賢太, 井上 昂治, 河原 達也
    原稿種別: 研究会資料
    p. 29-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    音声対話システムにおいてキャラクタ表現は,人間らしい対話を実現するために重要な要素である.ユーザに応じてキャラクタを使い分けることで,ユーザの対話に対する満足感が向上することが期待される.本研究では,雑談対話システムのキャラクタ表現によるユーザ適応方法を検討した.我々が提案するキャラクタ表現モデルは発話量,相槌とフィラー頻度,交替潜時の長さを制御するものである.先行研究では,ビッグファイブ尺度に対する回答結果をクラスタリングし,4種類の代表的なキャラクタが確認されている.本研究では,ユーザとシステムで上記のキャラクタの最適な組み合わせを明らかにする.被験者実験では,被験者ごとに4種類のキャラクタを設定した音声対話ロボットと雑談対話をしてもらい,各ロボットに対する印象を評価してもらった.その結果,一部の評価項目で被験者のパーソナリティとシステムのキャラクタとの間に関係性が確認された.

  • 安田 晴彦
    原稿種別: 研究会資料
    p. 30-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    弊社は映像制御技術を活用した誰でもわかりやすいアプリ開発とAiやデバイスなどを組み合わせたシステムインテグレーションを得意とする開発会社である。弊社開発のAI映像対話システム「Talk With」は、ディスプレイの人物に話しかけるだけで、実際に本人と対話しているかのように回答映像が自動再生されるシステムであり、自分もしくは専門家が行う対話動作を正確に再現することができる。様々な分野で対人業務の代替としての活用が期待でき、対人業務に費やす時間を軽減できる。ユーザーは不自然な見た目やしゃべり方に違和感を覚え抵抗感が持つが「Talk With」では映像を活用することで視覚上・聴覚上の違和感を解消することができる。同時に映像を加工できないよう管理することで、安心して自分の分身を活用することが可能となる。

  • 小磯 花絵, 臼田 泰如, 川端 良子
    原稿種別: 研究会資料
    p. 31-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    2022年3月に本公開した『日本語日常会話コーパス』(Corpus of Everyday Japanese Conversation, CEJC)は,(1)日常生活で交わされるリアルな会話を対象とすること,(2)多様な場面・多様な話者による会話をバランスよく格納すること,(3)音声・転記テキストだけでなく映像まで含めて公開することを特徴とするコーパスである.CEJC全体には,音声・映像・転記・形態論情報(長短二種)が,うち20時間については,更に係り受け情報,談話行為情報,韻律情報が提供される. 本発表では,CEJC本公開版のデータの一部を紹介し,CEJCの設計と特徴を報告する.

  • 沢田 慶, シーン 誠, 趙 天雨
    原稿種別: 研究会資料
    p. 32-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    AI技術の進歩に伴い,誰もが気軽にAIを使える世界を目指す「AIの民主化」という考えが普及し,多くの研究機関が研究成果を公開し技術の発展に貢献しています.特に最近のAI分野では,大規模な学習データから大量のパラメータを持つ事前学習モデルを利用する手法が主流であり,様々な事前学習モデルが公開されています.しかし,多くの事前学習モデルは英語に特化したモデルがほとんどであり,英語圏と比べ非英語圏では「AIの民主化」が進んでいない現状にあります.rinna株式会社では,英語圏の技術進歩に追随するために,日本語に特化した言語モデルであるGPT・BERT,言語画像モデルであるCLIP・Japanese Stable Diffusionを公開してきました.本発表では,これまでに公開してきた事前学習モデルについて紹介します.

  • 大須賀 晋, 田中 五大, 鍋倉 彩那, 中野 涼太, 渡邊 凌太, 石川 友香, 石川 晃之, 中村 晃一, 藤井 裕也, 堀内 颯太, ...
    原稿種別: 研究会資料
    p. 33-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    2015年に発表され「不気味の谷を超えた存在」と話題になった3DCGキャラクタ"Saya"をベースに、ヒトが親しみを感じる対話エージェントを実用化し、未来の街やモビリティがヒトに寄り添った世界となることを目指している。EMOtive A.I.は、最新の画像認識・音声認識・音声合成・対話AIや、心理学的知見に基づく行動及び描画制御、CGアーティストによるキャラクタ表現が融合した自律的な対話システムであり、ユーザの想いを言葉にして引き出すことを一つの目標としている。2022年3月の謎解きクリエイター松丸亮吾氏へのAIインタビュー、ワンダーフェスティバル2022夏メインステージでの海洋堂センム氏とのリアルタイム対話デモにつづき、11月に開催された渋谷区のイベントSIW2022にて、西武渋谷店で任意の一般ユーザーと対話したデモシステムを展示する。

  • 宮澤 幸希, 佐藤 可直
    原稿種別: 研究会資料
    p. 34-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    フェアリーデバイセズは「まるで妖精が動かしているような、温かみのある機械を作る」というビジョンを掲げ、音声対話システムを構成する技術の研究開発を行っている。これらの研究成果に基づいて、音声収録のためのマイクアレイから、エッジデバイス上の音声処理ライブラリ、ウェブAPI経由で提供される音声処理サービスまで音声対話システムの実現に必要となる要素技術をフルスタックで提供している。対話システムの開発者・研究者は、これらの技術スタックの中から必要なコンポーネントを自由に組み合わて使用することができる。本発表では、フェアリーデバイセズにおける音声処理分野の研究開発について紹介する。また、応用事例や実証実験についても紹介する。

  • 金盛 克俊, 村松 直矢, 森田 拓磨
    原稿種別: 研究会資料
    p. 35-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    poiqは人間のバディとなることを目指して、日々成長を続ける開発中のロボットである。poiqは複数のセンサーとスピーカーを内蔵し、音声認識とTTSを使って音声対話をすることが可能なマルチモーダルコミュニケーションロボットとなっている。スマートスピーカーとは異なり、ユーザーのコマンドを聞くのではなく、ユーザーのことを理解しユーザーの求める会話をすることを目的とする。そのため、poiqは自らユーザーに近づいて自発的に質問し、相手のプロフィールや好きなもの、最近起こった出来事や予定などを収集し、記憶する。また、ユーザーの求めるドメインの会話をするために、それぞれのドメインにおける知識をユーザーから集めるためのシステムをwebサービスとして公開し、このような知識を利活用する対話システムを開発した。

  • 立石 修平, 中辻 真, 小瀬木 悠佳, 大杉 康仁, 狩野 悌久
    原稿種別: 研究会資料
    p. 36-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    現在弊社では、Web API 形式で手軽に機械学習エンジンを利用できるサービス「AI Suite」を開発中である。当サービスは特にヒューマンコミュニケーションに重点を置き、コミュニケーションにおける非言語成分を含めた精緻な感情分析や、対話文中に出現する背景情報の活用によって、同一の言語入力に対して多面的な応答を行うことができる、「感情」と「文脈」を理解する対話エンジンの実装を目標としている。本発表においては、文脈情報として背景知識を持たせ、応答生成にバイアスをかけたAI Suite 対話エンジン同士が、お互いの背景知識と感情を理解しつつ自動的に対話を続ける実例を通して、本サービスの目指すコミュニケーションAIの姿を示すとともに、当会話エンジンで用いられている(1)文脈情報による応答生成、(2)マルチモーダル情報を用いた感情分析、の各手法の概略も合わせて紹介する。

  • 伊島 翔大, 田中 昂志
    原稿種別: 研究会資料
    p. 37-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    業務の補助、お問い合わせ対応、エンターテインメントなどといった多岐にわたる分野で、チャットボットが注目を集めており、多くの企業、自治体など、幅広い業界で導入が進んでいる。チャットボットでは、ユーザーの質問に対して最適な回答を返せているかが重視されるが、当社「サポートチャットボット」では、ソーシャル(SNS)データを利用した弊社独自の言語解析機能を用いることで、ユーザーの質問に対して高い回答率を実現している。また、多くのユーザーがチャットボットに対してより親しみを持ってもらえるよう、自然言語処理技術と音声認識技術を組み合わせた、アバター型音声対話システムの開発も同時に行っている。今回は、ユーザーローカルが提供している「サポートチャットボット」と、現在開発を行っているアバター型音声対話システムの紹介を行う。

  • 稲田 徹, 山内 大輔, 道岡 直也, 重岡 良昭, 土居 誉生
    原稿種別: 研究会資料
    p. 38-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    コンタクトセンターに音声認識技術が導入され始めてから20年余りになる。最近では認識率の向上、導入コストの適正化も進み、多くのセンターでの導入が進んできた。しかしながら、音声認識の活用は、センター内の業務サポートに留まり、テキスト分析した結果を経営に活かすということは「これから」というのが実態である。本稿では電話での応対がテキスト化されることで、お客様の応対の中でフックとなる話題が検出できることに着目、お客様との会話の話題の展開順序/比重の持たせ方がセールストークの成約率に影響することに注目した。更に、テキスト分析&人的なトーク改善サービスとして提供し、従来の成約率を向上させた事例を紹介する。

  • 中野 幹生, 駒谷 和範
    原稿種別: 研究会資料
    p. 39-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    対話システムは,様々な技術を統合して構築されるため,情報技術教育の題材として有効であると考えられる.しかしながら,既存の対話システム構築フレームワークは,情報技術教育を目的としたものではないため,必ずしも初学者が学習目的で使うのに適しているとは言えない.そこで我々は,拡張性の高いアーキテクチャをもち,可読性の高いコードで書かれた対話システム構築フレームワークDialBBを開発している.DialBBは,ブロックと呼ぶモジュールを組み合わせることで対話システムを構築できるフレームワークである.システム開発者は,DialBB付属のブロックを用いることで簡単にシステムを構築できるが,自作のブロックを用いることで高度なシステムを構築することもできる.DialBBを対話ロボットコンペティション2022用のシステムの構築に利用してもらい,対話システム構築フレームワークとしての有用性を確認した.

  • 駒谷 和範, 武田 龍, 岡田 将吾
    原稿種別: 研究会資料
    p. 40-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    対話におけるユーザの主観的印象(例えば,ユーザが対話を楽しんでいる度合)は曖昧である.またこれはアノテータの主観に基づいて付与されるため,複数のアノテータが付与した結果は必ずしも一致しない.本稿では,複数のアノテータによる付与結果を分析したうえで,その付与結果が信頼できる条件を探る.対象にはマルチモーダル対話コーパスHazumiにおける5人の第三者アノテータによる付与結果を用いる.まず,第三者による付与結果と本人による申告との間の一致に関する調査結果を示す.次に,第三者によるアノテーションのばらつきが,ユーザの性格特性の一部と相関するという結果を示す.これにより,対話システムが主観的印象の自動推定結果を利用する際に,ユーザの性格特性を考慮することが有益であるという知見を得た.

  • 二宮 大空, 邊土名 朝飛, 杉山 雅和, 戸田 隆道, 友松 裕太
    原稿種別: 研究会資料
    p. 41-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    チャットボットの一機能に,よくある質問集を用いてユーザの質問に答えるFAQ検索がある.FAQ検索は,FAQデータベース内から,ユーザの発話に最もマッチする回答を選択する.本研究では,FAQ検索のモデルとしてオープンドメイン質問応答で有効性が示されているDense Retrieverを用いて,チャットボット事業を通して収集した対話ログから作成したデータでモデルを学習する.ただし,チャットボットを新たに導入する顧客は対話ログが存在しないため,モデルの検索性能が低下する可能性がある.そこで,本研究では,このような場合でも適切に動作するZero-shot FAQ検索を実現するためDense Retrieverの学習時の負例選択方法の比較と,GPT-2を用いた訓練データの拡張を行い,その有効性を検証した.さらに,音声を入出力としたFAQ検索における課題と今後の展望について紹介する.

  • 森 一, 佐藤 明智, 藤田 敦也, 本間 健, 十河 泰弘
    原稿種別: 研究会資料
    p. 42-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    ユーザが多数のタスクを実行できる対話システムでは、ユーザの発話から実行したいタスクを正確に推定する必要がある。機械学習型のタスク推定において、新たに学習データを集めることなく多数のタスクを推定するため、APIを自然言語で説明したスキーマを利用したタスク推定方式(Schema-Guided Dialogue: SGD)が提案されている。しかし、SGDで高精度にタスク推定するためには、どのようなスキーマの記述が適切であるか明らかではない。本研究では、SGD研究用の公開データセットを用い、スキーマの記述を変更することによりタスク推定精度の変化を観測した。これにより、スキーマの記述がタスク推定精度に与える影響を分析した。

  • 瀧 和男, 古和 久朋
    原稿種別: 研究会資料
    p. 43-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    音声で被検者と対話するCGエージェントが、医療従事者に代わって認知機能検査を自動で行う業界初のシステムの、実運用向け改良と評価を行った。検査・診断の検査フェーズ(採点含む)を臨床心理士等が行うのと同じグレードで実施する。認知機能低下の有無を診断するためのスクリーニング検査を主目的とし、検査コスト低減、検査場所・時間の制約緩和を目指す。医療外サービスから運用開始の予定。発表時はデモを行う。システムは音声・CG映像・画像・テキストを出力し、利用者の音声を入力とするもので、基本機能は前年度に報告した。本年度の改良として、音声認識誤りを軽減・後処理で救済、採点誤り対策の自然言語処理改良、言い直し等を許し評価点減少をシナリオレベルで軽減、音声認識遅れによる対話性劣化の回避、等を実現し、5種、約45分の検査を実用レベルで自動化した。改良の効果、評価点減少の回避状況について、最新の評価結果も報告する。

  • 斎藤 里美
    原稿種別: 研究会資料
    p. 44-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    対話とは一つ一つの発話に対する反応だが, 人々が従っている対話全体のルールもあるのではないか. それを知るため, I-JASの依頼タスクの対話を調査した. その結果, 発話の長さや相手と一緒に会話を作る行動に共話的特徴がみられた. I-JASの依頼タスクは言いにくいことを申し出る点が謝罪と共通している. このことから謝罪の状況のチャットボットにこの特徴を応用した. その結果対話を自然なものとして印象付けることが, ある程度できたと考えられる. ロールプレイの対話から, 自然な対話だと印象付けることのできる特徴を取り出せたことは一つの成果だと考える. チャットボットのシステムにおいて, 対話全体のルールは必要な要素の一つに過ぎない. しかしそれを取り入れることでユーザーが自然だと判断できる対話を構築する一助とすることができるのではないだろうか.

  • 藤後 英哲, 大浦 杏奈, 菊池 浩史
    原稿種別: 研究会資料
    p. 45-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    本稿ではテキスト・音声・ジェスチャーを制御したマルチモーダルな対話システムの開発に取り組んだ。本対話システムは応答生成器と感情分類器によって構成されている。応答生成器にはGPT-2を用いた。GPT-2では、学習済みモデルをTwitterから収集したデータによって転移学習をした。感情分類器にはBERTを用いた。BERTの学習では、学習済みモデルを感情分析データセットであるWRIMEによってファインチューニングした。WRIMEでは1つの文章に8つの感情カテゴリのアノテーションがされている。そのためBERTでは多ラベルの学習を行い、分類時には最もスコアの高い感情カテゴリを対話システムの表出感情とした。表出感情を基に、事前に作成したデータセットからジェスチャーと音声の制御を抽出し、システム発話と共に出力した。

  • 久松 拓夢, 武井 大地, 中井 紫音, 宮本 友樹, 内海 彰
    原稿種別: 研究会資料
    p. 46-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    人は対話を行うとき,自分のペースで一方的に発話するだけでなく,相手の発話から対話の雰囲気をくみ取り,その雰囲気に合わせた発話を返すことが一般的に可能である.このような対話方略は,対話の中で相互理解をし,コミュニケーションを円滑にするために行われている.しかし,テキストのみを入力とする対話システムにおいてはユーザから得られる情報が限られており,雰囲気推定の手法は確立されていない.対話システムがコミュニケーションを円滑にするような対話を実現するためには,ユーザから得られる情報に基づいた雰囲気推定手法を実現することが有用である.そこで本研究では,ある単語が表す意味は周辺の単語から推定可能であるという分布仮説のもと,ニューラルネットワークによるテキスト情報に基づく雰囲気ベクトル生成手法を提案する.提案手法を実装した対話システムを構築し,対話システムライブコンペティション5の予選に出場した.

  • 佐藤 明智, 南 泰浩, 金子 俊太, 谷口 伊織, 郭 恩孚
    原稿種別: 研究会資料
    p. 47-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    本論文は我々が対話システムライブコンペティション5に提出したシステムについて報告、分析を行う。本システムは話題継続とペルソナを考慮したシステムである。話題継続の考慮は対話履歴から話題を継続するかどうかを分類モデルで判定しそれに応じて応答生成するものである。またペルソナの考慮は事前に指定したペルソナ、対話中に出現したペルソナをもとに応答生成するものである。応答生成モデルはGPTをJPersonaChat、Hazumiコーパスでファインチューニングしたものを用いた。また話題継続の判定にはHazumiコーパス用いてBERTをファインチューニングし、話題変更、話題継続(弱)、話題継続(強)の3クラス分類を行うモデルを用いた。予選の結果は6位になり、話題についての知識が無いため、単調応答、話題と関係ない発話生成などの問題点が挙げれた。最後に実際の対話例を用いた分析、改善案について述べる。

  • 楊 潔, 菊池 浩史, 中下 咲帆, 藤後 英哲, 菊池 英明
    原稿種別: 研究会資料
    p. 48-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    本稿は談話研究の知見を活用し、SUNABAでマルチモーダル対話システムを作成した。謝罪対話と自由対話に分け、シチュエーションに適するかつ人らしさが感じられる工夫をした。謝罪対話の部分では、人同士の謝罪場面における語用論的方策、使用率及び方策の順番を参考に、システム発話を作成した。また、被謝罪側による応答の種類に応じて条件分岐を作成した。さらに、共感を示す発話や非流暢性発話など、人らしさを高めるための工夫をした。一方、自由対話の部分では、システムによる質問や暗黙的な話題転換などの方策を用いて、システム主導の対話シナリオを作成した。音声(ピッチ、音量、話速)とジェスチャについては、連続で同じ調整の応答にならない制御を基本指針とした。また、謝罪の流れに応じた想起される謝罪側の欲求を考慮して制御を行った。評価の結果、本システムは予選で四位の評価を得た。

  • 内田 昂, 本田 為彬, 吉開 一輝, 本田 裕
    原稿種別: 研究会資料
    p. 49-
    発行日: 2022/12/01
    公開日: 2022/12/01
    会議録・要旨集 フリー

    バーチャルな環境下で対話を行うマルチモーダル対話システムの開発を行い,人工知能学会が主催する対話システムライブコンペティション5に参加した.本コンペティションは対話システムの対話能力を競うもので,我々はユーザへの謝罪の想定して対話行うシチュエーショントラックにエントリーした.本研究では,バーチャルエージェントとの会話に慣れていないユーザでも円滑な対話を可能にすることを目的とし,①フェーズ遷移,②相手の感情に合わせた出力,③時間閾値,④誘導発話の対話技術を開発した.本論文では対話システム並びに開発技術を紹介する.

feedback
Top