人工知能学会全国大会論文集
Online ISSN : 2758-7347
第35回 (2021)
選択された号の論文の514件中351~400を表示しています
  • 木村 匠, 松原 崇, 上原 邦昭
    セッションID: 3I4-GS-7a-04
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    3次元点群はロボット工学や自動運転など幅広い分野で活用され,コンパクトな表面の表現として人気が高まっている.従来,点群のための深層生成モデルは,球状の潜在変数から一つの写像による変動をモデル化するように学習されており,点群のトポロジカルな構造を考慮していなかった.そのために,写像において変化する穴の数や交点を表現することができなかった.本論文では,複数の潜在ラベルを持つflow-based deep generative modelを提案する.さらに,相互情報量を最大化することで,ラベルによって条件付けされた各写像は,多様体におけるチャートのように点群のサブセットの写像に割り当てられ,既存手法ではぼやけたり穴の生成に失敗する傾向があったが,提案手法においては明確な境界を持つトポロジカルな構造を維持することが可能になった.実験結果により,提案手法はsampling-basedな点群生成手法の中で,生成と再構成において最高の性能を達成することが示された.

  • 山脇 一浩, 韓 先花
    セッションID: 3I4-GS-7a-05
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    単一画像の超解像技術は深層学習の発展に伴い大きく進歩している.これらの多くの手法はbicubicダウンサンプリングなどの既知劣化モデルを用いて高解像度(HR)画像から低解像度(LR)画像を生成し,事前に用意された画像ペアを用いてHR画像を予測できる深層モデルを学習する.このように作成したデータセットを用いて完全教師あり学習法で構築したネットワークでは複雑な劣化モデルを持つ実LR画像への適応は困難である.そのため本研究では未知の劣化モデルに対しても対応可能な教師なし学習ネットワークを提案する.提案手法では畳込みネットワークの構造自体が豊富な画像プライア(Priors)を持つことに注目し,LR画像のみでHR画像の潜在構造とその劣化モデルを同時に学習するend–to–end枠組を開発する.HR画像を予測するエンコーダ・デコーダ生成ネットワークと劣化演算を行う特殊なdepth–wise convolution層を設計し,joint最適化により同時学習を実現する.公開されたベンチマークデータセットを用いて提案手法の有効性を検証し,未知の劣化モデルで観測されたLR画像に対しても精度の向上が確認した.

  • 辻 健一郎, 御手洗 彰, 棟方 渚
    セッションID: 3J1-GS-6a-01
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    特殊詐欺における被害は社会的にも大きな問題となっており,多様な組織・機関が被害の阻止・減少を目指し,様々な対策を講じている.関連研究においては,特定のキーワードとユーザ状態から詐欺電話の判別を行う実証実験などが行われているが,手口の多様化により使用されるキーワードも変化するため全てに対応することは困難である.例えば,息子を装ったオレオレ詐欺が認知されると,還付金詐欺などの振り込め詐欺が広まり,近年ではキャッシュカード詐欺盗の増加がみられ,現在では新型コロナウイルス感染症に便乗した詐欺も確認されている.本研究では,特殊詐欺音声(オレオレ詐欺・還付金詐欺)から被疑者に共通する発話特性の抽出を試みた.被疑者の発話に共通してみられる特徴として,発話内容や声に着目して分析を行なった.形態素解析の結果からは,被害者に切迫感を与えるような時間に関連する単語が多く用いられていることが示された.また,通常会話の発話速度よりもわずかに早いという特徴がみられた.これらの結果を用いて,新たな特殊詐欺における対策として,多様な手口に対応するための,特殊詐欺判別モデルについての検討を行う.

  • 太田 博三
    セッションID: 3J1-GS-6a-02
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    ここ数年でBERTやRoBERTaを主としたTransfomer派生モデルの発展は目覚ましく,機械翻訳や自動要約,文章自動生成など自然言語処理のあらゆる分野で実用化されている.これらを支えるのに知識表現や推論があり,ロボットなどの機械に一般常識を取り入れることで,情報検索や質問応答の精度向上を目指す動きが活発になっている.本研究では,BERTを中心とする動きが確立しつつある中で,コーパスの向上が本質的価値を提供するものとして,言語的な側面から,どの要因が精度向上に寄与し,また一方で不足しているかを考察するものである.特に,常識推論の領域は,国際的なベンチマーク・タスクが中心となっているが,限られたデータセットの分布で作られるため,言語モデルが限定的限ではないかという批判も常に受けている.この中で,各タスクのリーダーボードの中身を点検する必要がある.WikipediaやConceptNetなどは書き言葉の常識推論(Commonsense Reasoning)で精度が上がると見込めるが,相互行為のある話し言葉の対話に,常識推論をどうしたらとけ込めるかも言語的に提案したものである.

  • 尾崎 正明, 内山 瑛美子, 西田 佳史
    セッションID: 3J1-GS-6a-03
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    学校現場における事故数はここ数年変化が無く、現状の傷害予防策は不十分であると考えられている。一方、事故状況を記述したビックデータは様々な分野で記録されてきているが、これらのビックデータを用いて介入すべき状況を明らかにすることで、傷害予防の介入をデザインする方法論は確立されていない。本研究では、最近利用可能となってきている自然言語処理技術である分散表現と、疫学分野の基本的な指標であるリスク比を統合した新たな手法として状況リスク比分析法を提案する。提案手法は、状況を、ターミノロジーのレベル、事故の前後関係(事故プロセス)のレベルなどの様々な粒度で包括的に分析可能にする手法である。具体的には、事故の状況を記述したテキストデータを、分散表現を利用して類似したターミノロジーや、類似した事故状況ごとにリスク比を計算し、リスク比が高い危険な事故状況を抽出する。本研究では、本手法の検証に日本スポーツ振興センターの災害給付制度により収集された日本の学校事故の悉皆データに相当するビックデータを使用し、介入が必要と考えられる危険な事故状況の抽出を行った。

  • 有田 朗人, 駒井 雅之, 佐藤 大輔, 丸古 凌介, 大木 環美, 野村 雄司, 田邉 豊, 平 博順
    セッションID: 3J1-GS-6a-04
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    一般に深層学習においては、高いタスクの精度を得るためには、数万以上の訓練データが必要になる。 しかしながら、実タスクにおいては、大規模なデータが入手できないことも多い。 そこで、本発表では、ドメインが限られ小規模なデータセットについてのテキスト分類において、 日本語の文節入れ替えを用いてデータ水増しを行い、分類精度の向上を試みた。

  • 小坂 直輝, 小林 哲則, 林 良彦
    セッションID: 3J1-GS-6a-05
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    文章が持つ情報をグラフ等の構造化したデータに変換するという試みが古くから存在し,それに加え,近年自然言語処理の分野でグラフの利用が新たなブームになりつつある.一方でどういったグラフ表現,利用法がいいのかについてはタスク依存な部分もあり,明確な答えはないのが現状である.本研究では機械読解問題を取り上げ,文章からその内容を表すグラフを生成し読解に利用することでグラフの有用性や適切なグラフ表現,利用法を明らかにすることを目的としている.具体的には読解問題における文章の各文を単語の依存関係などを用いてグラフに変換,得られた各文のグラフを共参照解決結果やグラフのROOTを用いた複数の統合法により統合し文章レベルのグラフを生成,それをグラフ畳み込みを介して利用することで読解問題を解く実験を実施した.実験結果から,機械読解タスクにおいて,テキストの言語解析の結果をグラフとして表現することが有用であることが確認できた.

  • 鶴江 匠, 崔 龍雲
    セッションID: 3J2-GS-6b-01
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    ロボットが人の要望に応えるためには,人からの命令を理解する必要がある.しかし,自然言語は様々な表現方法を持つため,一意の命令内容に対し無数の表現が存在する.そのため,ロボットは多様な表現の命令から,正確にその内容を理解する必要がある.これに対し,命令理解手法としてAttention型Seq2Seq(Sequence to Sequence)モデルによる意味解析がある.しかし,出力は複雑な論理形式で表されるため,ロボットが実際にタスクを行うために出力を変換する必要がある.そこで,ロボットによるタスクの遂行において,適切な出力で命令を理解する手法を提案する.出力は命令タスクに必要な情報(単語)を[“タスク”,“対象”]の順に出力する.出力の順番に意味を持たせることで,論理式を用いることなく命令を理解する.RoboCup@Homeで使用された命令文を用いた実験の結果,論理式を用いずに命令を理解することが可能なことを示した.

  • 岸波 洋介, 赤間 怜奈, 佐藤 志貴, 鈴木 潤, 徳久 良子, 乾 健太郎
    セッションID: 3J2-GS-6b-02
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    人間同士の対話において,ある時点での発話は,過去の文脈だけでなく未来の展開に動機付けられる場合がしばしばある.未来の展開を先読みし,それを現在の発話に活用することは,能動的な対話の進行に重要な要素のひとつであり,近年,ニューラル対話応答生成の研究領域においても未来の展開を先読みする能力は注目されつつある.我々はこれまでに対話システムの先読み能力を分析可能な「先読み雑談タスク」を提案した.本研究では,対話システムの先読み能力を実現するために,既存の対話システムの枠組みに対し未来の展開まで生成する学習戦略を提案する.具体的には,入出力がそれぞれ過去の文脈,未来の展開を含む複数発話で構成される対話データを用いて,応答とその先の未来の展開まで生成するsequence-to-sequenceモデルを構築する.実験では,提案戦略で学習した対話システムを用いて「先読み雑談タスク」を実施し,システムが先読みをおこなえるのか分析する.実験結果から,既存の対話システムの枠組みで先読みをおこなう難しさを考察する.

  • 本間 大貴, 青木 達哉, 堀井 隆斗, 長井 隆行
    セッションID: 3J2-GS-6b-03
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    近年,我々の生活を直接支援してくれるホームロボットの実現が期待されているが,未だ実現には至っていない.その理由の1つとして,ロボットにおける人間の言語命令の処理の難しさが挙げられる.例えば,与えられた発話の内容はいつ行うべきなのかを,ロボットが判断できる必要がある.「キッチンのシンクに片づけて」と言われたとき,その内容をすぐに行うと判断し,何も物をつかむことなくシンクに行ってしまっては意味がない.また,発話は人間が与えるものであるため,言い間違えをしてしまう可能性がある.そのため,発話を全て鵜呑みにせず,発話が妥当であるかどうかをロボット自身が判断する必要がある.提案手法は,ロボットの状態の遷移,各状態におけるマルチモーダル情報の分布を学習する確率モデルを利用し,状態ごとの単語の出力分布から言語命令の尤度を計算することで,先述した2つの問題を解決する.提案手法の有効性を示すため,時制の推定精度を他の手法と比較した.また,発話が間違っていた場合に,発話者が本当に言いたかったと思われる発話をスムーズに提示できるか,そもそも発話を疑うことでどれほど精度が向上するかを定量的に示した.

  • 本田 裕, 竹内 誉羽, 中野 幹生
    セッションID: 3J2-GS-6b-04
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    ユーザが求める説明を行う対話型FAQシステムを提案する.近年,製品のマニュアルを説明するチャットボットやFAQシステムのサービスが数多く提供されている.しかしながら,ユーザは必ずしも自分が知りたい製品の機能を言語で表現することができるとは限らない.そこで,ユーザが曖昧な質問をしても求める機能を推定して説明し,ユーザに誤解が推定される場合は誤解を解消するFAQシステムを開発した.ロジスティック回帰を使用して,ユーザ発話からクルマの機能とクルマに関する誤解を推定するモデルを学習した.評価の結果,比較的少ない学習データにも関わらず高い精度を確認することができた.また,ユーザ主観評価の結果,システムがユーザにとって使いやすいことを確認することができた.

  • 李 廷軒, 白 書霆, 鈴木 勢至, 宇津呂 武仁, 河田 容英
    セッションID: 3J2-GS-6b-05
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    インターネット上には,物事のやり方に関するノウハウが多数掲載されたウェブ サイト(本論文では,ノウハウサイトと呼ぶ)が多く存在し,先行研究では,それ らのノウハウサイトを効率よく収集する手法が提案されている.それに対して, 本論文では,ノウハウサイトに掲載されているノウハウ事例と比較しても,日常 生活の中でより頻繁に発生していると予測される質問とそれに対する回答が多く 掲載されているコミュニティQAサイトに着目する.コミュニティQAサイト上の質 問と回答は,ノウハウサイトに掲載されているノウハウとは異なり,実際の活動 の中での疑問点に関する質問に対して,経験者・専門家等の回答者が投稿した回 答の実例となっており,日常生活において生じた質問とそれに対する回答の事例 となっている.そこで,本論文では,これらの事例における質問・回答テキスト 部分を,それぞれ,質問,および,コンテキストとみなして先行研究で訓練され たノウハウ読解モデルを適用する.この方式によって評価実験を行い,先行研究 で訓練されたノウハウ読解モデルが事実に関する読解モデルを上回る性能を達成 することを示す.

  • 加来 宗一郎, 西田 京介, 吉田 仙
    セッションID: 3J4-GS-6c-01
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    事前学習済み言語モデルであるBERTの軽量化・高速化に向けてfloat値を少ないbit数表現で近似する量子化技術が注目を集めている.従来技術ではモデルのweight パラメータを3値や2値にする研究が行われているが,一方でactivationの量子化は8bit化が主流であり,8bit未満での近似は精度維持が困難であることが経験的に知られている.本研究ではBERTの中間表現における外れ値が課題であると考察し,事前学習済みのBERTを基に各層のactivationの外れ値に対応可能な3値化手法を提案する.評価実験により,weightとactivationを3値化したモデルが言語モデリングおよびダウンストリームタスクにおいて従来手法で3値化した場合に比べて精度低下を抑えたことを示す.

  • 堂坂 浩二, 成松 宏美, 小山 康平, 東中 竜一郎, 南 泰浩, 田盛 大悟, 平 博順
    セッションID: 3J4-GS-6c-02
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    学術論文の爆発的増加と論文執筆において適切な文献を引用する必要性から論文執筆支援の研究が進められている.本発表では,論文執筆支援の中でも,論文の個々の文に引用を付与する必要があるかどうかという引用要否判定タスクに焦点をあて,大規模汎用言語モデルBERTの転移学習による判定モデルの結果とエラー分析について示す.まず,既存のCite-Worthy データセットを用い,BERTによる判定モデルの評価を行った.訓練データに正例77,000文,負例28万文,テストデータに正例8,500文,負例11万文を用い,判定モデルを学習した.畳み込みニューラルネットワークによる従来法(F値:0.43)に対し,大幅な性能向上(F値: 0.70)を得た.次に,Citation Functionデータセットを用い,引用意図ごとに判定モデルの評価を行った.評価の結果,「背景説明」といった多様な表現により表される引用意図のほうが,「従来との比較」といった表層が限定される引用意図よりも識別性能が低い傾向が見られた.エラー分析を通して,引用箇所の前後の文脈を含めたモデルの必要性について考察する.

  • 宇田川 忠朋, 久保 大亮, 松崎 拓也
    セッションID: 3J4-GS-6c-03
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    本論文では、日本語係り受け解析にBERTを用いることで、既存手法と比較してどういった誤りが改善されるのかを調べた。BERTは、文章を入力し、その中の各単語について文脈に依存した埋め込みベクトルを得る手法である。本論文ではBERTを用いる手法として、係り受け候補に対応するBERTの出力ベクトルを順伝播型ニューラルネットワークに入力する方法と、双線形関数に入力する方法の2つを従来法と比較する。実験を行ったところ、BERTを用いる手法はどちらも従来法の精度を上回った。この差を係り受けペアの品詞の組み合わせや文節間距離などの観点から分析し主な精度向上の要因を探った。

  • 後藤 成晶, 土屋 英滋, 水野 祥宏
    セッションID: 3J4-GS-6c-04
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    Software as a Serviceに代表されるX as a Serviceは、開発と運用を一体化したDevOps方式を採用する事が多い。DevOpsを採用する目的は、システム運用時におけるユーザー要求の獲得と、システム開発時におけるユーザー要求の反映との繰り返しにより、システムをユーザーが求める姿へ育て上げる事である。本研究では、DevOpsをより高速に実施できるよう、SNS投稿文のような自然言語文章からユーザー要求に関する記述を抽出し、システム開発に反映しやすいSysMLに準拠した表現形式に自動変換する自然言語処理アルゴリズムを検討する。本稿では、自然言語処理タスクの定義、およびBERTによる固有表現抽出タスクを応用した実装、F値69.3%を確認した試行結果について報告する。

  • 友成 光, 西野 正彬, 山本 章博
    セッションID: 3J4-GS-6c-05
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    予測精度の高いニューラルネットワークモデル (NNモデル) であっても、入力データに微小なノイズ (摂動) が加わることによって予測が変わってしまうことがある。摂動の存在により、NNモデルをテキスト判別や機械翻訳などに用いた場合に問題が起きる可能性がある。このようなリスクを減らすためには、摂動に対してNNモデルがどれだけ頑健かを調べておくとよい。画像を入力としたNNモデルの頑健性を数理最適ソルバを用いて正確に調べる手法が提案されており、この手法をNNモデルの検証と呼ぶ。一方で、テキストを入力とした場合には、文字や単語が離散的であることから摂動の定義が難しい。そこで、本研究では単語埋め込みによる実数ベクトルを入力とすることで画像と同様の摂動を定義し、NNモデルの検証を行う手法を提案する。加えて、検証手法の妥当性を調べる実験を行ったところ、頑健さの異なる複数のモデルと本検証手法の間には相関が得られた。

  • Tomoya MATSUBARA, Ahmed MOUSTAFA
    セッションID: 3N1-IS-2d-01
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    This paper proposes an approach for detecting yawning under mask. The ultimate goal is to quantify drowsiness and fatigue on the driver monitor even under a mask. It will be possible by analyzing the wrinkles on the mask when the driver yawns. You Only Look Once (YOLO) is used as the detection method. If the certainty of YOLO's prediction is low, use BruteForceMatcher to improve the overall accuracy. To evaluate the proposed approach, a test is performed using actual yawning footage. As an experimental result, I hope that the accuracy will be improved when the proposed method is used than when only YOLO is used.

  • Shunsuke TAKAO
    セッションID: 3N1-IS-2d-02
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    Although underwater images are important in many fields, image degradation such as color distortion or declined contrast caused by the complex ocean environment is a serious problem. In order to remove strong noises in underwater images, learning based approaches like deep learning are a prominent solution, but making large underwater dataset is a challenging task, not as in land images. Artificial images are commonly used in stead of real images to satisfy sufficient data in underwater image processing, but previous underwater image models are simplified and lacking reality. In order to enhance underwater images, this research constructs large underwater dataset based on correct underwater image model. Also, analysis of the constructed dataset and the performance of the proposed model is presented. PSNR of the proposed dataset distributed in wider range, suggesting the reality of the proposed dataset.

  • Yuriko YAMAYA, Shintaro KAWAMURA, Seigo HARASHIMA, Shinya IGUCHI
    セッションID: 3N1-IS-2d-03
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    One of the major tasks of the customer engineers by precision equipment manufacturing industries is to repair the customers’ machines. In case they encounter unknown or difficult procedures, they need to check manuals during repairing it. Furthermore, their works are often done at narrow spaces and make their hands dirty, so there is strong needs on hands-free guides, such as audio text guide. In manuals, there are not only the texts but also images which show the engineers the positional relationships between a target part and the peripheral parts, and the directions of which the target part can be moved. That is, the text of the manuals is insufficient to carry out their work. We propose to generate procedure explanation in texts for hands-free guides, by acquiring the information on the relationship between the target part and peripheral parts from the images and adding them to the information on the target part operation.

  • Yingfeng FU, Yusuke TANIMURA, Hidemoto NAKADA
    セッションID: 3N1-IS-2d-04
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    Distributed word representation greatly promoted research in NLP. Same as languages, MIDI music is constructed in the way of sequence, with a determined alphabet of notes and events. We proposed a way of training MIDI note embedding with an adaption of Facebook's fastText model. We then evaluate the model by word similarity, word analogy, and a classification task. The result shows that the adopted fastText model generalizes well in MIDI data and it’s promising to be used on future downstream tasks.

  • Taichi HOSOI, Hirohisa HIOKI
    セッションID: 3N1-IS-2d-05
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    Recent achievements in image processing technologies enable us to automatically extract various information from sports videos and utilize it for purposes like analyzing games. For analyzing sports played with equipment like tennis, tracking their movements matters as well as those of players. For tracking players' movements, we already have methods that can estimate joint positions from videos. Meanwhile, for equipment, although we can locate it in videos by object detection methods, such location information is not always enough for our purpose. We require more detailed information like to which direction a racket is facing. We hence propose a method to track the tip of a tennis racket in a video for analyzing its movements. Considering applicability and usability, we are aiming at making our method work for single video streams taken under various conditions (courts, racket colors, clothes and weather) and can track a racket tip stably even when it happens to be occluded by a player or looks blurred in videos. For this purpose, we employ a CNN (Convolutional Neural Network) which processes time sequential images. We have performed an experiment and found that our method seems to work better than a method processing images one by one separately.

  • David John Lucien FELICES, Mitsuhiko KIMOTO, Shoya MATSUMORI, Michita ...
    セッションID: 3N3-IS-2e-02
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    In Reinforcement Learning, the Deep Deterministic Policy Gradient (DDPG) algorithm is considered to be a powerful tool for continuous control tasks. However, when it comes to complex environments, DDPG does not always show positive results due to its inefficient exploration mechanism. To deal with such issues, several studies decided to increase the number of actors, but without considering if there was an actual optimal number of actors that an agent could have. We propose MAC-DDPG, which consists of a DDPG architecture with a variable number of actor networks. We also compare the computational cost and learning curves of using different numbers of actor networks on various OpenAI Gym environments. The main goal of this research is to keep the computational cost as low as possible while improving deep exploration so that increasing the number of actors is not detrimental in solving less complex environments fast. Currently, results show a potential increase in scores obtained on some environments (around +10%) compared with those obtained with classic DDPG, but greatly increase the time necessary to run the same number of epochs (time linearly increases with the number of actors).

  • Paulino CRISTOVAO, Hidemoto NAKADA, Yusuke TANIMURA, Hideki ASOH
    セッションID: 3N3-IS-2e-04
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    We investigate the Few Shot Learning based on the weight imprinting technique. The performance of imprinted weights deeply depends on the quality of the representation the encoder creates. However, it is known that the extracted representation quality affects the performance of the imprinted model, it is not known what characteristics are required for weight imprinting. The representation leads to the highest classification accuracy for base classes might not be the best one for downstream imprinting tasks. We are investigating how we can get a `better' representation in terms of WIP. Currently, we are focusing on regularization, model architecture, data augmentation, auxiliary dataset, and auxiliary tasks.

  • Daiko KISHIKAWA, Sachiyo ARAI
    セッションID: 3N3-IS-2e-05
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    Recently, inverse reinforcement learning, which estimates the reward from an expert's trajectories, has been attracting attention for imitating complex behaviors and estimating intentions. This study proposes a novel deep inverse reinforcement learning method that combines LogReg-IRL, an IRL method based on linearly solvable Markov decision process, and ALOCC, an adversarial one-class classification method. The proposed method can quickly learn rewards and state values without reinforcement learning executions or trajectories to be compared. We show that the proposed method obtains a more expert-like gait than LogReg-IRL in the BipedalWalker task through computer experiments.

  • 伊藤 誠基, 砂山 渡
    セッションID: 4C3-OS-1a-01
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    近年,オンラインチャットによる対話の機会が増えてきているが,意図的あるいは無意識に相手を傷つけるコメントが発信されることがある.多くのシステムでは,あらかじめ送信することが適切ではない単語を用意して,その単語を含むコメントを発信できないようにすることが多い.しかしこの方法では発信する側の意識を変えることはできないため,根本的な解決を与えるには至っていない. そこで本研究では,誹謗中傷コメントの発信を未然に防止する機能として,誹謗中傷の可能性があるコメントの発信者にメッセージを表示して,内容の意識と確認を促す機能,ならびにコメントを受け取るユーザの,誹謗中傷によるこれまでの蓄積ダメージを推計して可視化する機能を提案する.これらにより,コメントを発信するときのユーザの意識の変化を促す.実験により,提案する機能が誹謗中傷コメントの発信防止に繋がるかどうかを検証した.

  • 工藤 裕登, 砂山 渡
    セッションID: 4C3-OS-1a-02
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    近年,SNSを通じた交流が非常に盛んに行われている.多くの人と簡単に繋がりを持てる一方で,人間関係のトラブルも発生しやすくなっている.トラブルを未然に防ぐ一つの方法としては,交流を持つ相手の情報を事前に確認する方法が考えられるが,多くの人の発信内容を逐一確認することは非常に大きな手間がかかってしまう. そこで本研究においては,Twitterを題材として,ツイート中の感情表現単語の使用割合にもとづいて,各ユーザの性格を推定した結果を表示することで,交流を持つ相手の選択を助けるシステムを提案する.本システムの利用者は,提供されるTwitterユーザの性格情報をもとにユーザを絞り込み,その後絞り込んだユーザの実際のツイートを確認することで,交流を持ちたい人を探すことができる.実験により,本システムが出力するTwitterユーザの性格の妥当性と,交流したいTwitterユーザをスムーズに探すことができるかを検証した.

  • 小林 賢治, 柴田 祐樹, 高間 康史
    セッションID: 4C3-OS-1a-03
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    本稿では,GDM(Geometric Dirichlet Means)に基づくインタラクティブトピックモデリングの手法を提案し,実際のニュースコーパスに適用することで有効性を検証する.トピックモデリングは文書集合の潜在トピックを確率的に分析する手法だが,教師なし学習であるため分析者の意図しない結果を出力する場合がある.この問題に対し本稿では,機械学習に分析者の知見を取り入れることで,学習結果に分析者の意図を反映させるhuman in the loopを導入し,分析者の意図するトピック抽出を試みる.具体的には,幾何学的計算に基づくGDMを利用したインタラクティブトピックモデリングを提案し,モデル変更操作とそれに必要なパラメータを定義する.本稿では,提案するモデル変更操作について検証実験を行った結果について報告する.

  • 安藤 雅行, 砂山 渡, 畑中 裕司
    セッションID: 4C3-OS-1a-04
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    深層学習には分類基準等のブラックボックス問題が存在しており,解決が急がれている.テキストマイニング分野においても,分類基準を明確化することで,分類の根拠から,例えば,良い電子カルテやレポートの特徴等を解釈し,新たな知識創発への活用が期待される.一方で,テキストマイニング分野において,分類基準を明確にするために,深層学習の学習済みネットワークに注目する研究はほとんど見られない.そこで本研究では,文章の分類問題を題材として,LSTMの学習済みネットワークからの分類基準の解釈に向け,ネットワーク中の重みを条件付き確率としたHMMを適用する.そして,HMMから各分類先に寄与する特徴量の時系列パターンを抽出し,LSTMの分類基準として解釈を試みる.評価実験では,アニメの台詞や商品レビューを対象として,提案手法によって抽出された分類パターンとTF–IDF情報から作成した分類パターンとを比較した.その結果,提案手法では,TF–IDF情報から読み取れない,解釈に有効な特徴を示した分類パターンの抽出が可能であることを確認した.

  • 笹嶋 宗彦, 石橋 健, 山本 岳洋, 加藤 直樹, 丸橋 弘明
    セッションID: 4C4-OS-1b-01
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    本研究の目的は,課題解決型の演習教育(PBL 演習) を軸とする,実践的データサイエンス人材育成カリキュラムの構築およびその実施による人材育成である.データサイエンス教育においては,プログラミング技術や統計学知識など,データ分析力に焦点が当たることが多い.しかし,データサイエンティストに本当に求められているスキルはそれだけではない.本当の意味でのデータサイエンティストに求められるのは,社会から課題を発見し,データ分析を通じて解決のための方策を検討し,その結果を社会に還元するスキルである.この方針に基づき,筆者らの所属する学部では,1,2年生の必修科目として,実店舗を対象として実データを分析し経営課題解決のための提案を行う,課題解決型演習を2019年から実施している.本年は,コロナウィルス感染防止策として,オンラインとオフラインとの混合の形式で,PBL演習を行った.前年度と比較して,受講学生の意識がどのように変わったかを報告する.

  • 佐藤 允哉, 砂山 渡
    セッションID: 4C4-OS-1b-02
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    近年,データサイエンティストの育成が急務となって来ており,大学教育でも必修化が進められて来ている. また,データサイエンスにおいては,個別の分析手法に焦点が当てられることが多く,手元にデータがある状態から,分析結果として知識を得るまでの一連の手順が説明される機会は少ない. そこで本研究においては,データ分析の一連の手順の習得に向けて,テキスト分析ツールのTETDMを用いて,データ分析の初心者が,データを入力してから知識を得るまでの一連の手順の遂行を支援する音声ナビゲーションシステムを提案する.実験の結果,提案するナビゲーションシステムが,テキスト分析の一連の手順のスムーズな遂行を支援する効果があることを確認した.

  • 中井 克啓, 韓 先花
    セッションID: 4C4-OS-1b-03
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    肝硬変の存在及び進行度合いの予測は,患者の治療方法の決定と臨床効果の評価に重要な要素である.現在,肝硬変の標準治療は肝生検であるが,肝臓の細胞を直接採取する手法であるので,サンプルを摂取する場所を慎重に決める必要があり,かつ患者への負担が大きいなどの問題がある.そのため,近年は血液検査や画像診断など,患者の負担が少ない手法で肝硬変を検査することが検討されている. 本研究では深層学習を用い,MRI画像から自動的に肝硬変の進行度合いを予測する手法を検討する.また,肝臓のMRI画像は一般画像のクラス分類と比べ,クラス間の特徴の差があまり大きくなく,分類が困難であるサンプルも多数含まれる.そこで,クラス間の特徴の距離を大きくすることで精度の向上を目指す深層距離学習を導入した手法を提案する.ベース構造はVGG16,ResNet18およびResNet50を用い,深層距離学習の手法としてArcFaceを加え,山東大学から提供していただいたMRI画像を用いて肝硬変の進行レベルを初期・中期・末期の3つの状態に分類した.深層距離学習を導入した結果,ベース構造と比較すると3%~7%の精度向上が確認できた.

  • 齋藤 勇斗, 松原 良太, BIN Mohd Anuardi Muhammad Nur Adilin, 菅谷 みどり
    セッションID: 4D2-OS-4a-02
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    近年,ヒューマンエラーによる労働災害が増加している.ヒューマンエラーの精神的状態の分析では,生体情報を用いた手法が様々提案されている.しかし,精神状態を生体情報で計測し,その結果に基づき正確な予測を行う研究はまだ十分ではない.本研究では,無意識的な精神状態として脳波・心拍で計測し,意識的な精神状態としてアンケートを行う事で,エラーの予測モデルの構築およびリアルタイム予測を行う事を目的とする. 実験では,協力者に数日に渡りストループ課題を実施してもらい,その際に得られた脳波・心拍とアンケート結果を用いて,個人ごとのエラーの予測モデルを提案した.結果として,脳波・心拍とアンケート結果の一部指標において,エラーに関係するという事が得られ,これをエラーの予測モデルに組み込んだ.さらに,エラーの予測をリアルタイムで行い,ヒューマンエラーを未然に防止する事ができるかどうかを検証した.結果として,エラーと予測された際,97%でエラーの発生が確認された

  • 佐藤 好幸, 洞口 勇太, VANEL Lorraine, 塩入 諭
    セッションID: 4D2-OS-4a-03
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    インターネット技術や携帯端末の進化に伴い,SNSでの他人の投稿画像や自ら撮影した写真など,我々が接する画像コンテンツの数は増加の一途をたどっている.そのような状況においては,ユーザーに負担をかけずに画像に対する好みを推定し推薦する技術は重要なものとなる.そこで本研究においては,Instagramに投稿された画像に対するユーザーの好みを,暗黙的情報から機械学習を用いて推定する手法の開発を行った.評価する画像そのものに加えて,評価を行っている際の顔映像情報を暗黙的情報として用いた.さらに,お弁当画像と風景画像という異なる画像ドメイン間で,予測に有用な顔表情特徴がどのように変わるかの検証を行った.その結果,どちらの画像ドメインにおいても,予測性能は画像のみを用いた場合,顔画像のみを用いた場合,両方を用いた場合,の順に上昇することがわかった.さらに,特徴量の貢献度分析により,お弁当画像に対しては笑顔に関する顔表情特徴が,風景画像に関しては恐れや怒りに関する顔表情特徴が重要であることがわかった.

  • 熊野 史朗, 松藤 彰宏, 周 岩
    セッションID: 4D2-OS-4a-04
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    従来の自動感情推定の主な対象は本人の感情状態、または、複数の外部観察者の印象の集約値であり、ある一人の他者の印象を推定する研究が限られている。そのための一つのアプローチとして、我々はこれまでに、評価対象と評価者の条件付き独立性を仮定したモデルを提案してきた。だが、シンプルなモデルゆえに、未知の対象や未知の評価者に対する予測性能は限定的であった。そこで、本研究では深層学習を用いて予測性能を高める試みを行った。表情顔画像に対する感情認知実験を行った結果、提案法の有効性が確認された。

  • Sayyedjavad ZIARATNIA, Peeraya SRIPIAN, Kazuo OHZEKI, Midori SUGAYA
    セッションID: 4D3-OS-4b-01
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    Various industries widely use emotion estimation to evaluate their consumer satisfaction towards their product. Generally, emotion can be estimated based on observable expressions such as facial expression, or unobservable expressions such as biological signals. Although used by many research, the Facial Expression Recognition (FER) has a lack of precision for expressions that are very similar to each other or a situation where the shown expression differs from the real subject’s emotion. On the other hand, biological signal indexes such as pNN50 can act as a supportive mechanism to improve emotion estimation from observable expressions such as FER method. pNN50 is a reliable index to estimate stress-relax, and it originates from unconscious emotions that cannot be manipulated. In this work, we propose a method for pNN50 estimation from facial video using a Deep Learning model. Transfer learning technique and a pre-trained Image recognition Convolutional Neural Network (CNN) model are employed to estimate pNN50 based on a spatiotemporal map created from a series of frames in a facial video. The model trained on low, middle, and high pNN50 values, shows an accuracy of about 80%. Therefore, it indicates the potential of our proposed method, and we can expand it to categorize the more detailed level of pNN50 values.

  • 大森 一祥, 宮澤 和貴, 青木 達哉, 堀井 隆斗, 長井 隆行
    セッションID: 4D3-OS-4b-02
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    人は,身体を通して様々な感覚信号を受け取っている.感覚信号は外受容感覚,内受容感覚,固有感覚に分類され,これらの統合的な構造化が人間の感情を含む知能の基盤となると考えられる.しかし,これらの感覚信号を継続的に計測する困難さもあり,実際の感覚信号を用いた感情や認知モデルの構築に関する研究は少ないのが現状である.そこで本研究では,Sensoroidと呼ぶウェアラブルセンサシステムを導入することで,実際の人を通して感覚信号をセンシングする.そして,得られた信号に対して機械学習手法を適用することで,情報の統合的な構造化を試みる.さらにこうして構造化された空間を解析することで,人が構築する概念空間を再現できる可能性について議論する.本研究では特に,摂食タスクで得られた信号を基に概念形成を行い,摂食外のタスクで得られた信号がどのように知覚されるかについて,被験者の主観的評価を含め検討した.

  • 平井 優芽, 堀井 隆斗, 長井 隆行
    セッションID: 4D3-OS-4b-03
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    身体に関する感覚は内受容感覚,外受容感覚,固有感覚で構成されており,特に心拍や血圧などの内受容感覚の予測誤差は感情と密接に関係している.しかし,実際に内受容感覚に入力があったときだけでなく,例えば過去に嫌な経験をした物を見るだけで嫌な気持ちになるように,他の感覚の情報から過去の経験が想起され,感情が生まれることもある.そのため感情研究では身体に関する感覚を統合して処理することが重要である.本研究では,予測的符号化の原理に基づき構成した内受容感覚,外受容感覚,固有感覚を高次領域にて統合する計算論モデルを提案する.実験ではこの3つの感覚を持つロボットアームを想定し,見た物体を持ち上げるタスクのシミュレーションを行った.結果として提案モデルは課題を繰り返し経験を積むことで高次領域にて物体に関わる概念を形成し,外受容感覚の情報から内受容感覚と固有感覚に関わる情報を予測することができた.また,高次領域での概念形成度合いに従って感覚信号の予測誤差が変化することを確認した.更に,提案モデルが示す内受容感覚の予測誤差信号を,その微分値で分類することでそれぞれの変化特性と感情との関わりについて議論した.

  • 原田 誠一, 佐久間 拓人, 加藤 昇平
    セッションID: 4D3-OS-4b-04
    発行日: 2021年
    公開日: 2021/06/18
    会議録・要旨集 フリー

    エージェント内で感情を再現するためには,感情を計算機内で数理的に表現するモデルが必要である.本研究では,モダリティに共通した感情の数理的表現(感情空間)の獲得により,人間の感情知覚に基づいた感情認識のモデル化を目指す.本稿では,複数のモダリティを融合するDNNを用いて,多次元超球面で感情空間を表現し,感情認識タスクとモダリティ毎の感情空間の単一化タスクの複合により,モダリティに共通した感情空間の学習をする手法を提案する.音声と顔画像を用いた実験により,感情空間の次元数による各タスクのスコアの両立性について分析し,低次元超球面上での感情空間の表現力について考察する.また,片方のモダリティを欠如させる実験により,利用可能なモダリティのみでの感情認識能力の安定性を検証し,提案手法によりモダリティによらない感情の表現が得られることを確認する.

  • 松藤 彰宏, 笠野 恵莉奈, 下川原(佐藤) 英理, 山口 亨
    セッションID: 4D3-OS-4b-05
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    人と社会的な関わりを持つことのできるエージェント構築や複数人対話の機械支援を目的とした人の感情を推定する技術の発展が注目されている.感情推定技術は,近年の機械学習技術やクラウドソーシングを始めとしたデータ収集環境の発展により活発に研究・開発が進んでいる一方,表出される非言語情報と内在する感情の関係に個人差が含まれる感情それ自体の複雑さにより未だ発展途上となっている.そこで本稿では,感情表出の個人差を考慮した個人の感情推定を実現するための機械学習モデルの構築手法を提案する.提案モデルは,個人ごとのデータを用いてサブモデルを学習するアンサンブル構造とし,各サブモデルの予測値を予測対象の持つ個人差に応じて選定することで,個人差を考慮した感情推定を行った.各サブモデルの未知の推定対象への動的重み付けは,未知の推定対象と学習に用いた人物における感情表出されやすい特徴(説明変数)の類似度を算出することにより求めた.

  • 設樂 一碩, 田中 宏季, 足立 浩祥, 金山 大祐, 阪上 由香子, 工藤 喬, 中村 哲
    セッションID: 4D4-OS-4c-01
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    認知再構成法とは,物事に対する解釈や考え(自動思考)を,客観的な思考に修正するスキルを身に着けるトレーニングである.認知再構成法は確立された精神療法であり,認知行動療法の治療技法の一つに位置付けられている.メンタルヘルスケアの促進を目的として認知行動療法を行う仮想エージェントが提案されてきた.その一方で,対話内容の定量的な分析が不足している.そこで我々は,仮想エージェントとユーザの認知再構成法に基づく対話データを用いて,自動思考に関するユーザ応答を分析した.精神科医による評価の結果,36.1%(36人中13人)の実験参加者が自動思考の同定に不成功であった.そこで,自動思考の同定を誘導可能にするための基盤技術として,自動思考の同定の成功・不成功の2クラス分類を行う分類モデルを提案する.対話実験で収集した自動思考の文章と,書籍中の自動思考に関する語彙リストを訓練データとし,教師あり学習を行った.その結果,0.833のF1 scoreを示した.本分類モデルは,仮想エージェントによる自動思考の動的な誘導に有効な性能であると考えられる.

  • 覚井 悠生, 蛭田 興明, 須賀 聖, 川野 陽慈, 高屋 英知, 加藤 慶彦, 栗原 聡
    セッションID: 4D4-OS-4c-02
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    対話システムが人間のように対話できない原因の一つとしてインタラクションにおいて人の感情を反映できていないことが挙げられる. そこで,本研究では人の感情を反映させたシステムの構築を目的として表情,声のトーン,発話内容のマルチモーダルな感情値を入力としてインタラクションを行う対話システムモデルを構築する. 提案手法は,マルチモーダルの感情値を入力として,XGBoostによって学習してモデルを構築する.発話によって得られたマルチモーダルの感情値をモデルに入力して状況にあった表情の絵文字を表示してシステムは発話する. 比較対象を用意し実験を行った.評価として,アンケートを行なった結果,提案モデルが最も状況にあった表情を表示していることが示された.このことから多くのモーダルを入力とした方が,対話における適切な表情を決定できることが確認できた.

  • NGUYEN Tung, 吉野 幸一郎, SAKTI Sakriani, 中村 哲
    セッションID: 4E1-OS-11a-01
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    強化学習を用いた対話制御においては、既存ドメインで学習した方策をいかに新規ドメインで活用するかが大きな課題の一つである。本研究では、混合密度ネットワークによって既存ドメインと新規ドメインの行動空間同士で関連確率を定義する。これにより、既存ドメインで学習した方策を新規ドメインでそのまま利用する手法を提案する。実験の結果、 回帰によるコンポーネントマッチングを用いた行動関連確率のモデル化が、効率的に既存ドメインの方策を利用可能であることを示した。

  • 大橋 厚元, 東中 竜一郎
    セッションID: 4E1-OS-11a-02
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    タスク指向型対話システムにおいて,ユーザや対話状況に適応的に振舞うことは,タスク達成の上で重要である.しかし,一般的なシステムの構成では,各モジュールが個別に開発され,固定的な部品として接続されているため,想定外のユーザや対話状況に対し柔軟に対応できないという問題がある.そこで本研究では,各モジュールが自身の情報を他のモジュールと共有し,強化学習により,モジュール同士の連動の仕方を学習することで,リアルタイムにユーザや対話状況に適応的に振舞うことのできるシステムの実現を目指す.観光地を検索するタスク指向型対話システムにおいて,ユーザシミュレータを用いた実験の結果,提案手法がタスク達成率の向上につながることを確認した.

  • 杉山 弘晃, 成松 宏美, 水上 雅博, 有本 庸浩, 千葉 祐弥, 目黒 豊美, 中嶋 秀治
    セッションID: 4E1-OS-11a-03
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    近年,Transformer encoder-decoderモデルによる,高性能な雑談対話システムが複数提案されている. これらのシステムでは,システム規模(モデルパラメータ・学習データ量等)を大規模化することで,自然な応答生成を実現している. 一方,対話に対する主観評価について,従来研究ではシステム規模やデコード方法との関係については分析されているものの,Finetuneコーパスによる違いについては分析がなされていない. また,従来の分析では全体的な自然さ・優劣にのみ焦点が当てられており,多面的・詳細な印象との関係については,十分な分析がなされてこなかった. 本研究では,Finetuneコーパスやシステム規模,付加情報の有無を変化させた場合における,人の対話に対する印象について多面的に評価・分析を行う.

  • 大平 義輝, 内田 貴久, 港 隆史, 石黒 浩
    セッションID: 4E1-OS-11a-04
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    本研究の目的は,日常対話においてユーザの好みや経験をモデル化する対話システムを構築することである.ユーザの好みや経験を理解することは,ユーザの対話満足度を高めるために重要である.ユーザ情報を取得する際,ユーザの知識に応じて対話を継続する必要がある.本稿では,ユーザの発話で意図している概念が不明(エラー)な場合,ユーザの発話とシステムの概念を照らし合わせて,それを特定しようとするリカバリ手法を提案する.対話のコンテキストをフレーム表現で定義し,これまでのユーザ発話から得た情報をもとに,コンテキストを更新して意図する概念を特定する.また,ユーザの発話が曖昧な場合には,意図する概念を確定させるための推定を行う.ここでは,事前に取得した第三者の経験データをもとに,常識的と考えられる推定を行う.これにより,ユーザの対話意欲を減退させることなく,意図する概念を特定することを目的とする.このようなエラーリカバリ手法は,ユーザの情報取得時における頑強な対話生成だけでなく,ユーザとシステムの相互理解を促進する上でも重要であると考えられる.

  • 室町 俊貴, 狩野 芳伸
    セッションID: 4E1-OS-11a-05
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    音声対話システムにおいて, システムが相槌を打つことでより円滑なコミュニケーションが可能になり, 話者からより多くの話を引き出す効果が期待できる. 本研究では適切な相槌のタイミングを予測するために対話履歴と言語・音響特徴を用いて予測を行うモデルを提案する. 実験の結果, ベースラインとなる言語特徴と音響特徴を用いて予測を行うモデルよりも提案手法は高い性能を示した. また, 被験者による相槌タイミング予測実験を行った結果, 提案手法は人間のアノテーターに近い性能で相槌タイミング予測ができることを示した. 7人の被験者による5段階評価でもベースラインモデルより高い評価が得られ, 提案手法が有効であることを確認した.

  • 菊池 浩史, 楊 潔, 菊池 英明
    セッションID: 4E2-OS-11b-02
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    現在、日本は高齢者の単独世帯が増えている。高齢者の単独世帯において、会話の頻度が低くなっている。会話の頻度が低くなることで健康の低下が懸念される。さらにコロナ禍において、外出自粛が求められ人と話す機会が減った。人と話す機会が減ることで、精神的な健康が損なわれている。このような対話相手の需要に音声対話システムの活用が期待される。雑談相手となる対話システムの役割の一つに心的状態の共有がある。ユーザが表出した心的状態に対して、ユーザが許容できないパラ言語情報での応答を対話システムがすることによって、ユーザの対話継続欲求が下がる問題がある。本研究は、このような破綻の問題の解決を目指す。我々はこれまでにユーザ発話へのシステム応答に対する許容範囲の存在を、一名の話者によるユーザ発話音声を用いて確認した。本稿では、ユーザ発話の話者を増やして許容範囲の存在を確認する実験について述べる。9名の話者によるユーザ発話音声を収録したうえで、収録された音声とシステム応答による汎用性の高い相槌を接続した音声刺激に対して、聴取評価実験を行い、多様なユーザ発話での許容範囲を調査した。

  • 目良 和也, 石田 真佑奈, 羽原 俊輔, 黒澤 義明, 竹澤 寿幸
    セッションID: 4E2-OS-11b-03
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    我々はこれまで,口調や表情から推定した感情と発話文字列を入力とするルールベース型対話システムを構築してきた.しかしルールベース型の場合,各対話ルールに対して話者感情の異なるルールを追加する必要があるため,準備すべきルールの数が膨大になってしまう.そこで本研究では,統計的対話システムによって話者感情を考慮した返答を生成する手法を提案する.まず,マルチモーダル感情推定システムによって推定した話者感情をemojiに変換して入力発話文字列に結合したものを統計的対話システムに入力する.そして,Twitterから収集したemoji付きの応答ペア1,160,702件を学習させた統計的対話システムを使って,emoji付き返答発話文字列を取得する.その後,emojiが表すエージェント感情を考慮して返答発話文字列を音声合成する.提案手法とemoji無しの従来手法の返答発話の妥当性について評価実験を行ったところ,提案手法の出力がより話者の感情を考慮していることが確認された.

  • 山下 紗苗, 奥村 紀之
    セッションID: 4E2-OS-11b-04
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    対話システムには、キャラクタ性がない、キャラクタ性に一貫性がないといった問題がある。本研究では、Big Five のスコアを性格とみなし、Twitter のツイートから個人の性格を反映した発話を出力することをめざす。1文単位へ分割した個人のツイートをもとに、転移学習を行いBERTのマスク語予測モデルを用いて語を置換することで、その人らしい発話を出力する。評価は、違和感のない文が出力されているかどうかと、その人らしい発話が生成できているかどうかの 2 つの観点から行う。その結果、形態素解析を行わないSentencePieceをトークナイザに用いたモデルは、単語分割後に Byte Pair Encoding を行う方法と比較して、より流暢に語を置換できることがわかった。また、Big Five の誠実性と神経症的傾向については、個別ツイートを用いて転移学習を行うことで、書き手の性格を反映できることが得られた。

feedback
Top