人工知能学会全国大会論文集
Online ISSN : 2758-7347
最新号
選択された号の論文の939件中501~550を表示しています
  • 齋藤 大地, 神原 元就, 九曜 克之, 杉浦 孔明
    セッションID: 3O1-OS-16b-02
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    マニピュレータによる物体操作におけるモデル性能向上のためには,高性能なタスク成功判定機構が重要である.一方で,その性能はいまだに不十分である.そこで本論文では,複数の物体操作タスクに対応可能なタスク成功判定機構を構築することを目的とする.提案手法における主要な新規性の一つであるλ-Representationは,物体の色や形状などの視覚的な特徴,自然言語にアラインされた特徴,および言語を媒介とした構造的な特徴のすべてを保持する.実験にあたり,RT-1およびVLMbenchに基づいて,物体操作タスクにおける成功判定のためのデータセットを新たに構築した.本データセットにおいて,提案手法は分類精度において全てのベースライン手法を上回る結果を得た.

  • 藤田 幸哉, 伊藤 洋, 一藁 秀行, 斎藤 菜美子, 久保 杏由南, 尾形 哲也, 菅野 重樹
    セッションID: 3O1-OS-16b-03
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    本研究では, 奥行きを考慮した柔軟物体の認識や動作計画を実現する. モダリティごとの学習の偏りを抑えるモデルに, 視差を左右のステレオ画像での注意点の位置の違いとして表現するモデルを組み込み, さらにオクルージョンへの対策と動作精度向上として触覚情報を追加した動作生成モデルを提案する. 提案手法の有効性を検証するため, ハンガーにスーツを掛けるタスクを採用した. 形状や掴むべき裾の奥行方向の位置が変化するため, 奥行きを把握した動作生成が求められる. 双腕多自由度ロボットDry-AIRECを用いて複数の比較モデル(単眼/ステレオ視, 触覚の有無)の比較実験を行なった結果, 触覚と視差情報が奥行きの把握と動作精度の向上に寄与していることを確認した.

  • プローブを用いた寄与度に基づく枝刈りによる内部表現分析
    西浦 直哉, 青木 洸士郎, 武田 大佑, 熊谷 亘, 松尾 豊
    セッションID: 3O1-OS-16b-04
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    近年,言語モデルにおける世界モデルの出現に関する研究が行われている.その中で,言語モデルとしてオセロの合法的な手を予測することが可能なOthelloGPTを利用した研究がある.この研究は,世界モデル発現に関して,内部表現の介入により洞察を得ている.本研究では,予測に対する寄与値を計算するSHapley Additive exPlanations (SHAP)と内部表現の介入技術,プローブを活用する. 我々は,OthelloGPTとプローブ,SHAPを活用して,現在のオセロの盤面状態に対する内部層のノードごとの寄与値を確認した.その寄与値に基づいて,ノードの枝刈りをおこなった.結果として,寄与値の高いノードから枝刈りするよりも低いノードから枝刈りしたほうが精度が高くなった.この結果は,OthelloGPTが合法一手の予測に,内部表現を活用していることを示唆している.

  • 髙城 頌太, 松嶋 達也, 岩澤 有祐, 松尾 豊
    セッションID: 3O1-OS-16b-05
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    大規模言語モデルは,様々なタスクで汎用的に高い性能を示し,自然 言語処理のみならず様々な領域での応用が広がっている. ロボット制御においても大規模言語モデルを活用する既存研究は多く存在するが,その多くは構成論的なタスクにおいて行動計画に使用する研究であり,ロボット側に事前に用意されていない行動が選択された場合は失敗してしまう. つまり,大規模言語モデルにおける事前知識を推論時の方策選択には活用できているが,実際の方策の学習時に利用することできていないといえる. 本稿では,ロボットが新しい方策を獲得する際に,大規模言語モデルの事前知識を用いてタスクを分解し,失敗したステップのみを集中的に強化学習することによって最小限の環境とのインタラクションで行動を獲得できることを目指す.

  • 後藤 大毅, 出井 勇人, 尾形 哲也
    セッションID: 3O5-OS-16c-01
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    ウィスコンシンカードソーティングテスト(WCST)は認知的柔軟性を測定する心理学的課題である。WCSTの認知メカニズムの計算論的モデリングは柔軟な認知過程を解明する上で重要となる。本稿では、WCSTのメカニズムを説明するために、自由エネルギー原理に基づいた階層型リカレントニューラルネットワークモデルを提案する。自由エネルギー原理では、知覚と行動が予測信号と感覚信号の予測誤差の最小化から説明できるとする。我々のモデルの主要な特徴は未来の自由エネルギーを考慮している点であり、これにより、モデルが目標志向行動によってWCSTに正答することが可能となる。シミュレーション実験の結果、提案モデルはターゲットのカテゴリーを推定し、カテゴリーの変化に沿って回答を変更できることが示された。この結果は、提案モデルが自由エネルギー原理の観点から、柔軟な認知過程への洞察を提供する可能性があることを示唆する。

  • 藤井 健太朗, 村田 真悟
    セッションID: 3O5-OS-16c-02
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    深層学習を利用してロボットなどのエージェントの知覚や行動を学習する研究が注目されている.そのために,人間の脳機能を説明する計算原理である自由エネルギー原理に深層学習を応用した深層能動的推論を利用することができる.深層能動的推論ではシャノンサプライズの上界である(変分)自由エネルギーを最小化するようにエージェントの学習を行う.自由エネルギーには観測の再構成学習を行う通常の自由エネルギーと,対照学習を行う対照自由エネルギーが存在するが,両者の関係は明確に示されていない.本研究では再構成・対照学習の両方を考慮するようなハイパーパラメータを伴うサプライズの上界を提案し,それから通常の自由エネルギーと対照自由エネルギーが導出されることを示す.複数のハイパーパラメータの設定で,提案サプライズ上界を最小化するようにシミュレーション環境でエージェントの学習を行なった.その結果,ハイパーパラメータの設定によってエージェントの注意が変化し,再構成・対照学習の両方を考慮することが有効であると示唆された.

  • 猪狩 高, 藤井 健太朗, 村田 真悟
    セッションID: 3O5-OS-16c-03
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    多様な環境で様々なタスクを遂行することができるロボットの実現が望まれている. 本研究ではその実現を目指し, 探索行動と目標指向行動の両方を可能とするメカニズムをロボットに組み込んだ. 具体的には, 自由エネルギー原理に基づく能動的推論に深層学習を応用した深層能動的推論をロボットの行動生成に使用した. 能動的推論において, エージェントは期待自由エネルギーを計算し, それが小さくなる方策を優先的に選択する. 期待自由エネルギーには, エージェントを探索および目標指向に促す項が含まれており, それらのバランスは目標を表現する選好の精度によって決定づけられる. すなわち, 能動的推論エージェントは, 選好精度調整により探索, 目標指向両方の行動を環境に応じて適切に選択することが期待される. 実験においては, ロボットが実行可能な方策を複数個に限定し, 期待自由エネルギーが最小となる方策を選択させた. その際, 世界モデルを利用して未来の感覚状態である観測画像とその隠れ状態を予測し, 期待自由エネルギーを計算した. 結果として, 選好精度の調整によりロボットが探索的行動と目標指向行動を切り替えることが確認された.

  • 今井 悠人, 兼田 寛大, 是方 諒介, 杉浦 孔明
    セッションID: 3O5-OS-16c-04
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    高齢化が進む社会において,労働人口の不足が問題となっている.環境中の物体をユーザ指示に応じて検索可能なモバイルロボットは利便性が高い.本研究では,人間がロボットに実環境中の物体に関する自然言語によるopen-vocabularyな指示を与えた時,対象物体を検索するタスクを扱う.本研究では,画像,対象物体,位置関係,画素4つの粒度を考慮して視覚特徴を得るモジュールおよび屋内環境に存在する冗長な画像に対しても効果的な緩和対照損失を導入する.また,大規模環境内の検索を行うために新たにデータセットを収集・拡張した.環境中の画像,対象物体領域,指示文を含むこれらのデータセットに対し評価を行った結果,提案手法は標準的な評価尺度において,ベースライン手法を有意に上回った.

  • 2種類の協働ロボット導入作業への適用事例と分析
    平岡 あおい, 山口 知彦, 笹嶋 宗彦
    セッションID: 3P1-GS-3-01
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    筆者らの研究チームは,協働ロボットの普及と導入コスト削減を目標として,機能分解木を利用した非専門家向け電子マニュアルの研究を行っている.先行研究では,パレタイジング作業を行う協働ロボットをモチーフとして,提案方式により,非専門家でも専門家と同等の精度で導入作業を担うことができるマニュアルを作成できた.また,協働ロボット販売メーカー自身が非専門家向けマニュアルを作成できる方法論を検討した.その方法論を協働ロボットの多くの機種に適用するには,一般性を高める必要がある.そこで筆者らは,先行研究と同様の方法で,溶接を行う協働ロボットを導入するためのマニュアルを,専門家と協力して試作した.本論文では,溶接ロボット向けマニュアル試作の過程と,先行研究で試作したパレタイジング作業を行う協働ロボット向けのマニュアルとの比較について述べる.先行研究が対象としたパレタイジング作業と,本論文が対象とする溶接作業では,ロボットの初期設定やユーザの利用について,本質的に異なる点がいくつかあるため,協働ロボットを製造販売する専門家と,それらについて議論し,マニュアル作成の方針を固めて,試作を行った.

  • 山本 泰智
    セッションID: 3P1-GS-3-02
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    生命科学分野においては、多くのデータがRDFとして公開されている。生命科学のデータは多様であり、たんぱく質、遺伝子、化合物、疾患などのさまざまな概念を表す識別子が使われており、研究成果として、それらの概念に関する知見や概念間の関係を収めるデータセットが多数構築されている。生命現象を理解するためにはそれらの関係を広く調査する必要があり、同一概念には同一の識別子が使われていることが理想であるが、実際には別々の識別子であることも多い。ライフサイエンス統合データベースセンター(DBCLS)では公開されている生命科学分野のRDFデータを一堂に集めてRDF Portalとして提供しているため、今回、それらの間にあるリンク関係を調査し、データセット間での概念間の同義関係につき課題と今後の展望を検討した。

  • 菊谷 和也, 笹嶋 宗彦
    セッションID: 3P1-GS-3-03
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    平成30年告示高等学校学習指導要領において,「情報I」で学ぶべき内容には,これまでの高等学校教育で扱ってこなかったものも含まれており,文部科学省検定済教科書においても,その内容が大きく変化している.教科書の内容は,学習指導要領に準拠しながらも各出版社が工夫を凝らして作成しており,それぞれに内容の違いがある.各教科書において,どのような内容を共通に扱っており,どのような部分で特長があるのかについて理解することで,高校学校の教員は与えられた教科書の特長を活かした教育をできるようになると期待できる.そこで,本研究では,教科書ごとに,教えている内容がどのように共通していて,どのような部分で違いがあるのかを明らかにすることを目的とし,教科書の重要語の分析を行った.その結果,教科書ごとの用語の出現の仕方の傾向と学習指導要領の領域に対応する用語の割合に違いがあることがわかった.

  • 2023年度までのPBL演習を振り返って
    笹嶋 宗彦, 石橋 健, 山本 岳洋, 湯本 高行, 大島 裕明, 藤江 哲也, 加藤 直樹
    セッションID: 3P1-GS-3-04
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    本研究の目的は,学部低学年向けの課題解決型の演習教育(PBL 演習) を軸とする,実践的データサイエンス人材育成カリキュラムの構築およびその実施による人材育成である.筆者の所属する兵庫県立大学社会情報科学部では,学部を開設した2019年から,データサイエンティストが備えるべきスキルを実践的に学ばせるために,企業と連携して,実際のデータを用いた課題解決型演習を,学部 1 年生と 2 年生の必修科目として取り入れている.本稿では,20223年度に行った PBL 演習の概要を紹介するとともに,これまで5年間行ってきた演習を通じて得られた知見について述べる.

  • 山縣 友紀, 山田 涼太, 大浪 修一, 桝屋 啓志
    セッションID: 3P1-GS-3-05
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    近年,様々な分野でLLMを用いた研究開発がめざましい.生命医学においては,分子から個体まで多様な粒度を横断した統合的な理解が要請される.著者らは,これまでマニュアルアノテーションで生命医学知識基盤開発のためのオントロジー構築を行ってきた.しかし,マニュアルアノテーションはコストが高く,アップデートも難しい.そこで,本研究ではオントロジーによる知識の体系化のためのLLM利活用を目指し,典型的な細胞老化に関する論文図を事例に大規模言語モデル(LLM)を用いた図からのアノテーションの試みについて報告する.次に,既存のオントロジーとのマッピングによる分子および生体プロセスに関わる知識の体系化の試みについて述べ,さらにマニュアルアノテーションとLLMによるアノテーションとの比較解析による評価を行い,今後の課題について議論する.

  • 牧野 寛也, 伊藤 誠悟
    セッションID: 3P5-OS-17a-01
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    本論文では,はじめに期限を考慮したマルチエージェント搬送問題 (Deadline-Aware Multi-Agent Pickup and Delivery, DA-MAPD) を定義する.マルチエージェント搬送問題 (Multi-Agent Pickup and Delivery, MAPD) は,複数の荷物を集荷地点から配達地点まで運ぶための経路を計画する問題であり,MAPD における期限の考慮は自動倉庫や工場などで重要になる.また,DA-MAPD に対する解法として,期限を考慮した Token Passing アルゴリズム (Deadline-Aware Token Passing, DA-TP) を提案する.DA-TP は,共有メモリ (token) を用いたタスク割り当ておよび経路計画を行う従来の Token Passing アルゴリズム (TP) の拡張である.DA-TP では,実行コストと期限に対する緊急度の両者を考慮してタスク割り当てを行う.自動倉庫を模したシミュレーション環境における数値実験により,DA-TP が遅延時間を減少させることを確認した.

  • ISRAR ULHAQ, Phan Thi Huyen THANH, Yuichiro YOSHIMURA, Truong Vinh Tru ...
    セッションID: 3P5-OS-17a-02
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    Motion segmentation in computer vision is a challenging task, particularly in the context of self-driving vehicles where backgrounds are constantly changing. Accurately detecting moving objects is crucial for effective vehicle control. To address this, we propose an innovative approach called Unsupervised Moving Object and Ego-Velocity Prediction (UMVP) specifically designed for autonomous vehicles. UMVP utilizes depth maps predicted from RGB images and trains a motion network using these depth maps and consecutive pairs of RGB frames. Additionally, it predicts the speed of the ego-vehicle by analyzing a pair of images. Our approach is completely unsupervised, eliminating the need for manual annotation or labeled data. We evaluated UMVP on the KITTI dataset, and observed significant improvements in motion segmentation, depth estimation compared to the baseline method. These results highlight the potential of UMVP to enhance motion segmentation in autonomous vehicles.

  • 玉井 敬一, 大久保 毅, ズイ チュオン ビン チュオン, 名取 直毅, 藤堂 眞治
    セッションID: 3P5-OS-17a-03
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    前回の論文で,人工深層ニューラルネットワークの信号伝播過程が統計力学における吸収状態転移のスケーリング則を用いて見通しよく整理できることを報告した.深層学習の理論的理解に向けて次に問うべきは,吸収状態転移のスケーリング則が人工深層ニューラルネットワークの訓練ダイナミクスにどのように効いてくるかである.この問題は,深層学習のチューニングをより系統的に行い,優れた汎化性能をもつニューラルネットワークをより少ない資源で探索可能にするための重要なステップでもある.本論文では,無限に幅が広く比較的単純なアーキテクチャを取り上げ,信号伝播過程のスケーリング解析といわゆる Neural Tangent Kernel (NTK) の理論・数値解析を組み合わせることで,優れたネットワークを少ない訓練ステップ数で得るための初期化条件や学習率・隠れ層深さの選定とスケーリング則における現象論的パラメータが密接に関係することを示す.

  • 齊院 龍二, 末武 一馬
    セッションID: 3P5-OS-17a-04
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    深層学習において訓練パフォーマンス向上のために標準的に用いられるバッチ正規化は、大規模データセットでの訓練時には大きなミニバッチサイズと共に採用することが推奨されている。しかしミニバッチサイズの増加は要求マシンリソースの増加に繋がってしまう。したがってバッチ正規化採用時のこうしたミニバッチサイズ依存性を軽減して要求マシンリソースを軽減することによって、深層学習の活用検討障壁の緩和や活用シーンの多様化を促進したい。そこで我々は小さなミニバッチサイズでも大きなミニバッチサイズを採用した場合に近い訓練結果を得るための試みとして、修正されたバッチ正規化と重み標準化を組み合わせる手法を提案する。既存手法と比べて提案手法ではミニバッチサイズ依存性の問題が改善されることを実験によって示す。

  • 河野 駿介, 山本 泰生, 梶 大介
    セッションID: 3P5-OS-17a-05
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    近年,分散配置されたデータから学習する手法である連合学習(Federated Learning: FL) が注目されている.FL はプライバシーの保護などの利点を持つ一方で,サーバ側でデータ収集を行わないため,non-i.i.dである各クライアントのデータ分布を特徴づけることが困難である.本研究ではサーバ側により構築される全データ対応の一般モデルと,各クライアントデータ対応の個別モデルを扱う自治型連合学習を用い,データの独自性を定量化する.提案手法の有用性をモデルの性能及びデータの特徴抽出の観点から評価する.

  • Rungsiman NARARATWONG, Natthawut KERTKEIDKACHORN, Ryutaro ICHISE
    セッションID: 3Q1-IS-2a-01
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    In 2018, the U.S. Securities and Exchange Commission adopted amendments requiring the use of Inline XBRL, a structured data language mandating financial documents to be both human-readable and machine-readable. However, this implementation does not include older filings made by and for humans, leading to large pieces of information missing from the structured data. This paper discusses the challenges in extracting facts from these documents, followed by experiments and analyses on entity-linking approaches. The results highlight the complexity of the problem, warranting future research on the topic.

  • Ryotaro KOBAYASHI, Yuri MURAYAMA, Kiyoshi IZUMI
    セッションID: 3Q1-IS-2a-02
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    Comprehending the causal relationships among economic events is crucial for risk management because it aids in forecasting potential external shocks and formulating informed predictions regarding the results of prospective actions. The recent advancement of large language models (LLMs) offers a viable method for extracting domain-specific knowledge from textual content to develop causal graphs. Nonetheless, accurately identifying causal relationships that align with expert evaluations remains challenging in computational text analysis, particularly for financial and economic documents that demand specialized expertise. In response to this issue, we introduce a method utilizing causal-sensitive sentence embeddings, which excel in discerning causal relationships through fine-tuning text embedding models employing contrastive learning. This method employs a weakly supervised learning paradigm, generating the necessary training dataset for contrastive learning from extensive textual corpora via causal cues and LLMs. The evaluation experiments on four datasets against baseline methods highlight the effectiveness of our method.

  • Yingsha YANG, Kazuhiro KOIKE, Yasuyuki MITSUI
    セッションID: 3Q1-IS-2a-03
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    In the e-commerce industry, sales promotions significantly influence demand. Extracting essential information from promotions, such as promotion type, duration, discount rate, target customers, and product categories, is a crucial factor of feature engineering for demand forecasting. However, promotional information is usually stored in text format, making it challenging to extract essential information for generating features. In this paper, we leverage the topic model BERTopic, which is robust in context analysis, to appropriately classify each promotion and extract necessary information for promotion feature generation based on the classification's topic. We conducted experiments on past data of a major Japanese e-commerce company. The result shows this method can achieve better performance compared to existing topic modelling baselines like LDA and NMF, and it was confirmed that relevant information for feature generation could be extracted based on the topics corresponding to each classification.

  • Yun LIU, Natthawut KERTKEIDKACHORN, Jun MIYAZAKI, Ryutaro ICHISE
    セッションID: 3Q1-IS-2a-04
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    Knowledge graphs (KGs) have been widely used in recommender systems (RSs) as item auxiliary descriptions for high-quality recommendation. In current KG-based RSs, KGs are usually built based on entity linking and name matching operations. The limited manual supervision during the construction process will produce the untrustworthy information in KGs. In addition, entities in KGs suffer from long-tail distribution problem and contain connections that are irrelevant to the recommendation target. Such untrustworthy information and irrelevant connections is noise in KGs and becomes an obstacle to high-quality recommendations. In order to clearly show the impact of noisy information in KGs on recommendation tasks, we propose a general way to effectively remove these noises from knowledge graphs. Furthermore, we combine our method with current KG-based methods, and the improvement in recommendation performance shows the harm of noise information in KGs to recommendation tasks. It also clearly demonstrates the necessity of current KG-based RSs to detect and remove noise information in KGs.

  • Melvin Charles DY
    セッションID: 3Q1-IS-2a-05
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    Despite the popularity of responsive ads that dynamically combine text assets to best suit individual search queries, there is a distinct need for predicting how the final displayed text might perform. In order to serve those needs, we are building a model that leverages the impressions of responsive search ad permutations and aggregate CTRs of the responsive ads they belong to. This paper describes the thinking and assumptions behind this system as well as some of the challenges involved.

  • Rina KOMATSU, Tad GONSALVES
    セッションID: 3Q5-IS-2b-01
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    2D pose estimation is utilized in sports and health analytics. Deep learning models have the potential to estimate poses using only a single human image without the need for motion capture suits. This study aimed to enhance the existing pose estimation model, PoseResNet, which uses Residual Nets to encode input images and to output heatmaps for relevant human joints. To improve this model, we employed the GAN method, training to generate realistic images through adversarial learning between a Generator and a Discriminator. For training 2D pose estimation, we used PoseResNet as the Generator and simple CNN layers implemented as the Discriminator. In our experiments, we employed the MPII Human Pose Dataset and compared three models: 1) PoseResNet, 2) PoseResNet employing adversarial learning based on Patch GAN, and 3) PoseResNet employing adversarial learning based on Patch GAN and CAM logits. Experimental results show that adapting PoseResNet to adversarial learning based on Patch GAN can lead to a significant improvement in the PCKh score, particularly when the adversarial loss is moderately scaled. However, we also observed that either using a strong scalar multiplication for adversarial loss or incorporating CAM logits tends to be less effective in enhancing the quality of pose estimation.

  • Ran LI, Edison MARRESE-TAYLOR, Yutaka MATSUO
    セッションID: 3Q5-IS-2b-02
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    With the rapid advancement of Large Language Models(LLMs), a critical issue has been to develop methods and dataset for the evaluation of their language proficiency. Among these, the task of definition modelling has recently been proposed to assess proficiency of language models in certain domains, like finance. By asking the model to generate dictionary-like definitions of a given term under controlled conditions, definition modelling evaluates the capability of lexical understanding of a given model. So far, most of such efforts have focused on English. Japanese, with a complicated writing system and vague grammatical rules, is less explored. In this paper, we propose to use the task of definition modelling to evaluate the proficiency of LLM in the Japanese language. We collect dictionary data in Japanese and use our corpus to explore the effects of different techniques of prompting in various settings.

  • Luiz Henrique MORMILLE, Iskandar SALAMA, Masayasu ATSUMI
    セッションID: 3Q5-IS-2b-03
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    Gathering data from the real world involves time-consuming aspects of web scraping, data cleaning, and labelling. Aiming to alleviate these costly tasks, this paper proposes the utilization of rapid stable diffusion to synthesize images efficiently from text prompts, thereby eliminating the need for manual data collection and mitigating biases and mislabelling risks. Through extensive experimentation with a small-scale vision transformer across 4 downstream classification tasks, our study includes a comprehensive comparison of models pre-trained on conventional datasets, datasets enriched with synthetic images, and entirely synthetic datasets. The outcomes underscore the remarkable efficacy of stable diffusion-synthesized images to yield consistent model generalization and accuracy. Beyond the immediate benefits of fast dataset creation, our approach represents a robust solution for bolstering the performance of computer vision models. The findings underscore the transformative potential of generative image synthesis, offering a new paradigm for advancing the capabilities of machine learning in the realm of computer vision.

  • Raffael Bolla Di LORENZO, Michita IMAI
    セッションID: 3Q5-IS-2b-04
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    Reinforcement learning often makes use of training a population of agents with a diversity of behaviors. A population of agents can be used to train a robust agent, that can for instance cooperate with a human partner, or simply discover many ways to solve a given task. Generative Models of Policies are able to discover a wide range of agent policies that succeed at a given task without requiring separate policy parameters. Moreover, they can adapt to new tasks or goals simply by optimizing in the learnt latent space of policies. In this paper, we focus on the understanding and the exploration of the latent space of policies for discovering new behaviors. More specifically, we take inspiration from StyleGAN's mapping network to better structure the latent space. We then design an exploration protocol that uses human feedback to discover new behaviors.

  • Iskandar SALAMA, Luiz Henrique MORMILLE, Masayasu ATSUMI
    セッションID: 3Q5-IS-2b-05
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    In this paper, we present an innovative exploration in the area of User Interface (UI) Layout Understanding, taking advantage of the strengths of transformer models and using self-supervised learning and curriculum learning, focusing primarily on the task of masked language modeling for UI Layout completion. The core challenge we face is the interpretation of UI design elements as tokens in a linguistic model that transforms the problem of traditional image completion into a form of masked language modeling. Our research uses the extensive RICO dataset, dealing with more than 66k UI screen images and 3M+ UI elements as tokens that are interpreted and processed in a linguistic structure. Using self-supervised learning, our model learns to predict missing UI elements in a sequence, imitating the masked language modeling process. This approach allows the transformer to develop an essential understanding of UI layouts without relying on labeled data. In addition, the model is trained through a learning strategy of the curriculum, gradually increasing in complexity, i.e. the percentage of masked tokens among all tokens. The implications of this work extend beyond UI design, suggesting novel applications of transformer models and self-supervised learning in areas where visual elements can be interpreted through linguistic models.

  • 篠田 直幸, 林 貴斗, 石井 亮, 二瓶 芙巳雄, 深山 篤, 岡田 将吾
    セッションID: 3R1-OS-13b-01
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    本研究の長期的な目標は、対話中の「人と人とのつながりや調和の状態」を表すラポールを自動推定することで、オンラインレッスンの講師割り当てを含めた対話相手の最適マッチングを実現することである。この目的を達成するために、従来の音声・言語・視覚のマルチモーダル特徴量だけでなく、話者のBigFive尺度も利用する手法を提案する。 本研究では、同一話者の組み合わせによる複数の異なるテーマに基づく対話データに加え、対話後に集計した対話相手に対するラポールに関するアンケート結果、および話者の個人的特徴を測定するためのアンケート結果を用いる。 実験の結果、BigFIve尺度の内、「誠実さ」と「率直さ」のどちらか一方、または両方が含まれる場合で、含まれない場合よりも向上することを確認することができた。この実験は、ラポールや個人的特性が対人交流に与える影響について新たな知見を与えるものである。

  • 長澤 史記, 岡田 将吾
    セッションID: 3R1-OS-13b-02
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    本研究の長期目標は、ユーザが話したいこと、興味のあることを共有できるパートナーとしてのコミュニケーションロボットの開発である。この目標を達成するために、本研究ではユーザのマルチモーダルな態度に応じて話題を適応させるインタビュアーロボットを提案する。 このロボットは、対話中のユーザのマルチモーダル特徴から話題転換/継続のどちらが適切かを推定し、推定結果に基づき質問を大規模言語モデルによって生成する。本稿ではこのロボットシステムの実現に向けて、マルチモーダル話題継続度認識モデルと適応的質問生成による効果を検証した。まず、人間とバーチャルエージェントの対話におけるユーザのマルチモーダルな振る舞いを含む対話コーパス "Hazumi"を用いて話題継続度モデルを訓練した。次に、訓練したモデルを搭載したロボットを用いて対話実験を行い、適応的質問生成が対話結果に与えた影響を評価した。

  • 小林 千紗, 保科 衣吹, 坂戸 達陽, 二瓶 芙巳雄, 石井 亮, 深山 篤, 辻井 正次, STEFANOV Kalin, 中野 有紀子
    セッションID: 3R1-OS-13b-03
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    本研究では、ASD者と一般話者のコミュニケーションにおける問題を軽減することを目的として、ASD者が参加する議論におけるミスコミュニケーションを検出する深層学習のネットワークを提案する。まず、ASD者を含む3人のグループ会話コーパスを収集した。そして、「ミスコミュニケーション」をインタラクションの問題(エンゲージメント、ターン交代、会話文脈)とASD特有の問題の2つに分類して定義した。これらの定義に基づいてラベル付けを行い、そのラベルを真値として使用した。音声、顔、言語情報を用いてマルチモーダルTransformerベースのモデルを作成したところ、ミスコミュニケーションを検出するモデルの性能は、F1-scoreで0.713、Accuracyで0.652であった。これらの結果は、ASD者との議論におけるミスコミュニケーションを自動的に検出できる可能性を示している。

  • 田中 智也, 坂戸 達陽, 中野 有紀子
    セッションID: 3R1-OS-13b-04
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    カウンセリング手法の一種に動機づけ面接(MI:Motivational Interviewing)がある.MIでは,クライアント自身の行動変容の理由を引き出すことを目的としている.本研究では,MIのカウンセラー(CO)の発話に注目した.MIではMotivatinal Interviewing Skill Code(MISC)というコーディングスキームが確立されている.使用するコーパスのカウンセラー発話をMISCでアノテーションした.さらにラベルをマージし,新たに11種類のラベルを作成し,11クラス分類問題を定義した.本研究では,大規模言語モデル(LLM)を用いた分類問題というアプローチを採用した.LLMは言語モデルであるため入力には言語を用いるのが一般である.本研究では表情と音声の情報をエンベディングし,得られたベクトルを言語情報とみなしLLMへの入力に使用する手法を提案する.さらに,BERTをマルチモーダル化しCOラベルの分類を行うモデルも提案する.実験の結果,要約を表すラベルについて先行研究と比較して約29%性能が向上することを示した.またアンバランスなデータが与える影響について議論した.

  • 保科 衣吹, 小林 千紗, 坂戸 達陽, 二瓶 芙巳雄, 石井 亮, 深山 篤, 辻井 正次, STEFANOV Kalin, 中野 有紀子
    セッションID: 3R1-OS-13b-05
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    ASD(自閉スペクトラム症)は,社会的コミュニケーションに問題がある発達障害である.ASDの診断は通常小児期に行われるが, コミュニケーションに問題を抱えながらも診断が遅れる人も存在する.このような人を早期に発見し,適切な治療や支援につなげることが重要な課題となっている.SRS-2対人応答性尺度は,ASDと関連した症状を客観的に測定することを目的として開発された尺度であり,ASDのスクリーニングに適した評価指標となっている.そこで,本研究では,グループコミュニケーション映像からマルチモーダルな情報を用いてSRS-2得点の推定を行う機械学習モデルを提案する.使用するデータとして,ASD者を含む3人の課題遂行型グループ会話であるASD版MATRICSコーパスを収録した.まず,グループ会話における成人ASDのコミュニケーション特性の分析として,実験参加者のSRS-2得点と相関する特徴量について調べた.次に,それらの結果に基づいて,複数の機械学習モデルで推定を行った.モダリティ間でのアブレーション実験を行った結果,複数のモダリティを組み合わせることで推定の性能が上がることがわかった.

  • 下西 慶, 井上 剛志, 近藤 一晃, 上田 博唯, 中村 裕一
    セッションID: 3R5-OS-13c-01
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    従来の表情認識が対象としているような,はっきりと表出した表情を認識するだけではなく,例えば笑顔と真顔の中間のような曖昧な表情を,その表情の表出程度と共に認識することが出来れば,特定の人物の表情の変化を追跡することが可能となり,その人物の心的状態の深い理解につながることが期待される.我々はこの目的に対し,比較に基づいた笑顔の認識器を提案し,中間程度の笑顔を順序尺度に基づいて評価できることを示してきた.しかし,提案してきた手法は各個人に特化した認識器となっており,学習には人手によるアノテーションとして多大なコストが必要であった.そこで本研究では,特定人物の表情変化を捉えた動画を入力とすることで,その動画から自動的に学習データを生成し,笑顔の認識モデルを全自動で学習するための手法を提案する.実験を通して提案手法の効果を確認した.

  • 田中 義規, 稲葉 通将
    セッションID: 3R5-OS-13c-02
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    ECサイトやレビューサイトに投稿されるユーザレビューは,商品の購入を検討しているユーザにとって,購入の意思決定を後押しする重要な情報である.商品に関する具体的な情報や,ユーザの経験に基づく内容を含むものは特に有用だが,人間にとってレビューを書く作業は手間がかかる.本研究では,ユーザレビュー作成支援という対話システムの新たな活用法を提案する.提案手法ではまず,対話システムがインタビュー対話を通して商品を使用した感想を聞き出す.次に,対話履歴をもとにレビューテキストとレビュースコアを生成する.提案手法により,ユーザはシステムと対話を行うだけでレビューを作成できるため,レビュー作成におけるユーザの負担軽減が期待される.また,システムは商品の良い点や悪い点をバランス良く情報を聞き出すことで,購入を検討しているユーザにとって有用なレビューの作成が期待される.実験ではGPT-4を用いて提案システムを実装し,提案システムとのインタビュー対話,生成レビュー,および被験者によるフィードバックの収集を行った.その結果,提案システムとの対話の楽しさや,システムの品質について肯定的なフィードバックを得た.

  • 大社 綾乃, 大滝 啓介, 徳久 良子, 小出 智士, 馬場 雪乃
    セッションID: 3R5-OS-13c-03
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    本稿では,ファッションドメインにおける主観語(例:かわいい,かっこいい)の使われ方の個人差について分析した結果を報告する.画像キャプショニング技術の進歩により,好みのアイテムを画像に基づいて高精度に探索できるようになったが,従来技術の多くは客観的な単語(例:赤い,袖の長い)に制限されていた.また感性に関する単語(例:やわらかい,カジュアルな)に着目した研究もあるが,いずれも共通のスタイルを表現するもので個人で異なるイメージを持つ主観語についてはほとんど扱われてこなかった.主観語を用いたアイテム画像の探索が可能になれば,個人の嗜好によりきめ細やかに寄り添うことができ,ユーザ体験の向上に繋がると考えられる.そこで本研究では主観語を用いたアイテム画像探索に向けた初期検討として,ファッションドメインに特化したSNSから収集された大規模データセットを用いて,感性語の使われ方の個人差を調査する.

  • 中西 惇也, 三好 遼, 岡藤 勇希, 馬場 惇, 吉川 雄一郎, 石黒 浩
    セッションID: 3R5-OS-13c-04
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    対話サービスではユーザーがテキストや音声を通じて要求を行い,コンピューターシステムが適切な応答を生成し要求に答える(受動的な)プロセスが基本とされている.一方で,ユーザーからの要求に応答するだけでなく,ユーザーのニーズや状況を推定し積極的に情報やサービスを提供する機会を創出する``能動的な対話サービス''もユーザの秘めたる欲求に対するサービス提供の機会を掘り起こすうえで重要である.能動的なサービス対話の1つの難しさは,その発話タイミングの決定である.ユーザーの活動を観察し,妨げず,気分を害さないことが望ましい.本研究では,対話中における能動的発話を含む発話タイミングを推定するモデルを構築することを目的とした.そのために,対話中という状況とその中における適切な発話タイミングについて考察し,それに基づいて推定モデルを作成し評価した.全体の精度は8割強の数字を示したが,能動的な発話のタイミングの精度は低く,検討すべき課題が明らかとなった.

  • 久村 颯海, 佐山 杏子, 渡部 哲, 木﨑 速人, 今井 俊吾, 岸田 徹, 福岡 奈津美, 矢田 竣太郎, 荒牧 英治, 堀 里子
    セッションID: 3S1-OS-7b-01
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    本研究では、がん経験者のインタビュー逐語録に対し自然言語処理モデルによる感情分類器の開発を試みた。NPO法人がんノートが主催するがん経験者を対象としたインタビューでの発言を対象とし、BERT およびLUKE を事前学習済モデルとして用いた。訓練データとして、1)がん経験者インタビュー逐語録 2)SNS投稿に感情ラベルを付与した既存データセットWRIMEのそれぞれでファインチューニングを行い、3感情マルチクラス分類、並びにプルチック感情の輪の8感情でマルチラベル分類器を構築した。テストデータにはがん経験者インタビュー逐語録を用いた。いずれの分類タスクにおいてもLUKEをインタビュー逐語録で訓練したモデルが最も優れ、3感情分類ではニュートラルが0.76、他2感情でも0.60以上のF1スコアを示した。8感情分類では信用が0.62、悲しみ/恐れ/嫌悪/期待で0.50前後のF1 スコアを記録したが、喜び/怒り/驚きでは0.35を下回った。一部の感情の分類には課題が残るものの、がん経験者インタビューから3感情、並びに8感情の大部分を抽出可能な分類器が構築できた。

  • 眞鍋 雅恵, 矢田 竣太郎, 若宮 翔子, 荒牧 英治
    セッションID: 3S1-OS-7b-02
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    がん患者や患者家族などの当事者は,情報収集や支援ネットワーク構築のためにソーシャルメディアを利用している.しかし利用に伴う有害な現象も多く,本研究ではサイバー・インシビリティ(オンライン上の問題行動)を抑制するようなソーシャルメディアプラットフォーム「エピソードバンク」を開発した.交流中心ではなく話題中心のネットワークをデザインするなど,プライバシー保護や炎上の抑制に重点を置いている.システムの開発過程では,コ・デザインの手法を用いて,当事者自身が直接デザインプロセスに関与しながらユーザーインターフェースの構築を行った. 本システムの特徴の一つは研究利用のための運用制度を取り入れた点である.本システムは,生体資料や医療情報を研究利用のために蓄積するバイオバンクシステムを参考に開発し,当事者のエピソードを蓄積することで,将来的にはナレッジデータベースとしての機能をもつことを目指している. ローンチから2024年1月までに蓄積されたデータを用いて,システム運用後の基礎的な検討を行い,本システムの有効性や当事者に与える影響を評価した.

  • 土肥 栄祐, 建石 由佳, 藤原 豊史, 山本 泰智
    セッションID: 3S1-OS-7b-03
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    人工知能(AI)を用いた診断支援には、正確な症例ベースのコーパスが必要であり、これには複数の課題がある。本抄録では、これらの課題とAIを活用した解決策を提案する。症例報告の共有は個人情報保護のため困難であり、PDFからのテキスト抽出や病名の表記揺れ、臨床データの構造化、テキストデータの正規化、情報の抽出とアノテーションが主な課題である。特に、PDFからのテキスト抽出は技術的に難しく、病名の表記揺れも多く見られる。臨床データの構造化にはCaseSharingのようなシステムが有効で、テキストデータの正規化は大規模言語モデル(LLM)である程度解決できた。また、LLMを用いることで、時系列に沿った情報抽出が可能だが、アノテーションは依然として課題である。これらの経験から、AIの応用はデータセット作成においても重要な役割を果たすと考えられる。今後は、これらの技術をより効果的に活用する方法について議論を深めたい。

  • 堀口 航輝, 梶原 智之, 二宮 崇, 若宮 翔子, 荒牧 英治
    セッションID: 3S1-OS-7b-04
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    本研究では、医療用語を患者が理解しやすい表現に言い換える日本語の医療テキスト平易化に取り組む。医師によって記述される医療文書には専門用語が多く含まれるため、非専門家である患者はその情報を有効活用できない場合が多い。そのため、医療用語を用いずに入力文を言い換える医療テキスト平易化が期待されている。本研究では、日本語における医療テキスト平易化の少資源問題に対処するために、医療テキスト平易化モデルの訓練用パラレルコーパスを構築する。具体的には、オンライン医学辞典における専門家向けおよび一般向けの記事対の中で自動的な文アライメントを実施し、医療テキスト平易化のためのパラレルコーパスを自動収集する。本稿では、コーパス構築の方法について説明するとともに、本コーパスを用いて訓練した日本語の医療テキスト平易化モデルの性能について報告する。

  • 井上 謙一
    セッションID: 3S1-OS-7b-05
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    [背景]人工知能(AI)技術が日常生活に浸透している現代において、大規模言語モデル(LLM)を利用した情報収集が行われている。しかし医療特化型でないLLMにはhallucinationリスクもあり、診療においてコミュニケーションのすれ違いが発生する。また医療従事者も適切な情報を入手するには手間と時間がかかる。そこで、適切な医学情報を基に正確なエビデンスを入手する手法を構築した。[方法]GPT、DeepL、PubMedのAPIを利用し、Flaskでサーバーを構築した。日本語の質問文を英訳した上で必要なキーワードを選択、PubMedで該当する文献を抽出し、文献情報に基づいてLLMに回答させた。またダウンロード可能な文献を自動探索し、質問文に沿って要約した。[結果]日本語の質問文に対し、必要な医学情報を提示し得た。これらはほぼ自動で行われるため質問者側に医学知識を求めず、誰でも利用可能である。[結語]これまで手動で行っていた情報収集を自動化し得た。LLMを利用することで医療従事者のみならず医療を専門としていなくても飛躍的に医学情報へのアクセスを容易にした。

  • 福島 拓也, 眞鍋 雅恵, 矢田 竣太郎, 若宮 翔子, 荒牧 英治, 吉田 晶子, 浦川 優作, 前田 亜希子, 寒 重之, 高橋 政代
    セッションID: 3S5-OS-7c-01
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    遺伝学研究や治療の進展により、遺伝カウンセリングへの需要が増加している。しかし、遺伝カウンセリングには専門的な医学知識やカウンセリングスキルが求められるため、教育コストの高さから専門家の不足が課題となっている。近年、大規模言語モデル (LLM)の急速な発展により、様々な領域で専門家レベルの能力が報告されており、遺伝カウンセリングへの活用も期待される。LLMで業務の一部を代替し負担を減らすことで、多くの人が遺伝カウンセリングを受診可能となることを目的に、本研究では日本語遺伝カウンセリング大規模言語モデル (JGCLLM)の構築に取り組んだ。JGCLLMの構築には、Web上から収集したデータおよび専門家と作成したデータを活用し、LLMの改善手法 (Instruction Tuning, RAG, Prompt Engineering)を適用した。JGCLLMの評価には、クラウドソーシングで収集した質問から精選した120件を使用した。これらの質問に対するJGCLLMの応答に対して、遺伝カウンセラーによる評価を実施し、遺伝カウンセリングにおけるLLMの各改善手法の影響と課題を明らかにした。

  • 宇野 裕, 石井 亮, 柴田 大作, 石川 開, 定政 邦彦, 渋谷 恵, 辻川 剛範, 中川 敦寛, 小山田 昌史, 久保 雅洋, 香取 ...
    セッションID: 3S5-OS-7c-02
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    2024年度から導入される医師の残業規制を受けて、医師業務のさらなる効率化が求められている。東北大学病院におけるタイムスタディから、各種医療文書の作成時間の削減が必要であることが分かった。これを受けて、患者の退院時や紹介状などに記載する治療経過サマリの作成支援を行うアプリケーションを試作した。生成AIへの入力情報として、診察記事(Progressnote)全体ではなく、診察記事から抽出した医療エンティティの中から医師が選択したものを用いた。この医療エンティティの集合は、治療経過を構成するテキストの一部であると考えることができるので、生成AIに欠損部分を補完することで治療経過を作成を試みた。こうすることで、生成AIの入力トークン長の制限を回避でき、またAIから出力された生成テキストの医学的事実性の確認にかかる時間コストを小さくできると考えた。提案手法に基づいたAIアシスタントを試作し、小数の症例データを用いて提案手法の有効性の検証を行った。

  • 石川 開, 宇野 裕, 石井 亮, 定政 邦彦, 柴田 大作, 辻川 剛範, 中川 敦寛, 小山田 昌史, 久保 雅洋, 香取 幸夫
    セッションID: 3S5-OS-7c-03
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    少子高齢化による医療現場の負担増に加え、2024年4月から医師の働き方改革の新制度施行で、医師の業務効率化が急務となっている。我々は、臨床観察を通じて時間外労働の主要因の一つが「記録・報告書作成や書類の整理」であることを確認し、診療録からの情報抽出と独自の大規模言語モデルを用いた治療経過サマリ作成支援システムを試作した。提案システムの有効性を検証するため、東北大学病院の医師10名の協力により実験を実施、(1)大規模言語モデルが生成したドラフト版サマリとこれを医師が修正した完成版サマリの品質差、(2)医師のシステムに対する主観評価を評価した。その結果、(1)ドラフト版と完成版のROUGE-1は46.6と42.9、ROUGE-2は21.8と22.7、ROUGE-Lは29.5と29.7と差が僅少、(2)医師は文章の表現や正確性を高評価する結果となった。以上から、提案システムが治療経過サマリの作成を効果的に支援し、業務効率化に貢献する可能性が示された。

  • 前川 知行, 土屋 碧渡, 中西 建心, 今井 倫太
    セッションID: 3T1-OS-6a-01
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    対話において個々の発言は単独で解釈することができず,つねに対話履歴という文脈に基づいて解釈される.したがって,文面上はまったく同じ発言であっても対話履歴が異なれば解釈が異なる.本論文は対話履歴に基づいた発言の解釈を自然言語で表現する手法を提案する.提案手法の新規性は対話の文脈において発言をより具体的に言い換えた文を大規模言語モデルで生成する点にある.さらに,対話履歴から一部の発言を取り除いた不完全対話に提案手法を適用することで,特定の発言の解釈に重大な影響を与える発言を抽出する.人手による評価の結果,抽出された発言は他の発言と比べて対話の解釈に与える影響が有意に大きいことが示された.

  • 中西 建心, 土屋 碧渡, 長谷川 麟太郎, 前川 知行, 今井 倫太
    セッションID: 3T1-OS-6a-02
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    SCAINs(Statements Crucial for Awareness of Interpretive Nonsense)は対話相手の発話文(コア発話文と呼ぶ)の解釈に重大な影響を与える対話文である.しかしながら従来のSCAINs特定手法では,解釈対象となるコア発話文に対して直前の発話ペアしか考慮されていない.本稿の目的は,従来のSCAINsでは考慮されていなかった,コア発話より時間的に過去の聞き逃しをシミュレートしたSCAINs特定を行うことである.本稿では従来のSCAINsを拡張したD-SCAINs (Distant SCAINs)を提案する.コア発話から離れた位置の聞き逃しが,人間にとってもコア発話文を解釈する上で重要であるかを評価した.結果として聞き逃した発話がコア発話に近いほど,コア発話文の解釈に重大な影響を与えやすいことがわかった.

  • 小野寺 佳成, 松崎 光, 河原 彩乃, 今井 倫太
    セッションID: 3T1-OS-6a-03
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    本論文の目的は、三者間の関係性を考慮したロボット用会話システムの構築である。会話の頻度と時間から関係性を認識するロボットの研究は行われているが、会話内容からリアルタイムに関係性を認識する研究や関係性に応じてロボットの振る舞いを変更する研究は今まで行われてこなかった。 本論文では人間1人とロボット2台での三者会話において、大規模言語モデルを使用して会話内容から現在の関係性と理想的均衡関係をリアルタイムで推定し、理想的均衡関係を築くための発言を生成するシステムRelBot(dialogue Relational roBotic system)を提案する。本論文における理想的均衡関係とは、人間の望む関係性をバランス理論の均衡状態を満たすように調整したものを指す。 RelBotの有効性を検証するため、現在の関係性の推定精度と人間の望む関係性の推定精度、そして理想的均衡関係を築くための発言の有効性について評価実験を行った。実験の結果、現在の関係性と人間の望む関係性が高い精度で推定できることが示された。さらに、理想的均衡関係を築くための発言の有効性が明らかになった。

  • 粟根 愛華, 植田 一博
    セッションID: 3T1-OS-6a-04
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    近年ロボットとのインタラクションにおいて、外見の「かわいさ」がポジティブな反応を引き出す要素として用いられている。しかし今後ロボットに備えられる機能が多角化することを考えると、外見だけでなく、他の要素からも感じられる愛らしさを組み込むことが求められるであろう。そこで我々は対人反応を喚起する新たな要素として、自己演出的な可愛らしさである「あざとさ」に焦点を当てた。本研究では「あざとさ」が感じられるうる要素としてまず表情に着目し、表情のみからあざとさは感じられるのか、またどのような要素からあざとさを感じているのかについて、笑顔を用いた印象評価実験を通じて検討した。その結果、特定の笑顔が一般に「あざとい」と知覚され、この「あざとい」笑顔は、表情から感じられる意図性、感情性、そして二次的意図の点でその他の表情と異なることが明らかとなった。また「あざとい」笑顔にみられる顔表情の特徴を分析したところ、口周辺(AU14, 20, 23)と眉周辺(AU1, 4, 7)にて見られる特徴的な動きが「あざとい」知覚のトリガー候補であることが示唆された。

  • 松田 治真, 寺田 和憲
    セッションID: 3T1-OS-6a-05
    発行日: 2024年
    公開日: 2024/06/11
    会議録・要旨集 フリー

    感情は他者を制御する機能を持ち,怒りは服従を,悲しみは援助を引き出す.しかし,「ポライトネス社会規範」は公共の場での怒りや悲しみの表現を抑制する一方で笑顔を強制し,その結果,笑顔が多重に意味を持つようになった.本研究では,エージェント間いじめタスクにおいて,怒りや悲しみと同等の機能を持つ,支配的笑顔や親和的笑顔の人による認識の実験結果を示し,ポライトネス社会規範と語用論的笑顔の共進化を議論する.実験参加者(n=45)は,6(加害者表情:怒り,悲しみ,報酬的笑顔,親和的笑顔,支配的笑顔,無表情)×6(被害者表情:怒り,悲しみ,報酬的笑顔,親和的笑顔,支配的笑顔,無表情)×2(役割:大エージェントが加害者-小エージェントが被害者,小エージェントが加害者-大エージェントが被害者)の参加者内計画で,対話を観察し2エージェントの相対的支配―従属関係を推測した.実験の結果,怒りと支配的笑顔が支配性を推論させることが分かった.これは,感情表現の社会規範や文脈が,その社会的機能に重要な役割を果たすことを示唆しており,ポライトネス社会規範下での笑顔の多様な意味と機能の理解を深めることに貢献している.

feedback
Top