-
伊藤 元太, 松野 匡志, 北西 由武
セッションID: 4L1-GS-10-04
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
大規模言語モデルの発展に伴い,様々なチャットボットの開発が進展している.一般に公開された大規模言語モデルでは,医薬品に関するような専門的な質問に対して,事実と異なる回答を生成することがある.これへの対策として,外部データベースから検索した関連文書を基に回答を生成する検索拡張生成が知られている.本研究は,医薬品の質問に関し高精度な検索を可能にする医薬品分野に対応した文埋め込みモデルの開発を目的としている. 塩野義製薬に寄せられた医薬品に関する質問記録の一部から模範回答例に含まれる類似する質問を専門家が紐づけ,検索精度の評価データとした.残りの質問記録から,Jaccard類似度が一様分布するように質問ペアを作成し,GPT-3.5で各ペアが意味的に類似しているか判定した.模範回答例データと質問ペアの類似度判定データで,既存の文埋め込みモデルに追加学習を実施し,追加学習前後のモデルで,検索結果のTop-5 Accuracyを測定した. 追加学習前のモデルで82.5%,追加学習後のモデルで93.5%と,より精度の高い検索が可能なモデルを構築することができた.
抄録全体を表示
-
田畑 善人, 江連 耕太郎, 森本 健太郎, 北西 由武, 八木 朝子, 千葉 伸太郎, 吉本 秀輔
セッションID: 4L1-GS-10-05
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
近年、睡眠は不眠、過眠だけでなく様々な疾病と関連があることが判明している。これらの問題を発見するには睡眠の状態を分析する必要があり、様々な研究が行われてきた。中でも脳波を用いた睡眠段階の分析は、睡眠の状態を可視化して分析する上で非常に重要な指標であり広範囲にわたり研究されている。しかし睡眠段階の判定は専門家の知識、経験に大きく依存しており、判定ができる専門家が限られる、判定に時間がかかるなどの問題があった。これらの問題を解決するため、機械学習を用いて自動で睡眠段階の判定を行うシステムの研究開発、製品開発が進んでいる。我々の先行研究において、パッチ式脳波計を用いた睡眠段階の判定システムを構築し、精度78.6%、κ係数0.70を確認した。本稿では先行研究において構築した睡眠段階スコアリング推論器を改善(① モデルアーキテクチャの変更、②自社臨床研究データとOpen Datasetsの組み合わせによる学習)により、より高い精度で睡眠段階スコアリングすることを目指した。結果として精度83.1%、κ係数0.749を記録し、先行研究と比較し、精度改善を達成できた。
抄録全体を表示
-
高橋 友則, 水野 貴之
セッションID: 4L3-GS-10-01
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
株価をはじめとした金融時系列の生成は実用上の重要性にもかかわらず、ファットテール、ボラティリティクラスタリング、自己相関といった特性から困難な課題である。これまで敵対的生成ネットワーク(GANs)、変分オートエンコーダー(VAEs)といった生成モデルを用いてこの課題への対処が試みられてきたが、本研究ではそれらの代替として、時系列をウェーブレット変換して得たスペクトログラムに対し、拡散モデル、特にDenoising diffusion probabilistic models(DDPMs)を適用する手法を提案する。同手法により株価だけではなく出来高やスプレッドといった関連する時系列が同時に生成され、それらが金融市場で観測される特性を再現していることを示す。
抄録全体を表示
-
指原 淳, 早矢仕 晃章
セッションID: 4L3-GS-10-02
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
近年における情報量の急速な増大は、消費者が必要とする情報への到達の阻害、及び情報過多による正確な理解の妨げという問題を生じさせている。先行研究における情報フィルタリングや検索システムの改良といった解決策は部分的な緩和を果たしている一方で、付随する新たな問題を引き起こしている。そこで本研究では、情報を如何に正確に理解できるかという情報消化の概念に焦点を当て、C2Cオンラインショッピングサイトにおける市場参加者である売り手と買い手間の商品ページを介した情報消化の差異性を分析し、消化効率の向上を目的とした。リッカート尺度及び自由記述方式のアンケートを用いた因子分析や群間比較によって、売り手と買い手という市場参加者の立場や商品特性に応じた項目間の重要性及び各項目間における伝達・獲得情報に違いがあることを明らかにし、消化効率の向上に寄与する示唆を得た。
抄録全体を表示
-
堀込 泰三, 水野 貴之
セッションID: 4L3-GS-10-03
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
GPTアーキテクチャを用いた人流生成AIをエージェントに組み込み、小売店舗内顧客動線のエージェントベースシミュレーションを行った。シミュレーションでは、来店時の混雑状況と、時々刻々の近隣エージェントとの相互作用を考慮に入れている。得られた結果について、従来のエージェントベースシミュレーションとの比較を行う。
抄録全体を表示
-
渋谷区高齢者デジタルデバイド解消事業の結果から
森田 佳乃子, 中䑓 有紀, 稲毛 光莉子, 伊藤 由希子, 鈴木 貴久
セッションID: 4L3-GS-10-04
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
本研究は、スマートフォンを使ったことが無い高齢者1193名に、渋谷区が端末を2年間貸与した結果、どのような行動変容が起こるかを端末の全ログ情報をもとに解析する。特に、本発表では、スマートフォンの利用定着度と高齢者の外出頻度や距離の関連を明らかにする。分析において、東京都渋谷区との研究協定により「渋谷区高齢者デジタルデバイド解消事業」(2021年9月~2023年8月)の行政情報を用いる。具体的には被貸与者1193名への講習時のアンケート、ヒアリング、端末のアプリ利用ログ、10分毎の位置情報データである。本研究では2022年と2023年の端末位置情報(同月)を比較し外出頻度やその距離を解析した。その結果、高齢者の外出頻度の変化と端末の利用定着度の群間比較に有意差はなかった。一方で外出距離の変化と端末の利用定着度は、定着度の高いグループほど外出距離の伸びが大きいことがわかった。
抄録全体を表示
-
吉田 尚暉, 岩崎 悠真, 五十嵐 康彦
セッションID: 4L3-GS-10-05
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
マテリアルズ・インフォマティクスにおいて、高機能物性となる合金材料の探索がベイズ最適化によって多く行われている。本研究では、高次元化しつつある材料探索空間に対して、深層生成学習や非線形次元圧縮手法により、低次元化することでベイズ最適化の探索を効率的に行った。本発表では、合金材料の探索空間を可視化をしつつ、低次元化手法によってベイズ最適化にどのような影響を与えるか議論する。また、目的プロパティ値やそれに関連する情報をVAE学習に利用することによる、ベイズ最適化の影響について示す。
抄録全体を表示
-
~デジタルツイン化をとおしてきづいたコンヴィヴィアルな関係性の価値~
佐久間 紘樹, 大澤 康太郎, 中尾 晃太郎, 石川 泰彦, 山下 和也, 井上 恵, 本村 陽一
セッションID: 4M1-GS-10-01
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
日本科学未来館が実施しているワークショップ「気象マスターをめざせ!」では表層的な知識習得にとどまらない「主体的で対話的な深い学びをもたらす場」の創造を目指している。そうした場でファシリテーション実践者に求められる技能や暗黙知をデジタルツイン(DT)としてモデル化した試みを報告する。 実践者が共通して体得している成功・失敗要因のなかで共通して重視されていたことに「場の固着と発散」という評価軸(パラメータ)がありそこからモデル化をすすめた。 そのモデル化過程において抜け落ちる情報の存在が明らかになり、実践者は深刻な違和感から「パラメータの追加」の必要性と「実践者と開発者の対話によるモデルのリフレーム」の二つの気づきが得られた。結果として支援ツールに対する要件が整理された。 デジタルツインによって技能や暗黙知を伝承する際に表層的な再生産に留まらぬよう、実践者のリフレクションとリフレームを促し実践とシステムがともに深化発展していくDX3.0を目指す。
抄録全体を表示
-
Dummy
ダミー ダミー
セッションID: 4M1-GS-10-03
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
-
AIアライメントパラダイム構築に向けて
田森 佳秀, 吉澤 駿, 茂木 健一郎
セッションID: 4M1-GS-10-04
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
AI Alignmentは、AIを人間の倫理観、価値観、目的に沿って動作させることを目指す研究分野である。我々は、AIが特定の目的や倫理観に基づいて動作するようにデザインするためのプログラミング言語、すなわち「アライメント言語」の開発を行っている。 このアライメント言語は、AIの行動や判断基準を人間の倫理や目的に合わせるための具体的な規則や構造を提供する。AIの開発者は、この言語を使用してAIの目的や行動パターンを明確に定義し、AIが人間の意図に反する行動を取るリスクを最小化することができる。また、この言語は、AIが環境や状況に応じて適応する能力を獲得するためのプロンプト設計にも使用できる。 現在我々は、この言語の設計と実装の途中段階にあり、いくつかの課題に直面している。例えば、人間の倫理観や価値観の多様性をどのようにAIに組み込むか、AIの判断基準をどの程度柔軟にするか、また、未知の状況に対してAIがどのように対応すべきかなどである。発表では、これらの課題に対処するための、アライメントを設計するためのアライメント言語の構造について共有し議論する。
抄録全体を表示
-
染谷 実奈美, 大塚 玲
セッションID: 4M1-GS-10-05
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
バイナリコードの機能推定は,マルウェア解析や脆弱性検出においてソースコードが入手できないプログラムを解析する際に有用である.バイナリコードは関数名や変数名などのシンボル情報が欠けているため,ソースコードと比べて理解が難しく,解析には高度な技術と多くの時間を要する.近年の大規模言語モデル(LLM)は,自然言語やソースコードの理解において顕著な能力を示しているものの,バイナリコードへの応用可能性についてはまだ明らかになっていない.そこで,本研究ではLLMをバイナリコードの機能推定に応用することを目指し,関数名推定タスクに取り組む.提案手法では,Gemini Proを使用して関数名推定の根拠を抽出し,その根拠と関数名を用いてCode Llamaをファインチューニングする.評価実験の結果,根拠と関数名を学習させることで,関数名のみでファインチューニングした場合と比較して性能が向上した.さらに,Chain-of-Thought Promptingを適用したGemini Proの性能をも上回る結果が得られた.
抄録全体を表示
-
岩井 皓暉, 熊谷 雄介, 小山 裕己, 濱崎 雅弘, 後藤 真孝
セッションID: 4M3-GS-10-01
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
選好ベイズ最適化は,人間の主観的な好ましさを目的関数として扱い,効率的なhuman-in-the-loop最適化を実現する手法である.これまで,選好ベイズ最適化は単純なデザインシナリオへの適用に成功してきた.しかし,より複雑なデザインタスクでは最適なデザインを発見するために,主観的な好ましさだけでなく,デザインの制約も考慮するケースがある.本稿では,選好ベイズ最適化に不等式制約という形式で別の指標を組み込むことを可能にする新しい手法を提案する.特に,この統合を可能にする新しい獲得関数を提案する.テスト関数を用いたシミュレーション評価では,本手法が実行可能解を効率的に探索することで,最適解に到達している様子を示す.
抄録全体を表示
-
的矢 知樹, 王 允卓, 平野 正徳, 今城 健太郎
セッションID: 4M3-GS-10-02
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
ディープラーニングと価格時系列シミュレーションを使用してヘッジ行動を最適化するDeepHegdeは、 完全市場を前提とせず取引手数料などの不完全市場を考慮に入れることができるため、効率的なヘッジを可能にすることが出来る手法として注目を集めている。Deep Hedgingは通常の順伝播型ニューラルネットニューラルネットを用いた場合に訓練が難しくなることが知られているが、No-Transaction Band Network等の、学習を効率化するニューラルネット構造がいくつかの問題設定で知られている。 Deep Hedgingは強化学習の枠組みで捉えることも可能であり、actor-critcに基づいた強化学習アルゴリズムによりヘッジ戦略を学習する試みが行われているが、ニューラルネットワークの訓練が難しくなると知られている。 本研究では価値関数のモデル化に基づき、幅広い問題設定で効率的なニューラルネットの学習を可能とするアルゴリズムを提案し、通常の方策を出力するニューラルネットワークよりも効率的にヘッジ戦略を出力することを示す。
抄録全体を表示
-
川名 のん, 大島 敬志, 鈴木 茜, 吉野 雅之
セッションID: 4M3-GS-10-03
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
eKYC(electronic Know Your Customer)とは,オンラインで本人確認をする仕組みである.利用者の利便性を向上するために普及が進んでいるが,犯罪防止として十分なセキュリティを確保する必要がある.2021年に,われわれはDeepfakeを用いたeKYCに対する他人なりすまし攻撃の潜在的リスクを発表した.本稿では,このなりすまし攻撃の対策技術の評価結果を報告する.まず,eKYCを想定した本物動画とDeepfake動画を作成した.Deepfake動画は,他人の顔に入れ替えるFaceSwap系と,顔の動きや表情を変化させるReenactment系の2種類で作成した.次に,OSSとして公開されているDeepfake検知技術を用い,これらの本物動画とDeepfake動画を正しく検知できるのかを性能評価した.評価の結果,われわれが調査した限りでは,すべての動画を正しく判定できるDeepfake検知技術はなかった.万能なDeepfake検知技術は存在せず,様々なDeepfakeに対応するためには複数の検知技術を組み合わせることが重要だと考えられる.
抄録全体を表示
-
関口 海良, 大澤 幸生
セッションID: 4M3-GS-10-04
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
企業利益を生み出したり社会的課題を達成するためには共創が重要である.共創とは複数の人やモノやコトが相互に補完し合って個別の活動では実現し得ないゴールを達成することと定義できる.近年,共創の様子を可視化する手法としてBaleeGraphが提案された.BaleeGraphは複数企業における導入,データ利用を推進する社団法人におけるワークショップの開催,大学講義での採用など様々な場面で利用されてきた.本論文ではBaleeGraphを提供するウェブサイト(baleegraph.com)上で閲覧可能な可視化結果を具体例として,BaleeGraphを用いてどのような検討が可能であるかを前半で示す.BaleeGraphは主に組織におけるチーム間の補完関係やその時間変化,SDGsなどのゴールとのつながり発見などの可視的な利用に提案されてきた.本論文では,映画におけるキャラクター同士の関係や,マーケットにおける競合関係,投資ポートフォリオの構成など,広い意味での共創状態の可視化およびその検討に有効であることを確認した.後半ではBaleeGraphが定量的な時系列分析にも有効であることを確認した.
抄録全体を表示
-
内山 光彩, 鈴木 昇太, 小野 智司
セッションID: 4M3-GS-10-05
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
クラスタ型連合学習は,参加者をクラスタに分類することで,各クラスタ内でモデルの構築を目指す.これは,個々の参加者が,分布の異なるデータを所持する,不均一性のある環境においても有効である.しかし,既存の手法では,クラスタ数の設定や,ハードクラスタリングを行うため,柔軟に不均一性の問題に対処することが難しい.この問題に対処するために,各参加者のモデルの推論類似度を用いてクラスタを形成することで対処するFederated Learning by Inference Similarity(FLIS)が提案されている.しかし,FLISを含む中央集約型の連合学習は,データと学習の過程を管理する中央サーバが脆弱性になり得る.このため本研究は,FLISの学習をブロックチェーンネットワーク上で実行する手法を提案する.提案手法は,FLISにおける中央サーバを用いることなく,各参加者が保持するデータの特性に応じてクラスタを動的に構築し,クラスタ毎のモデルの訓練を可能にする.実験により,提案手法はFLISと同等の性能を維持しつつ,ブロックチェーンネットワーク上でクラスタ型連合学習を行えることを確認した.
抄録全体を表示
-
長嶋 隼矢, 兼田 寛大, 飯田 紡, 田口 美紗, 平田 雅之, 杉浦 孔明
セッションID: 4N1-GS-1-01
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
筋萎縮性側索硬化症や筋ジストロフィーにおける発話障害は,患者とのコミュニケーションを大きく制限し,日常生活や社会参加に深刻な影響を及ぼす.頭蓋内脳波ベースのデコーディング技術によるコミュニケーション支援は,発話障害のある患者の日々のコミュニケーションを助け,彼らの社会的なつながりと生活の質を支えるために極めて重要である.本研究では,運動想起時における頭蓋内脳波の分類において,電極間の特徴量抽出に特化した畳み込み層およびretentive networkを組み込んだブランチ構造を組み合わせた新しいアーキテクチャを提案し,提案手法が分類精度において全てのベースライン手法を上回る結果を得た.
抄録全体を表示
-
新田 恒雄, 田口 亮, 篠原 修二, 入部 百合絵, 堀川 順正, 河合 剛
セッションID: 4N1-GS-1-02
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
BCIs のコミュニケーション機能強化を目的として,脳波(EEG信号)から言語表象を検出する研究が加速されつつある.我々はこれまで言語表象 L(k) (k:周波数)の導出に符号化と復号化のモデルを提案した.符号化はランダム信号W(k)を言語表象L(k)により畳み込むことにより,EEGスペクトラムX(k)を出力する.復号化はEEGスペクトラムX(k)を1/L(k)の変換器を用いて解析する.これまで線形予測分析(LPA)を適用して,ブローカ野周辺の音声想起EEGを分析してきた.LPAスペクトラムのパターンは,言語記号表現に相当する線スペクトルとして変換される.これまで主に母音スペクトルの集合{X(k)}から,固有ベクトルφ(c,m), c=クラス,m=軸番号,及び部分空間法(SM)を繰返し適用することにより言語表象を可視化する技術を構築し,畳み込みニューラルネットワーク(CNN)による言語分類訓練とテストを被験者独立で行ない,高い母音分類精度を達成した.本報告では,子音に特化した分析方法,21電極線スペクトルパターンからの子音ラベリング,および子音言語表象としての線スペクトルについて述べる.
抄録全体を表示
-
木下 大暉, 鈴木 麗璽, 有田 隆也
セッションID: 4N1-GS-1-03
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
メタ記憶とはメタ認知機能の一部であり,自身の記憶のモニタリングと制御を意味する.本研究では記憶とメタ記憶の関係の解明を目的として,記憶を用いたゲームを対象としたエージェントベースモデルによって検討した.ゲームはトランプの神経衰弱を単純化した一人ゲームで,エージェントは同じ種類のカードを連続してめくることでカードを獲得し,最小限のターン数で全カードを獲得することを目指す.エージェントは並べられたカードに関して種類,位置,種類と位置の対応の3種類の記憶を持つが,時間経過に応じて,記憶強度の減少(忘却)と記憶の書き換え(勘違い)が生じる.メタ記憶個体は記憶強度を認知し,戦略に反映できる(強度が基準を下回る記憶はカード選択に不使用).実験の結果,メタ記憶個体はノイズの影響を軽減させてスコアを向上させることやノイズの強い設定の方がその向上が大きいことが示された.これは,ノイズが強い場合,つまり記憶力が弱い場合ほどメタ記憶の効果が大きいこと,つまり,記憶とメタ記憶の相補的な関係を示唆するものであり,ニューラルネットワークを用いたメタ記憶進化に関する先行研究の結果の一部をサポートする.
抄録全体を表示
-
宝田 悠, 太田 宏之, 樋口 滉規, 高橋 達二
セッションID: 4N1-GS-1-04
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
人間は、成功体験からも失敗体験からも学ぶことができる。何らかの行動によって報酬が得られた場合、そのとき採っていた行動の価値が上がり、以後その行動の発現頻度が上がる。一方、報酬が得られなかった場合、行動の価値は下がり、その発現頻度は下がる。これを強化学習と言い、価値を上げるときの上げ幅を決める係数を正の学習率、逆に下げ幅を決める係数を負の学習率と言う。計算機科学分野で用いられる強化学習モデルの多くでは、正と負の学習率は同一かつ一定に設定されることが多い。しかし近年、動物の正と負の学習率は非対称であり、かつ、環境の条件によって変化しうることが分かってきた。それでは人間も同様に、正と負の学習率が非対称であるのだろうか、また環境の条件に対して変化しているのだろうか。本研究はこれら問いに答えるため、オンラインの強化学習課題を実施し、人間の学習率制御の実態を明らかにする。また、人間の意思決定モデルとして用いられてきた確率加重関数の実験を併せて実施して分析結果の比較を行う。
抄録全体を表示
-
大西 正輝, 坂東 宜昭, 片岡 裕雄, 青井 紀之, 中江 剛之, 楠本 貴浩, 末岡 雅則, 新 淳
セッションID: 4N1-GS-1-05
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
深層学習を代表例とする機械学習は年々複雑性を増してきていることから,属人化する傾向にある.機械学習の属人化を排除し,現場への導入を加速化する研究として自動機械学習(AutoML)が挙げられる.AutoML の代表的な研究としてハイパパラメータ最適化やニューラルアーキテクチャサーチ,メタ学習などが提案されている.さらには転移学習も機械学習の現場導入を加速化する研究として有用である.一方で近年,Human-in-the-Loop 機械学習(人間参加型AI)の重要性が指摘されている.一般に Huma-in-the-Loop 機械学習が指す人間はアノテータであることが多いが,プログラマをループに巻き込むことでより機械学習の現場への導入の加速が期待されており,そのためにコンテストが活用されている.筆者らは機械学習の現場への導入を加速することを目的として,2022年度にハイパパラメータ最適化のモジュールコンテスト,2023年度に事前学習用画像データセット生成モジュールコンテストを行った.本原稿ではコンテストの概要や意義について説明し,コンテストを開催することによって得られた知見を明らかにする.
抄録全体を表示
-
江上 尚志, 中田 百科, 福地 鈴佳, 久保田 茉莉花, 薬師寺 政和
セッションID: 4N3-GS-6-01
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
Optical Character Recognition(OCR)は画像から文字抽出する技術であり,これによりドキュメント画像を元にした掲載サイトへの入稿工数を大幅に削減できると期待される.しかし,入稿では文字抽出だけでなく,キーとバリューの関係を抽出する必要がある.表構造が存在する場合これは容易であるが,非構造ドキュメントは多様な形式を有するため高精度な抽出は難しい.近年,大規模言語モデル(Large Language Model, LLM)の進展により,多様な文章の理解が可能になってきた.さらにLLMはタスクに応じた自動プロンプトエンジニアリングにより精度が向上するとされており,OCR結果に適用することで関係抽出の高精度化が期待される.しかし,非構造ドキュメントの最適化には十分なデータを必要とし,LLMの推論回数増加に伴い計算コストの課題が生じる.そこで本研究では,進化計算に基づく自動プロンプトエンジニアリングにミニバッチ法を適用し,少ない推論回数でプロンプトを最適化する手法を開発した.得られたプロンプトによりOCRデータから高精度に関係抽出できることを示した.
抄録全体を表示
-
伍井 啓恭, 乙村 浩太郎, 内出 隼人, 斉藤 辰彦, 小路 悠介
セッションID: 4N3-GS-6-02
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
人は日常生活で獲得する暗黙的で多様な知識をもとに推論(常識推論)している.計算機で常識推論を実現するには,暗黙的かつ多様な常識データの獲得が必要である.このため,教師あり学習法では常識データの作成コストが問題となる.一方,常識を大規模テキストコーパスから教師なし(自己教師あり)学習する手法の有効性が知られているが,Large Language Model(LLM)を用いた手法ではfine-tuneしない場合に比較的精度が低いという課題がある.本研究では,大規模テキストコーパスから単語の3階のテンソルに常識データを情報量として獲得する手法を提案する.具体的には,単語の品詞情報を用いて仮の述語と項を抽出し,このPositive Pointwise Mutual Informationの値を3階のテンソルで事前学習する.コーパスとしてC4/jaの一部(日本語約100億語)を自己教師あり学習した.このモデルを常識推論ベンチマークセットJCommonsenseQAを用いて評価した結果,学習コーパス量が約60倍でパラメータ数10BのLLMの性能と同等レベルであったことを示す.
抄録全体を表示
-
梶川 怜恩, 山田 啓一朗, 梶原 智之, 二宮 崇
セッションID: 4N3-GS-6-03
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
自然言語処理サービスの開発者が言語ごとにモデルを構築するのはコストが高いため,多言語モデルの活用が有望視されている.しかし,多言語モデルの事前訓練データに,英語以外の言語のデータは少しずつしか含まれていないため,英語以外の言語における性能は充分ではないという課題が残っている.そこで本研究では,日本語のテキスト分類タスクを対象に,事前訓練済み多言語文符号化器の性能改善に取り組む.提案手法では,入力文を事前訓練データ量が多い英語に機械翻訳した上で,元の日本語文とともに学習および推論するマルチソース入力を行う.日本語の感情極性分類およびニュース記事のカテゴリ分類における評価実験の結果,英訳文の併用によってテキスト分類の性能改善を確認した.
抄録全体を表示
-
内藤 匠海, 石橋 陽一, 下平 英寿
セッションID: 4N3-GS-6-04
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
大規模言語モデル(LLM)の急速な発展の中,高性能なモデルを訓練するための訓練コーパスの大規模化が進んでいる.このような大規模な訓練コーパスに含まれるテキストはすべてが高品質であるとは限らず,大規模に集めてきたコーパスに含まれる品質の低いテキストがモデルの性能向上を妨げる可能性がある.本研究では,現実にみられる品質の低いテキストを含むコーパスでの事前学習において,ノイズの悪影響を抑えることを目的とし,ロバストな学習手法を提案する.具体的には,Bregman Divergence という広いクラスに着目し,その中に含まれるβ-Divergence,γ-Divergenceという,ロバスト統計で有効とされるダイバージェンスを用いる.実験においては,BERT の分類タスクへのファインチューニングや追加事前学習を実施し,KL-Divergence を損失とする一般的な学習法と比較して,提案手法が訓練データのラベルや訓練コーパスのテキストにノイズがある学習においてロバストに機能する事を示した.
抄録全体を表示
-
平野 理子, 小林 一郎
セッションID: 4N3-GS-6-05
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
近年、拡散過程を用いた生成モデルは連続領域において最先端の性能を達成しており、離散データ生成においても盛んに研究が行われている。本研究は拡散言語モデルを使って制御可能な自然言語処理タスクの一つである画像キャプション生成に取り組んでおり、画像から得られる情報のみだけでなく、ユーザが画像をなぞった軌跡(トレース)から推定されるユーザの意図を反映した画像キャプショニング手法開発を目的としている。トレースの滞在時間からユーザのその物体に対する興味度合いを図り、ユーザそれぞれのトレース順に応じて画像内の物体を説明し、インタラクティブなキャプションの生成を実現する。実験から、提案手法は拡散過程に基づくことによって非自己回帰にトレースの順番に応じて画像内の物体を説明し、滞在時間に応じてトークン数を確保することでユーザの意図を生成文中に表現可能であることを確認した。
抄録全体を表示
-
清田 純, 山梨 貴士, 山崎 聡
セッションID: 4O1-OS-16d-01
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
目的:私たちは医学生物学分野において自律的に科学的発見を行うAIの確立を目指している。医学生物学分野においては研究対象が極めて複雑であるために支配方程式を決定することは極めて困難で、データ駆動のアプローチをとることになるが、データ生成のコストも高い。そこで複雑な対象から効率よくモデルを獲得する手段として、世界モデルに基づく強化学習の医学生物学分野における可能性を検証した。 方法:まず神経細胞の培養過程における様々なパラメーターを考慮したシミュレーション環境を作成し、これを用いて世界モデルに基づく強化学習が、神経細胞を効率よく分化させるための最適な培養方法を、予備知識なしに自律的にゼロから発見できるかどうかを実験した。 結果:その結果、高い画像再構成能力を持つ世界モデルに基づく強化学習「Dreamer v3」を用いた場合、約10回の細胞培養実験を経験することで、自律的に培養条件を発見できることを確認した。
抄録全体を表示
-
日紫喜 祐也, 堀井 隆斗
セッションID: 4O1-OS-16d-02
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
自律ロボットが様々なタスクを実行できるようになることで,人との共存が見込まれるサービスロボット実現への期待が高まっている.その際に,自律ロボットが人と協調しその能力を十分に発揮するためには,人間からの信頼獲得を目的とした行動決定理由を説明する能力が必要となる.特に,他者の信念状態に基づいて説明が必要な内容を同定することは,状況に応じた適切な説明を実現するうえで重要な要素である. そこで本研究では,自律ロボットの説明性(XAR)の定義に基づき,質問生成による他者信念の能動的推定手法を提案する.本提案手法では,他者が持つ世界モデルと行動に関する制約により構造化される表現空間を構築し,その空間上に各概念を表す方向ベクトルを形成する.そして,それらベクトルの情報量や望ましさという指標を用いて質問を生成することで,他者信念を能動的に推定する.本論文では,グリッド環境におけるロボットの信念推定実験において,提案手法とランダムな質問生成手法などの質問生成効率や他者信念推定精度を検証した.その結果,他者信念の効率的な推定が可能であること,コミュニケーションとしての説明への拡張性が示唆された.
抄録全体を表示
-
原 啓太, ギマレンス ダニロ, 吉岡 琢
セッションID: 4O1-OS-16d-03
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
本稿では、強化学習を用いた外乱抑制制御についてまとめる。本稿で扱う制御対象は化学プラントの擬似シミュレータであり、外乱の影響を受けるものとする。化学プラントに対する従来制御手法であるPID制御は、一般的に外乱下での制御性能が高いとは言えず、外乱抑制を目的としてこれまでに様々な制御手法が提案されている。本稿では、強化学習を用いて、化学プラントに対する外乱抑制を目指す。強化学習は、入出力のフィードバックデータに基づいて、制御入力を学習する手法である。強化学習を用いて、外乱下における入出力データをあらかじめ学習することにより、外乱抑制の高い制御器を学習すると期待できる。本稿では実際に、化学プラントに対する強化学習シミュレーションを通して、強化学習の有用性を確認する。
抄録全体を表示
-
黒田 彗莉, 小林 一郎
セッションID: 4O1-OS-16d-04
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
近年、実世界を対象にした多くの予測モデルが提案されている。ヒトが実世界を予測するとき、観察対象の変化点を捉え、認識した結果を言語表現として理解すると考える。このことを踏まえ、本研究では複数の予測モデルをもとに、観察対象の変化に基づく変化点予測モデルを構築し、精度を検証した。またモデルによる推論内容を言語として生成し、予測内容の検証を行った。
抄録全体を表示
-
オドンチメド ソドタウィラン, 池田 悠也, 髙波 亮介, 松嶋 達也, 大島 佑太, 大久保 拓哉, 鍋田 櫂, 松尾 豊, 岩澤 有祐
セッションID: 4O3-OS-16e-01
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
近年、ロボット工学と人工知能(AI)システムの進展では模倣学習を活用することが増え、従来困難だった複雑で非構造的な 環境における自律システムの技術的課題に対する解決策を提供している。模倣学習では、マルチモーダルな入力、出力の多峰性、時系列性のデータを取り扱う必要があり、従来の教師あり学習より複雑な要素が含まれている。そこで、拡散生成モデルを活用したDiffusion Policyが注目されている。Diffusion Policyでは、従来の提案手法であるエネルギーベースモデルよりも高い精度に達することができた。しかし、Diffusion Policyは拡散生成モデルをベースにしているため、リアルタイムで動作すること課題点である。そして、精度向上のためにモデルサイズを大きくすると動作がもっと遅くなってしまう傾向がある。本研究では、このトレードオフを改善したConsistency Policyを提案する。シミュレーターと実機の物体操作のタスクで精度と速度を測定し、検証した。
抄録全体を表示
-
黄瀬 輝, 小栗 滉貴, 加賀屋 智之, 奥村 亮, 谷口 忠大
セッションID: 4O3-OS-16e-02
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
人間の言語を理解し,それに基づいて自律的に行動を決定できるロボットの実現はロボティクスと機械学習の分野における重要な研究課題である.ロボットが人間の抽象的な指示に含まれる意図を的確に捉え,適切な制御を実行する事ができれば,人間への支援やタスク実行の効率が大幅に向上することが期待される. 本論文では,人間の言語指示やゴール画像に基づいて自律的に行動を決定するロボット制御の学習手法,Vision-Language-conditioned Diffusion Policy (VLDP)を提案する.従来の言語に基づくロボット制御手法では,人間の言語が持つ本質的な曖昧性や多義性を充分にモデル化することができなかった.VLDPは,この問題に対処するため,視覚言語モデルを通じて人間の言語指示やゴール画像からセマンティクスを抽出し,Diffusion Policyに条件付けすることで,言語の曖昧性を含む指示に対してもロボットが複数の有効な行動を生成する能力を獲得する. 実験では,提案手法の言語指示に基づく行動生成の成功率,未知の言語指示への適応能力,および行動の多峰性を評価する.
抄録全体を表示
-
松尾 榛夏, 神原 元就, 杉浦 孔明
セッションID: 4O3-OS-16e-03
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
監視ロボットや生活支援ロボットのような移動ロボットにとって,事前に家庭環境全体に散在する物体位置を把握できれば効率的にタスクを実行できる.一方で,日常的な物体は日常生活において頻繁に移動され位置が変化するため,定期的な探索を効率的に行い,最新の物体位置を把握することが重要となる.そこで本研究では家庭環境内における日常物体の観測を目的としたSubmodular Observation Poses Optimization (SOPO)を提案する.また,open-vocaburalyでマルチモーダルな3D特徴量およびテキストプロンプトから生成した2つのoccurrence mapを用いる.収集された画像群において観測された日常物体の割合において,本手法がベースライン手法を上回り,ロボットが効率的に日常物体を観測することを可能にする観測姿勢を選択した.
抄録全体を表示
-
山根 広暉, 境野 翔, 辻 俊明
セッションID: 4O3-OS-16e-04
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
近年,人間の動作データを用いて人間の動作を模倣する模倣学習が注目を集めているが,その多くは位置制御で動作しており,物体の位置や形状の違いに受動的に適応するような動作は困難である.これに対して,力制御を用いる模倣学習手法として,バイラテラル制御に基づく模倣学習が提案されている.しかし,きめ細かい力加減の制御を行うためには動作周波数を高くする必要があり,この場合,画像入力が無視されてしまう場合があるという課題があった.著者らはこれに対し,ニューラルネットワークの各層に画像特徴量を繰り返し入力する手法を提案しているが,単純なpick-and-placeタスクでのみ検証されており,複雑なタスクに対しては検証がなされていない.本研究では,バイラテラル制御に基づく模倣学習と画像特徴量各層入力を用いて,ハンバーガーの組立タスクを行った.このタスクの成功率を評価することで,複数の非剛体を扱う必要があるタスクに対するバイラテラル制御に基づく模倣学習の有効性を検証した.
抄録全体を表示
-
林 直輝, 澤田 好秀
セッションID: 4P1-OS-17b-01
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
ひと中心の未来社会を人工知能(AI)を用いて実現するにあたり,特に自動車や医療といった人命に直結する分野においてシステムの説明責任が求められている.責任あるAIの実現やAI品質の担保のために,AIを説明可能なものとして構築し,その性能を保証することは重要な課題である.説明可能AI(XAI)の一つとしてConcept Bottleneck Model (CBM) が挙げられる.CBMは神経回路網(NN)の出力層の直前に教師ありの形式知を与えることで説明性を付与する手法である.CBMの構造による予測性能低下が知られており,高精度なXAIを実現するためにCBMの改善手法が提案されている.その一つであるPartial CBM(PCBM)は,教師ありの形式知と教師なしの暗黙知の2つにコンセプトを分けることで,高精度なXAIを実現する手法である.我々は先の研究において三層線型NNに対するCBMのベイズ汎化誤差を明らかにしたが,PCBMのそれは明らかにされていない.本研究では上記ケースにおけるPCBMのベイズ汎化誤差を解析し,PCBMの構造によって汎化性能がCBMと比べて改善されることを証明する.
抄録全体を表示
-
Keiyu NOSAKA, Akiko YOSHISE
セッションID: 4P1-OS-17b-02
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
Advancements in Machine Learning (ML) are increasingly reliant on diverse datasets. However, combining multi-source data raises ethical concerns regarding user privacy and data misuse. This is further complicated by legal frameworks, like Japan's Act on the Protection of Personal Information, impacting ML deployment. Privacy-Preserving Machine Learning (PPML) addresses these challenges by ensuring data security, thereby supporting robust ML development. A key development in this area is the Data Collaboration (DC) framework, which facilitates secure ML training by integrating dimensionally reduced Intermediate Representations (IR) from distributed data. Current implementations face challenges with IR integration, affecting model stability. Our research presents an innovative enhancement to the DC framework, employing orthogonal integration matrices for IR integration. This solution aligns with the Orthogonal Procrustes Problem, offering an established analytical solution. Empirical assessments demonstrate that our approach notably improves recognition performance, surpassing traditional DC analysis methods. This study contributes to ML technologies' ethical and efficient advancement, respecting privacy concerns while optimizing data amalgamation.
抄録全体を表示
-
鷲崎 弘宜, HUSEN Jati, RUNPAKPRAKUN Jomphon, GUAN Shiyang, 吉岡 信和, 名取 直毅, D ...
セッションID: 4P1-OS-17b-03
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
信頼性の高い機械学習システムの継続的な開発・運用のために多側面に対する一貫した分析・設計モデリングと機械学習モデルのワークフローパイプラインを統合する提案済みのフレームワークM3S(Multi-view Modeling framework for ML systems)について説明し、そのモビリティ領域での適用例について述べる。
抄録全体を表示
-
岡本 昌之, 結城 東輝, 村山 拓, 矢島 桐人, 西垣 裕太, 羽深 宏樹, 宗像 直子
セッションID: 4P1-OS-17b-04
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
AIアルゴリズムの透明性に関する開示項目のカタログとなるツールキットを紹介する.本ツールキットは,AI規制やAIガイドラインの策定に関する国際的な議論,AIアルゴリズムによって発生する様々なリスク事象,AIアルゴリズムに関する先行研究を踏まえ設計されている.AIアルゴリズム提供者,利用者,リスクの観点から開示内容を裁量的に選択できる体系的な開示ガイドとして機能するよう構成されており,自主・共同規制に対応し,AIガバナンスにおいてアジャイル・ガバナンスを実践する事業者に役立つことを意図している.本稿では,AI開発ライフサイクルに沿った開示項目,活用の視点,透明性の粒度,ユースケースなど,本ツールキットの概要を紹介する.主に機械学習や深層学習モデルを用いたAIアルゴリズムに焦点を当てているが,他のAI技術,例えばルールベースモデルや知識ベースモデルについても,論点は概ね同じである.
抄録全体を表示
-
鶴嶋 英夫, 赤松 祐亮, 梅松 旭美, 今岡 仁
セッションID: 4P1-OS-17b-05
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
透析患者を研究対象として透析の前後で顔画像をAI処理して定量評価し、これと対応して透析前後での体重変化を情報として収集した。これらから顔面の浮腫を定量的に評価する学習モデルを作成して、顔面の浮腫の程度から体重の変動量を推測した。解析では各患者に対して事前に学習モデルに対するトレーニングを行うことで推測の精度を向上させることが班めした。事前のトレーニングにより透析前後の判定の精度が15%程度向上し、体重予測の平均絶対誤差が0.24kg向上している。これらの技術は透析医療以外の遠隔診療などの画面越しの診療や、日常生活内での体重変動を測定することに応用でき、ヘルスケアに貢献することができると思われる。論文: Journal of Biomedical Health Infomatics.2023:1-12.DOI: 1109/JBHI.2022.3227517
抄録全体を表示
-
出口 秀輝, 田口 峻
セッションID: 4P3-OS-17c-01
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
近年,vision-and-language navigation(VLN)の研究が大きく進展している.VLNは人とロボットの共生空間における有用な指示方法を提示する一方,その問題設定ではナビゲーション毎にユーザーの指示が必要となる.そこで我々は,ユーザーの言語による経路指示を用いて地図を作成し,それをVLNに利用する手法を検討した.この地図を用いることで,新たな目的地に対して詳細な経路指示を与えずとも,地図から経路指示を生成することが可能となる.本研究では,大規模な言語モデルを用いた2つのアプローチを紹介する.1つは大規模言語モデルに直接経路指示を入力し,経路を記憶させる方法,もう1つはモデル外にグラフ構造の地図を構築し,大規模言語モデルから利用可能にする方法である.グラフ構造の地図を用いた実験では,提案手法の空間構造の把握能力を評価するため,複数の経路を組み替えて未説明の経路を生成する実験を行った.結果から、既存の大規模言語モデルの限界を示す一方,モデルが利用可能なグラフ構造の地図を外部に持つことで,これらの能力を獲得できることを示す.
抄録全体を表示
-
棚田 晃世, 岩永 優香, 土永 将慶, 森 健光, 山本 貴史
セッションID: 4P3-OS-17c-02
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
生活支援ロボットの社会実装は,高齢社会の労働力不足やQoL向上等の社会問題に対する重要な解決策である。日常生活でのロボット活用には,ユーザがいつでもどこでも簡単にロボットを操作できる遠隔操作システムが必要不可欠である。操作者にとって直感的な操作方法の一つに,画面上の任意の位置に自由に指示を描くことができる手書き入力がある。しかし,手書き線でロボットを操作するためには,その線の意味情報を汲み取り,ロボットへの指令に変換する必要がある。本稿では,近年発展著しいVision-Language Model(VLM)を用いて,手書き線で与えられた指示を推論する手法を提案する。提案手法において、VLMはタスクAPI,制約,出力例を含む事前情報と,手書き線を上書きした観測画像を受け取り、ローレベルタスクのコード配列を出力する。また,生成コードに手書き線のピクセル情報を引数として提供し,言語では難しい曖昧な位置,経路の指定を含めた遠隔操作を実現する。提案手法を用いて複数タスクで高い成功率を示す。また、10名のユーザ実験で従来の音声遠隔操作との比較を行い,提案手法の高いユーザビリティを示す。
抄録全体を表示
-
中川 聡, 谷川 智洋, 仲田 愛, 吉村 貴克, 堺 浩之, 國吉 康夫
セッションID: 4P3-OS-17c-03
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
本研究の目的は,生成AIを用いた対話介入システムが,相反する意見を持つ人々のコミュニケーションに与える影響を検証することである.具体的には,オンラインチャットツールを通じたディベートにおいて,参加者のメッセージが生成AIによってフィルタリングされ,攻撃性を排除し共感的な内容に書き換えられる.このシステムは,敵対する双方間の意見交換において,共感的表現の付与による心理的負担の軽減を目指している.実験では,対立する意見を持つ2人の間でディベートを実施し,生成AIを介したメッセージのやり取りが行われた.実験後に得たアンケート結果から,システムの介入により,参加者の心理的負担が低い傾向が示された.これにより,対立する2者間のコミュニケーションに生成AIを介入させることで,対人関係を向上させる可能性が示唆された.
抄録全体を表示
-
蓬田 綾香, 坂 一忠, 飯田 哲也, 村瀬 文彦, 三谷 陽, 竹野 貴法, 平野 徹
セッションID: 4P3-OS-17c-04
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
本報告では,質問応答タスクの文書検索モデルを対象とした教師データ拡張において,言語生成モデルの問題点を解決する手法を提案する.教師データには,質問とそれに対する回答を含む文書のセットが必要である.文書を元に質問文を生成させる指示および対象とする文書を言語生成モデルに与えると,文書中に明確な回答のない質問,文書がある前提で内容や詳細を問う質問が生成される問題点があった.提案手法では,はじめに文書中の事実を要約させ,それに対する質問を生成させる,主語を明確にし,情報を検索する時に想定される質問を作成させる指示をプロンプトに与えることで問題点を解決する質問の生成を確認した.提案手法で生成した教師データを用いてデータ拡張の効果を検証する.
抄録全体を表示
-
Sabahat Asif DURRANI, Iffat MAAB, Usman HAIDER
セッションID: 4Q1-IS-2c-01
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
Employee attrition, the workforce reduction in organizations, is traditionally viewed negatively in human resource management literature, causing disruptive changes. Limited access to sensitive employee data complicates analysis. This study introduces a comprehensive framework, involving data cleaning, feature extraction, and dataset normalization through exploratory data analysis (EDA), encompassing univariate and bivariate analysis. Utilizing Kaggle HR Analytics and IBM HR Analytics datasets, we tackle challenges associated with imbalanced data. To address dimensionality issues, various feature selection techniques are incorporated. Attrition prediction employs machine learning classifiers—Logistic Regression, Random Forest, MLP, Decision Tree, AdaBoost, and Boost. SMOTE is applied to counter class imbalance. Our approach utilizes machine and ensemble learning on both large and normal-sized HR datasets, achieving state-of-the-art performance in accuracy and AUC scores. The study's segmentation technique provides HR managers with diverse groupings of employee attributes, offering valuable insights for developing effective retention strategies.
抄録全体を表示
-
WEN ZHOU, Shuichiro MIWA, Koji OKAMOTO
セッションID: 4Q1-IS-2c-02
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
Physics-informed neural networks (PINNs) are emerging as a promising artificial intelligence approach for solving complex two-phase flow simulations. A critical challenge in these simulations are the accurate representation of the gas-liquid interface with different interface tracking methods. Therefore, this study aims to develop a robust and generic PINNs for two phase flows by incorporating the Navier-Stokes equations and three advanced interface tracking methods—specifically, the Volume of Fluid, Level Set, and Phase-Field method—into an improved PINNs framework that has been previously proposed and validated. To further enhance the performance of the PINNs in simulating two phase flow, the phase field constraints strategies and the time divide-and-conquer algorithm are employed for restricting neural network training within the scope of physical laws. The improved PINNs then is optimized by minimizing both the residual and loss terms of partial differential equation. The case of single rising bubble in two-phase flows is simulated to validate the robustness and accuracy of the improved PINNs. The accuracy of the simulations is compared with the velocity, pressure, and phase field against CFD solutions. The results indicate that the improved PINNs coupled with these interface tracking methods offers a satisfactory consistency in simulating rising bubble.
抄録全体を表示
-
Félix DOUBLET, Seitaro OTSUKI, Iida TSUMUGI, Komei SUGIURA
セッションID: 4Q1-IS-2c-03
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
In this paper, we focus on the task of visualizing important regions in an image as high-quality visual explanations of the model’s decisions with a clear theoretical background. We introduce a novel calculation method for Layer-wise Relevance Propagation (LRP) specifically tailored to models featuring skip connections such as ResNet. This method’s strength lies in its adaptability, as the backpropagation technique is distinctly defined for each layer, enhancing its extensibility. To validate our method, we conduct an experiment on the CUB-200-2011 dataset. The proposed method successfully generates appropriate explanations and, based on the Insertion-Deletion score, outperforms the baseline methods.
抄録全体を表示
-
Jingbo YAN, Seiji YAMADA
セッションID: 4Q1-IS-2c-04
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
Despite significant research efforts to integrate human judgment to improve model interpretability, there is a continued need to enhance the efficiency of evaluation algorithms in this domain. It's important to note that human perceptions may not consistently align with dataset labels. Therefore, we developed a topic model architecture to address this discrepancy. While topic modeling is commonly associated with language models, we introduced a contrastive topic modeling approach on clustering results of human-annotated images. Semi-supervised clustering incorporates must-link constraints for similar items and cannot-link constraints for dissimilar items, which are provided by humans. Our method aligns image patches clustering with the similarity measurement between prototypes and dataset samples in the model during training. It ensures that the deep neural network, while predicting images, transfers human knowledge from a multi-semantic topic derived from the clustering result to individual samples. This process generates intrinsic global topic explanations, illuminating salient image features and capturing both positive and negative relations. Our experimental results achieve highly competitive outcomes and signify direct visual concept examples for ease of understanding.
抄録全体を表示
-
Xiaolong GUAN, Kimiaki SHIRAHAMA, Miho OHSAKI
セッションID: 4Q1-IS-2c-05
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
Human Activity Recognition (HAR) holds significance in understanding and assisting humans and so is required in related applications like healthcare and security. Especially, HAR using machine learning techniques for sensor data measured with wearable devices has been attracting attention because of its high potential. For noise and fault tolerant HAR, we propose a framework that imputes missing modalities in sensor data and recognize human activities simultaneously. Our framework consists of feature extraction by an autoencoder (AE), activity classification by a multilayer perceptron (MLP), and missing modality generation by a conditional generative adversarial network (CGAN), trained by multitask learning. In the experiment, our framework was applied to the CogAge dataset of which task was the recognition of six state activities using two modalities. The framework that was input with only one of the two modalities performed comparably to MLP and the combination of AE and MLP with both modalities.
抄録全体を表示
-
Iffat MAAB, Usman HAIDER, Edison MARRESE-TAYLOR, Sabahat Asif DURRANI, ...
セッションID: 4Q3-IS-2d-01
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
Electrocardiograms (ECGs) play a crucial role in diagnosing heart-related conditions, and ensuring the reliability of ECG collections is essential for accurate diagnoses. While previous research has focused on processing ECG signals, many machine learning models developed earlier had limited datasets, making them less suitable for real-world applications. In clinical settings, the inadvertent assignment of ECG recordings to incorrect patients poses a significant challenge. In our work, we address this issue through a comprehensive approach that spans multiple phases, starting with meticulous preprocessing of the dataset. We focus on the highly imbalanced PTB-XL electrocardiography dataset that contains records of 18885 patients. Prior to the preprocessing phase, we perform channel selection to choose more meaningful features for accurate prediction. For feature selection, a crucial step in enhancing classification accuracy, we employ a novel fusion of the Mel Frequency Cepstrum Coefficient (MFCC) and statistical features from the Discrete wavelet transform of input. We achieve state-of-the-art performance in binary classification, i.e., 97.6% using Artificial Neural Networks (ANN), effectively distinguishing between healthy individuals and those with health conditions.
抄録全体を表示
-
Zhiying HUANG, Ao GUO, Jianhua MA
セッションID: 4Q3-IS-2d-02
発行日: 2024年
公開日: 2024/06/11
会議録・要旨集
フリー
Current research on emotion recognition has mainly focused on content dependent emotion recognition, where a model is trained and tested using user data from the same content sources (e.g., watch a movie or play a game). To provide cross-content services due to users’ emotions anywhere, it is necessary for a model to recognize users’ emotions in different content sources (i.e., content independent). Since limited studies have focused on content independent recognition, whether such emotion recognition has a competitive performance with content dependent emotion recognition is still unclear. To address this issue, we performed a comparative study of content dependent and independent emotion recognition by building CNN-based models from DEAP dataset. The DEAP dataset contains physiological data collected from 32 individuals while they were watching different videos. The data collected while watching a specific video is regarded as a single content. We built content independent model with leave-one-content-out approach. That is, using physiological data from one specific content for testing, and using the data from the remaining contents for training. As a result, we noticed that the performance of content independent recognition is significantly lower than that of content dependent recognition. We also identified that users’ emotions can be easily recognized in certain contents.
抄録全体を表示