人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 2Q4-OS-27b-03
会議情報

強化学習における結果模倣
*北出 伶奈和田 拓真甲野 佑高橋 達二
著者情報
会議録・要旨集 フリー

詳細
抄録

人間はしばしば,他者の競技記録などの結果情報のみを参照し,独立した試行錯誤により,同様またはより優れた結果を達成できる. これは競い合い・結果模倣(エミュレーション)と呼ばれる社会学習の形式である.結果模倣では, 時には数ビットの情報の共有のみにより,組織や社会全体のパフォーマンスの向上が見られた.先行研究では,他者の結果情報をそのまま鵜呑みにするのではなく,少し低く見積ることで,より効果的に結果を改善できることが示されている.これは単一エージェントでは「不確実な環境においては楽観的に」探索するという原則があるのに対し,マルチエージェントでは「個体は楽観的に,集団は悲観的」な探索が効率的になる,という原理である.先行研究ではマルチエージェント環境での社会性を模したバンディット問題において,Lower Confidence Bound (LCB) のような悲観的な結果水準の見積り手法が有効であった.しかしより現実的な非定常な環境を想定すると LCB では対応しきれない.ここから本研究では非定常環境にも対応できるマルチエージェント学習における新たな悲観的解釈とそのアルゴリズムを検討した.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top