強化学習における結果模倣

北出 伶奈; 和田 拓真; 甲野 佑; 高橋 達二

doi:10.11517/pjsai.JSAI2023.0_2Q4OS27b03

抄録

人間はしばしば，他者の競技記録などの結果情報のみを参照し，独立した試行錯誤により，同様またはより優れた結果を達成できる．これは競い合い・結果模倣（エミュレーション）と呼ばれる社会学習の形式である．結果模倣では, 時には数ビットの情報の共有のみにより，組織や社会全体のパフォーマンスの向上が見られた．先行研究では，他者の結果情報をそのまま鵜呑みにするのではなく，少し低く見積ることで，より効果的に結果を改善できることが示されている．これは単一エージェントでは「不確実な環境においては楽観的に」探索するという原則があるのに対し，マルチエージェントでは「個体は楽観的に，集団は悲観的」な探索が効率的になる，という原理である．先行研究ではマルチエージェント環境での社会性を模したバンディット問題において，Lower Confidence Bound (LCB) のような悲観的な結果水準の見積り手法が有効であった．しかしより現実的な非定常な環境を想定すると LCB では対応しきれない．ここから本研究では非定常環境にも対応できるマルチエージェント学習における新たな悲観的解釈とそのアルゴリズムを検討した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）