人工知能学会全国大会論文集
Online ISSN : 2758-7347
第35回 (2021)
セッションID: 1G2-GS-2a-05
会議情報

社会的強化学習における大局基準値共有とGRCの効果
*秋庭 拓実高橋 達二浦上 大輔
著者情報
会議録・要旨集 フリー

詳細
抄録

社会的強化学習とは他者との情報共有など、人間の社会性を強化学習の枠組みに取り入れることによって効果的な学習の実現を目的とするものである。素朴な方法としては、複数の強化学習エージェントが並行して探索と学習を行う場合に行動価値を共有するということが考えられる。しかし、行動価値の共有は状態行動対でおこなう必要があり、計算量が大きくなることや探索傾向の偏りから準最適解に陥るという懸念がある。これに対して我々はエピソード毎の獲得報酬の最大値を基準値として共有することと(大局基準値共有)、その基準値を各状態における基準値に変換する方法(GRC: Global Reference Conversion)に基づく強化学習法を提案している。本研究では餌場探索タスクにおいて大局基準値共有とGRCを採用した場合に、各状態の基準値を全て共有する場合と比較して、エージェント数と報酬設定という二つの重要な要因についてより広範囲で最適行動を獲得するという結果が得られた。この結果は「より少ない情報共有がより柔軟な探索と学習をもたらす」ということを意味していると考えられ、その解析と考察についても上記の結果と合わせて報告する。

著者関連情報
© 2021 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top