社会的強化学習における大局基準値共有とGRCの効果

秋庭 拓実; 高橋 達二; 浦上 大輔

doi:10.11517/pjsai.JSAI2021.0_1G2GS2a05

抄録

社会的強化学習とは他者との情報共有など、人間の社会性を強化学習の枠組みに取り入れることによって効果的な学習の実現を目的とするものである。素朴な方法としては、複数の強化学習エージェントが並行して探索と学習を行う場合に行動価値を共有するということが考えられる。しかし、行動価値の共有は状態行動対でおこなう必要があり、計算量が大きくなることや探索傾向の偏りから準最適解に陥るという懸念がある。これに対して我々はエピソード毎の獲得報酬の最大値を基準値として共有することと（大局基準値共有）、その基準値を各状態における基準値に変換する方法（GRC: Global Reference Conversion）に基づく強化学習法を提案している。本研究では餌場探索タスクにおいて大局基準値共有とGRCを採用した場合に、各状態の基準値を全て共有する場合と比較して、エージェント数と報酬設定という二つの重要な要因についてより広範囲で最適行動を獲得するという結果が得られた。この結果は「より少ない情報共有がより柔軟な探索と学習をもたらす」ということを意味していると考えられ、その解析と考察についても上記の結果と合わせて報告する。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）