大局基準値共有による社会的強化学習

其田 憲明; 神谷 匠; 高橋 達二

doi:10.11517/pjsai.JSAI2019.0_3K3J204

抄録

人間は個人での試行錯誤的な学習だけではなく，他者の成功情報を受け取ることで学習をより促進させている．ここには他者の行動の模倣や結果の再現といった社会的な戦略が存在する．強化学習における他エージェントとの情報共有法としてはしばしば行動価値の共有が行われているが，状態や状態行動対ごとの情報共有が必要であり，現実には難しいことが多々ある．少なくとも人間や動物の社会的学習のモデルとしては現実性に欠ける．我々は人間の満足化原理を強化学習に反映した，Risk-sensitive Satisficingと大局基準変換法を用いた大局的な基準値の共有によって，より少量の情報共有による効率的な社会的学習が可能であることを示す．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）