ヒトの強化学習の正負非対称学習率と報酬の疎密の関係性

宝田 悠; 太田 宏之; 樋口 滉規; 高橋 達二

doi:10.11517/pjsai.JSAI2024.0_4N1GS104

抄録

人間は、成功体験からも失敗体験からも学ぶことができる。何らかの行動によって報酬が得られた場合、そのとき採っていた行動の価値が上がり、以後その行動の発現頻度が上がる。一方、報酬が得られなかった場合、行動の価値は下がり、その発現頻度は下がる。これを強化学習と言い、価値を上げるときの上げ幅を決める係数を正の学習率、逆に下げ幅を決める係数を負の学習率と言う。計算機科学分野で用いられる強化学習モデルの多くでは、正と負の学習率は同一かつ一定に設定されることが多い。しかし近年、動物の正と負の学習率は非対称であり、かつ、環境の条件によって変化しうることが分かってきた。それでは人間も同様に、正と負の学習率が非対称であるのだろうか、また環境の条件に対して変化しているのだろうか。本研究はこれら問いに答えるため、オンラインの強化学習課題を実施し、人間の学習率制御の実態を明らかにする。また、人間の意思決定モデルとして用いられてきた確率加重関数の実験を併せて実施して分析結果の比較を行う。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）