囚人のジレンマ環境における協調行動を導く主観的効用の最適化

高塚 遼市; 森山 甲一; 武藤 敦子; 松井 藤五郎; 犬塚 信博

doi:10.11517/pjsai.JSAI2022.0_1N1GS501

抄録

社会では個人の利益と公共の利益のどちらかを優先しなければならない社会的ジレンマという状況が存在する。私たち人間はそのような状況下で常に個人の利益を優先するわけではないことがわかっている。一方、強化学習エージェントは報酬を最大化することが目的なため、個々の利益を最大化してしまい社会的ジレンマ下では都合が悪い。そこで、報酬から効用を導出する関数を進化計算で求め、その効用を強化学習に適用することで、社会的ジレンマのモデルの一つである2人囚人ジレンマゲームで協調行動を導く手法が提案された。しかし、この手法では効用関数の形が決まっており、係数のみ進化させたためどのような関数が適しているか明らかでない。そこで本研究では、関数そのものを最適化するため、任意の関数を表現可能なニューラルネットワークの一種である3層パーセプトロンを用いて、その重みを進化計算で求める手法を利用し、相互協調は発生するのか、その際の効用関数について調べることを目的とする。2人囚人のジレンマゲームにおける実験の結果、中間層のニューロンが少なくても、相互協調が起こる特徴的な効用関数を得ることができた。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）