シグナリングゲームにおけるエントロピー正則化項の暗黙の報酬

上田 亮

doi:10.11517/pjsai.JSAI2023.0_4H2OS6a01

抄録

本稿の主目的は、シグナリングゲーム最適化の際に用いられるエントロピー正則化項という補助目的関数に着目し、その暗黙の報酬関数を示すことにある。シグナリングゲームとは、言語創発の分野で頻繫に用いられる環境設定であり、非常に簡素なコミュニケーションモデルである。強化学習の手法を用いてシグナリングゲームを最適化する際には、エージェントの探索を補助するために、エントロピー正則化項という補助関数が用いられる。ただし、この補助関数はアドホックに導入されるものであり、そこに暗に仮定されている報酬関数は不明瞭である。また、それ故に当分野における数学的な議論が妨げられている可能性もある。そこで本稿では、エントロピー正則化項の暗黙の報酬関数を明らかにすることで、エージェントの最適化対象をより明確なものとする。また、類似した補助関数であるエントロピー最大化項との関連についても触れる。本稿の貢献が、言語創発分野における数学的な議論を発展させていく上での端緒となることを期待する。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）