抄録
カーレースゲームとはIEEE2007 Car Racing Competiton のコンピュータプログラム同士の対戦ゲームで、2台のカーエージェントが実数値環境である2次元平面上に置かれた目標を目指しながら得点を競うものである。 カーエージェントの行動選択にファジィQ学習を用いているが、本研究では現在の目標をできるだけ少ないステップ数で通過できるような学習方法を提案する。カーエージェントが目標を少ないステップ数で通過できたときに、通過報酬に加えて追加報酬を与える必要があると考えた。そのため、目標を通過したときには、過去の似た状態を調べ、現在の目標通過ステップ数が過去のものより少なければ、目標出現から通過に至るまでの全ての行動に追加報酬(ステップ報酬)を与えるようにした。そして、目標が出現したときのカーエージェントの状態と、目標通過ステップ数を憶えておくようにする。このステップ報酬を用いて学習させた結果、ステップ報酬を用いない場合と比べて1つの目標を通過するのにかかるステップ数は少なくなった。しかし、それに伴ってカーエージェントの速さが上がり、次の目標を効率的に通過することはできなかった。