遺伝的プログラミングを用いたAIによる強化学習モデルの探索

宮崎 聖人

doi:10.4992/pacjpa.85.0_PA-012

抄録

強化学習モデルとは，ヒトの行動選択の過程を数理的に表現するモデルであり，代表的なものにQ学習モデルがある。強化学習モデルを考える利点の一つは，主体が採用している学習メカニズムの情報を得られることである。しかし，これまで強化学習モデルは人間の手で作られてきたため，実際のメカニズムを反映したモデルを見落としている可能性がある。そこで本研究では，遺伝的プログラミングを用いて強化学習モデルを探索するAIを開発し，研究者のモデル構築をサポートすることを目指す。ところで，AIが強化学習モデルを探索できると一口に言っても，それがどのような条件下で可能かによって，実用性は大きく異なる。本研究では，AIの開発可能性を高めるために，「パラメータが特定の値をとり，選択されなかった行動の価値は更新されない」という特殊な条件下でのモデル探索を目指す。具体的には，Q学習モデルから人工的にデータを生成し，そのデータからAIが正しくQ学習モデルを探索できるか否かを検討する。開発したAIでモデル探索を行った結果，AIは正しくQ学習モデルを探索できた。今後は，より一般的なモデルを探索できるようAIを改良する予定である。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）