ニューラルネットワークによる行動価値関数の学習および対戦ゲーム戦略獲得への応用

中西 智之; 西川 郁子

doi:10.11509/sci.SCI03.0.5010.0

抄録

強化学習では、状態数が多くなるとコンピュータの資源を使い果たしてしまうという問題がある。特に、学習に必要なステップ数の増大による計算時間の爆発は大きな問題である。そこで、ニューラルネットワークをSarsa(λ)における行動価値関数の関数近似器として用いることで、状態数の増加に起因する問題の解決をはかる。計算機実験では提案手法をDots-and-Boxesと呼ばれる2人対戦ゲームの戦略獲得に適用し有効性を検証する。

著者関連情報

お気に入り & アラート

お気に入りに追加
追加情報アラート
被引用アラート
認証解除アラート

閲覧履歴

Relative Abundance Differences of Two Invasive Toad Species on Minami-daito and Kita-daito Islands, Japan
歯や咬合支持が高齢者の健康に及ぼす影響に関する多施設参加型大規模疫学研究
脳刺激による除痛法
724 達成行動における原因帰属の研究(3) : 原因帰属と持続性(Persistence)の関係について(教授・学習3,研究発表)
中小監査事務所の監査品質とクライアントのビジネス・リスク

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）