抄録
エージェントに行動規則を自律的に獲得させるためには,プランニングが重要である.しかし,状態空間や制約条件によりプランニングに失敗する場合がしばしばある.我々はこれまでに強化学習であるQ学習と探索アルゴリズムであるA*アルゴリズムを組み合わせたプランニング手法を提案した.本稿では,この手法の改善をめざす.従来法は,Q学習の学習結果に基づきA*アルゴリズムの探索目標を決定している.ここでQ学習を行う際の状態空間の取り方を変化させることで,より適切にプランニングできるようになるのかを,Infinite Tuxを題材として検討する.