抄録
強化学習とは報酬という特別な入力を手がかりに、環境に適応する機械学習システムを構築する1つの方法である。一般的な教師付き学習とは異なり目標に導く教師が存在するのではなく、目標達成した後に報酬というスカラー情報を用いてシステムを学習する方法である。この強化学習システムに関しては、様々な学習方法が提案がなされているが、離散値の入力を前提としている。しかし、実問題を考える際、連続値を扱うモデルの構築が不可欠である。本稿では、ユークリッド空間上で定義される連続値の入力を、離散化してテーブル形式で表現する方法を提案し、その有効性を示す。