抄録
本論文では,強化学習を用いたヘビ型ロボットの制御について考え,その際に発生する,「学習時間の長さの問題」および,「汎化能力の欠如の問題」の二つの問題を解決することを目的とする.これらの問題を解決するため,ロボットの身体および環境の性質に注目し,身体と環境との相互作用によって,状態・行動空間を実時間に抽象化する枠組みを提案する.この抽象化によって,探索空間の大きさを実学習が可能な大きさまで縮退させるとともに,学習器に汎化能力を付加する.提案手法の有用性を確認するため,実際にロボットを製作するとともに,製作した実機を用いて学習を行った.その結果,50試行程度の少ない試行回数で学習が完了するとともに,獲得された政策は,異なる環境に対しても再学習を行うことなく適用可能であった.これにより,「学習時間の長さの問題」および,「汎化能力の欠如の問題」の二つの問題が提案手法によって解決されていることが確認された.