2021 年 33 巻 4 号 p. 827-832
ロボットの行動則を獲得する方法に逆強化学習を用いて報酬関数を設計する方法がある.ここで,状態空間は,次元数が増えるにつれて指数関数的に大きくなるため,状態空間の広さに対して,観測できる状態遷移数の割合は激減する.部分的な状態遷移情報からでも報酬関数を設計することは可能であるが,得られた報酬関数にはあいまい性が存在することになる.あいまい性を含む報酬関数を用いて学習する場合には,あいまい性を許容可能な報酬関数が必要となる.そこで本稿では,逆強化学習で設計された報酬関数のもつあいまい性をファジィ推論によって数値化する手法を提案する. 実験の結果,提案手法によって,危険度や安全度を考慮した行動系列を学習できる可能性が示唆された.