Reward Function Considering Ambiguity Using Inverse Reinforcement Learning and Fuzzy Reasoning

Yuta KATO; Masayoshi KANOH; Tsuyoshi NAKAMURA

doi:10.3156/jsoft.33.4_827

抄録

ロボットの行動則を獲得する方法に逆強化学習を用いて報酬関数を設計する方法がある．ここで，状態空間は，次元数が増えるにつれて指数関数的に大きくなるため，状態空間の広さに対して，観測できる状態遷移数の割合は激減する．部分的な状態遷移情報からでも報酬関数を設計することは可能であるが，得られた報酬関数にはあいまい性が存在することになる．あいまい性を含む報酬関数を用いて学習する場合には，あいまい性を許容可能な報酬関数が必要となる．そこで本稿では，逆強化学習で設計された報酬関数のもつあいまい性をファジィ推論によって数値化する手法を提案する．実験の結果，提案手法によって，危険度や安全度を考慮した行動系列を学習できる可能性が示唆された．

著者関連情報

お気に入り & アラート

閲覧履歴

前身誌

日本ファジィ学会誌

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）