主催: 一般社団法人 人工知能学会
会議名: 2019年度人工知能学会全国大会(第33回)
回次: 33
開催地: 新潟県新潟市 朱鷺メッセ
開催日: 2019/06/04 - 2019/06/07
解釈性のある制御方策を学習することは、産業応用における安全性やメンテンナンス容易性の観点で重要である。従来法では、解釈性のある方策を獲得するためにまず期待報酬を最大化するようなブラックボックス方策を用意し、その方策を模倣するように決定木を構築している。しかしながら、ブラックボックス方策の模倣によって得られた決定木方策は必ずしも期待報酬を最大化しない。そこで本研究では、環境から得られる報酬を直接最大化するCross-Entropy法を用いた決定木方策の学習手法を提案する。そして、実験を通じ、我々の提案法によって構築された決定木方策が、従来通りブラックボックス方策の模倣によって獲得された決定木方策よりも高い期待報酬を獲得できることを示す。