主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
本稿の目的は、種類に依存しないある商品をある基準に正確に複数の機器に分ける「振り分け器」の制御に関する学習方式を提案することである。本稿の深層Q学習では、まず、商品重量の計測値と目標値の差(計量誤差と呼ぶ)が小さいほど即時報酬が大きくなるような報酬関数を設定し、状態行動価値Q値を推定するDQN(Deep Q Network)を用いて、DQNから出力される(通常とは逆の)最も小さいQ値に対応する機器を行動選択の対象とする。選択された機器は最も計量誤差の累計が大きくなっていると判断でき、この機器を制御対象として計算誤差を小さくする操作を施す。このような深層強化学習を繰り返すことで全ての機器の計量誤差を小さくしていくことができ、ある基準に正確に商品を振り分けることができるようになる。本稿では、その学習方式とシミュレーション結果を提示する。