深層強化学習を用いた経路最適化における報酬の改良

松井 藤五郎; 石田 匠吾

doi:10.11517/pjsai.JSAI2023.0_3F1GS1004

抄録

本論文では、深層強化学習を用いた経路探索における報酬関数の改善方法を提案する。従来手法では、2-opt法のヒューリスティック関数を深層強化学習で学習するにあたって、それまでの最良経路の経路長から現在の方策によって出力された経路長を引いた値を報酬としていた。しかしながら、実際の配送経路探索においては、複数の配送先が非常に近い場合があり、このような場合には報酬が小さくなってしまい最適経路を効率よく学習することが難しい。本論文の提案手法では、深層強化学習における報酬関数を改善が小さいときの報酬がより大きくなるよう補正する。改善が小さいときの報酬をより大きくすることによって、改善が小さいときでも学習が進み、より効率的な経路探索ができると期待できる。また、提案手法を実際の配送経路探索問題に適用し、その有効性を確認する。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）