強化学習が可能にするオペレーション最適化の世界

窪澤 駿平; 大西 貴士; 鶴岡 慶雅

doi:10.11517/pjsai.JSAI2022.0_1G4OS22a04

抄録

生産設備や輸送システムをはじめとする，様々なシステムの資源配分や運用計画などの計画作業を自動化・最適化する方法は，主にオペレーションズ・リサーチや個々の分野で研究されてきた。これらの計画問題，特にスケジューリング問題は，組合せ最適化問題に還元され，そのソルバで解かれることが多い。しかし，この方法で複雑なシステムの長期計画をスケジューリングしようとすると，組合せ爆発により解が得られない場合がある。一方，スケジューリング問題は，組み合わせ最適化問題としてだけでなく，最適制御問題とみなせる場合も多い。最適制御問題は，モータ制御やプラント制御など制御工学の問題だけでなく，例えばボードゲームの様に，逐次的な意思決定を扱う問題を広く含む。この最適制御問題を解く方法のひとつに強化学習があり，近年目覚ましく進歩している。そこで，複雑なスケジューリング問題を，各時刻において意思決定する最適制御問題と捉え直すことで，強化学習により計画時には短時間で解を得られる可能性が生じている。本稿では，この様な定式化の観点と，応用事例として鉄道ダイヤ作成や化学プラント運転などの取り組みを紹介する。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）