本研究は,強化学習におけるマルコフ決定過程における行動価値を交差点単位に分解することによって,ネットワーク全体を最適制御する分散型の信号制御を提案するものである.最近は,分散制御を行うために協調型のマルチ・エージェント強化学習を用いた信号制御に関する研究が多い.しかしながら,協調学習を行っても,依然としてネットワーク全体を最適制御する制御が求められる保証はない.そこで本研究では,交通流の Wave 伝播理論に基づいて,マルコフ決定過程の行動価値を交差点ごとに分解し,全体最適を保証するマルチ・エージェント強化学習による分散制御を提案する.提案手法を系統制御に適用し,提案手法の有効性を検証するとともに,強化学習による信号制御の課題を整理する.