AI・データサイエンス論文集
Online ISSN : 2435-9262
人間のフィードバックによる深層強化学習(Reinforcement Learning from Human Feedback)を適用したダム放流操作モデルの試み
箱石 健太一言 正之菅田 大輔石田 富英小久保 緑
著者情報
ジャーナル オープンアクセス

2024 年 5 巻 3 号 p. 410-417

詳細
抄録

気象条件やダム諸量に基づき,ダム操作を深層強化学習により最適化する事例は増えつつある.しかしダム操作を意思決定する上では,気象条件やダム諸量以外のダム流域に関する利害関係者やCCTVカメラ映像といった様々な状況によってダム放流操作が判断される.これらダム放流操作の判断基準を深層強化学習における報酬関数としてモデル化することは困難である.昨今,大規模言語モデル(Large Language Models,以下 LLM)は Reinforcement Learning from Human Feedback(以下,RLHF)により人間の価値観に基づいた深層強化学習を適用することで,より精度の高い回答を実現している.本研究では,深層強化学習によるダム放流操作モデルに対しRLHFを適用し,人間の価値観を加えたダム放流操作モデルを構築した.構築したモデルを検証した結果,人間の価値観を反映したダム放流操作を行っていることを確認した.

著者関連情報
© 2024 公益社団法人 土木学会
前の記事 次の記事
feedback
Top