エージェントタスクにおけるProcess Reward Modelの構築と探索手法への適用の有効性検証

今井 裕雅; 坂本 航太郎; 小島 武; 岩澤 有祐; 松尾 豊

doi:10.11517/pjsai.JSAI2025.0_4J3GS505

第39回 (2025)

セッションID: 4J3-GS-5-05

DOI https://doi.org/10.11517/pjsai.JSAI2025.0_4J3GS505

会議情報

主催: 一般社団法人人工知能学会

会議名: 2025年度人工知能学会全国大会（第39回）

回次: 39

開催地: 大阪国際会議場＋オンライン

開催日: 2025/05/27 - 2025/05/30

エージェントタスクにおけるProcess Reward Modelの構築と探索手法への適用の有効性検証

*今井裕雅, 坂本航太郎, 小島武, 岩澤有祐, 松尾豊

著者情報

キーワード: 大規模言語モデル, エージェント, 報酬モデル

会議録・要旨集フリー

詳細

抄録

近年，大規模言語モデルの能力向上に伴い，外部ツールを用いて環境とインタラクションをするエージェントとしての活用がひろがっており，さらなる性能向上が求められている．推論ステップごとに報酬を付与するProcess Reward Model (PRM)をエージェントタスクのWebShopに適用し，探索（Beam Search）に活用することでタスク解決精度を向上させることを確認した．また，同程度の計算コストをかけた手法（Majority Voting）よりも安定して高い精度を達成できることが分かり，エージェントタスクにおいてPRMを用いた探索の有効性が示唆された．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）