人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 4J3-GS-5-05
会議情報

エージェントタスクにおけるProcess Reward Modelの構築と探索手法への適用の有効性検証
*今井 裕雅坂本 航太郎小島 武岩澤 有祐松尾 豊
著者情報
会議録・要旨集 フリー

詳細
抄録

近年,大規模言語モデルの能力向上に伴い,外部ツールを用いて環境とインタラクションをするエージェントとしての活用がひろがっており,さらなる性能向上が求められている. 推論ステップごとに報酬を付与するProcess Reward Model (PRM)をエージェントタスクのWebShopに適用し,探索(Beam Search)に活用することでタスク解決精度を向上させることを確認した. また,同程度の計算コストをかけた手法(Majority Voting)よりも安定して高い精度を達成できることが分かり,エージェントタスクにおいてPRMを用いた探索の有効性が示唆された.

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top