人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 1Win4-101
会議情報

LLMを用いた業務要件に基づくLLM自動評価方式
*西川 和寿加藤 正恭鹿糠 秀行
著者情報
会議録・要旨集 フリー

詳細
抄録

企業におけるシステム開発業務などの効率化にLarge Language Model(LLM)の適用が期待されている。システム開発業務へLLMを適用する際には、LLMの性能がシステム開発業務の要件をどの程度満たしているかを評価する必要がある。評価方法として、人手で設計する評価観点を元に評価スコアをLLMで自動算出するLLM-as-a-Judge方法がある。しかし、評価観点の設計には、評価観点に業務要件を反映させる業務知識と、評価する各種LLMの知識とを理解する人が必要になる。本研究では、それらの知識が無くても業務要件に基づいたLLMの評価を自動で実現する方法を提案する。予め用意する業務に関わる質問に対して2つ以上のLLMに対して回答させ、これらをLLMで比較させて業務特有の評価観点を生成する。続いて、AHPを用いて重みづけした観点を元に、LLMで絶対評価を行いLLMの評価スコアを算出できるようにした。システム開発の設計書レビュー業務を題材に、5つのLLMを対象に実験を行い、この中ではgpt-4系のLLMが当該業務の要件に基づく性能を満たすことを確認した。

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top