LLMを用いた業務要件に基づくLLM自動評価方式

西川 和寿; 加藤 正恭; 鹿糠 秀行

doi:10.11517/pjsai.JSAI2025.0_1Win4101

抄録

企業におけるシステム開発業務などの効率化にLarge Language Model(LLM)の適用が期待されている。システム開発業務へLLMを適用する際には、LLMの性能がシステム開発業務の要件をどの程度満たしているかを評価する必要がある。評価方法として、人手で設計する評価観点を元に評価スコアをLLMで自動算出するLLM-as-a-Judge方法がある。しかし、評価観点の設計には、評価観点に業務要件を反映させる業務知識と、評価する各種LLMの知識とを理解する人が必要になる。本研究では、それらの知識が無くても業務要件に基づいたLLMの評価を自動で実現する方法を提案する。予め用意する業務に関わる質問に対して2つ以上のLLMに対して回答させ、これらをLLMで比較させて業務特有の評価観点を生成する。続いて、AHPを用いて重みづけした観点を元に、LLMで絶対評価を行いLLMの評価スコアを算出できるようにした。システム開発の設計書レビュー業務を題材に、5つのLLMを対象に実験を行い、この中ではgpt-4系のLLMが当該業務の要件に基づく性能を満たすことを確認した。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）