主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
企業におけるシステム開発業務などの効率化にLarge Language Model(LLM)の適用が期待されている。システム開発業務へLLMを適用する際には、LLMの性能がシステム開発業務の要件をどの程度満たしているかを評価する必要がある。評価方法として、人手で設計する評価観点を元に評価スコアをLLMで自動算出するLLM-as-a-Judge方法がある。しかし、評価観点の設計には、評価観点に業務要件を反映させる業務知識と、評価する各種LLMの知識とを理解する人が必要になる。本研究では、それらの知識が無くても業務要件に基づいたLLMの評価を自動で実現する方法を提案する。予め用意する業務に関わる質問に対して2つ以上のLLMに対して回答させ、これらをLLMで比較させて業務特有の評価観点を生成する。続いて、AHPを用いて重みづけした観点を元に、LLMで絶対評価を行いLLMの評価スコアを算出できるようにした。システム開発の設計書レビュー業務を題材に、5つのLLMを対象に実験を行い、この中ではgpt-4系のLLMが当該業務の要件に基づく性能を満たすことを確認した。