逆翻訳によるコード文書生成の実行ベース評価法

髙野 志歩; 佐藤 美唯; 伊東 和香; 秋信 有花; 川口 貴子; 倉林 利行; 丹野 治門; 倉光 君郎

doi:10.11517/pjsai.JSAI2024.0_4Xin230

第38回 (2024)

セッションID: 4Xin2-30

DOI https://doi.org/10.11517/pjsai.JSAI2024.0_4Xin230

会議情報

主催: 一般社団法人人工知能学会

会議名: 2024年度人工知能学会全国大会（第38回）

回次: 38

開催地: アクトシティ浜松＋オンライン

開催日: 2024/05/28 - 2024/05/31

逆翻訳によるコード文書生成の実行ベース評価法

*髙野志歩, 佐藤美唯, 伊東和香, 秋信有花, 川口貴子, 倉林利行, 丹野治門, 倉光君郎

著者情報

キーワード: 大規模言語モデル, 逆翻訳, 実行ベース評価, 自動評価ツール

会議録・要旨集フリー

詳細

抄録

ソフトウェア開発において，コード文書はソフトウェアの理解と維持に必要不可欠である．人手によるコード文書の作成と維持にはコストがかかるため，LLMを用いたコード文書の自動生成が期待されている．しかし，従来の字句ベース評価では意味的な解釈を考慮できず，参照テキストの準備にも高いコストがかかるという課題がある．この課題を解決するため，本研究では逆翻訳による実行ベース評価法を提案する．提案手法では生成されたコード文書からコードを逆翻訳し，その実行結果をベースにコード文書の評価を行う．このプロセスにより，意味的な解釈や同義語，表現の多様性を含む評価が可能となる．本稿では，提案手法を実装した自動評価ツールlm-chaineval-harnessの紹介と，提案手法の検証実験について報告する．我々の開発するlm-chaineval-harnessでは，ユーザーが手軽に評価を行える環境を提供する．実験から，提案手法は従来の字句ベース評価と比較して，意味的な解釈を含めた評価が可能であり，同義語や表現の多様性を考慮できることが定性的に示された．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）