大規模言語モデルとヒューリスティクスに基づくreadme生成

是枝 祐太; 森下 皓文; 今一 修; 十河 泰弘

doi:10.11517/pjsai.JSAI2023.0_4Xin108

第37回 (2023)

セッションID: 4Xin1-08

DOI https://doi.org/10.11517/pjsai.JSAI2023.0_4Xin108

会議情報

主催: 一般社団法人人工知能学会

会議名: 2023年度人工知能学会全国大会（第37回）

回次: 37

開催地: 熊本城ホール＋オンライン

開催日: 2023/06/06 - 2023/06/09

大規模言語モデルとヒューリスティクスに基づくreadme生成

*是枝祐太, 森下皓文, 今一修, 十河泰弘

著者情報

キーワード: 自然言語処理, 大規模言語モデル, ソフトウェア工学, 言語生成

会議録・要旨集フリー

詳細

抄録

プログラムコードの再利用はソフトウェア開発における基本的な生産性向上方法であるが，コードレポジトリの説明文 (readme) は整備コストが高く，しばしばreadmeが整備されないことがコードの再利用を妨げている．近年報告された研究は関数・クラスなど数十行のコードに具体性の高いコメントを付与するが， readmeの生成においては数万から数百万行のコードを抽象的に要約して生成を行う必要があるため，コメント生成技術をreadme生成の問題にそのまま適用することはできない．本研究では，レポジトリが実施することの概要を示す代表的なコード断片 (代表コード) をヒューリスティクスと弱教師付き学習により抽出することで，大規模言語モデルでreadmeを生成できることを示した．主観評価と自動評価により，提案手法の有効性を確認した．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）