主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
バイナリコードの機能推定は,マルウェア解析や脆弱性検出においてソースコードが入手できないプログラムを解析する際に有用である.バイナリコードは関数名や変数名などのシンボル情報が欠けているため,ソースコードと比べて理解が難しく,解析には高度な技術と多くの時間を要する.近年の大規模言語モデル(LLM)は,自然言語やソースコードの理解において顕著な能力を示しているものの,バイナリコードへの応用可能性についてはまだ明らかになっていない.そこで,本研究ではLLMをバイナリコードの機能推定に応用することを目指し,関数名推定タスクに取り組む.提案手法では,Gemini Proを使用して関数名推定の根拠を抽出し,その根拠と関数名を用いてCode Llamaをファインチューニングする.評価実験の結果,根拠と関数名を学習させることで,関数名のみでファインチューニングした場合と比較して性能が向上した.さらに,Chain-of-Thought Promptingを適用したGemini Proの性能をも上回る結果が得られた.