大規模言語モデルを用いたバイナリコードの機能推定手法

染谷 実奈美; 大塚 玲

doi:10.11517/pjsai.JSAI2024.0_4M1GS1005

抄録

バイナリコードの機能推定は，マルウェア解析や脆弱性検出においてソースコードが入手できないプログラムを解析する際に有用である．バイナリコードは関数名や変数名などのシンボル情報が欠けているため，ソースコードと比べて理解が難しく，解析には高度な技術と多くの時間を要する．近年の大規模言語モデル（LLM）は，自然言語やソースコードの理解において顕著な能力を示しているものの，バイナリコードへの応用可能性についてはまだ明らかになっていない．そこで，本研究ではLLMをバイナリコードの機能推定に応用することを目指し，関数名推定タスクに取り組む．提案手法では，Gemini Proを使用して関数名推定の根拠を抽出し，その根拠と関数名を用いてCode Llamaをファインチューニングする．評価実験の結果，根拠と関数名を学習させることで，関数名のみでファインチューニングした場合と比較して性能が向上した．さらに，Chain-of-Thought Promptingを適用したGemini Proの性能をも上回る結果が得られた．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）