主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
コード検索は,与えられた自然言語クエリに意味的に対応するプログラミングコードを見つけるタスクである.これまでに作成されたコード検索タスクのデータセットでは,プログラミング言語データは多言語化されている一方で,自然言語データは英語に限られていた.本研究では,ニューラル機械翻訳モデルを使用することで,4つの自然言語と4つのプログラミング言語を含む多言語コード検索データセットを作成する.また,作成したデータセットを用いて事前学習済み多言語モデルを学習し,複数のコード検索テストセットによる評価を行う.実験の結果,自然言語とプログラミング言語の両方で全言語データを用いて事前学習を行ったモデルが,コード検索タスクにおいて多くの場合最も良い性能を示した.例外として,Pythonのテストセットで評価を行った際,事前学習に用いたプログラミング言語データがPythonのみのモデルがより良い性能を示した.