ニューラル機械翻訳を用いた多言語コード検索データセットの構築

関澤 瞭; DUAN Nan; LU Shuai; 谷中 瞳

doi:10.11517/pjsai.JSAI2023.0_2E4GS601

抄録

コード検索は，与えられた自然言語クエリに意味的に対応するプログラミングコードを見つけるタスクである．これまでに作成されたコード検索タスクのデータセットでは，プログラミング言語データは多言語化されている一方で，自然言語データは英語に限られていた．本研究では，ニューラル機械翻訳モデルを使用することで，4つの自然言語と4つのプログラミング言語を含む多言語コード検索データセットを作成する．また，作成したデータセットを用いて事前学習済み多言語モデルを学習し，複数のコード検索テストセットによる評価を行う．実験の結果，自然言語とプログラミング言語の両方で全言語データを用いて事前学習を行ったモデルが，コード検索タスクにおいて多くの場合最も良い性能を示した．例外として，Pythonのテストセットで評価を行った際，事前学習に用いたプログラミング言語データがPythonのみのモデルがより良い性能を示した.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）