人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 2E4-GS-6-01
会議情報

ニューラル機械翻訳を用いた多言語コード検索データセットの構築
*関澤 瞭DUAN NanLU Shuai谷中 瞳
著者情報
会議録・要旨集 フリー

詳細
抄録

コード検索は,与えられた自然言語クエリに意味的に対応するプログラミングコードを見つけるタスクである.これまでに作成されたコード検索タスクのデータセットでは,プログラミング言語データは多言語化されている一方で,自然言語データは英語に限られていた.本研究では,ニューラル機械翻訳モデルを使用することで,4つの自然言語と4つのプログラミング言語を含む多言語コード検索データセットを作成する.また,作成したデータセットを用いて事前学習済み多言語モデルを学習し,複数のコード検索テストセットによる評価を行う.実験の結果,自然言語とプログラミング言語の両方で全言語データを用いて事前学習を行ったモデルが,コード検索タスクにおいて多くの場合最も良い性能を示した.例外として,Pythonのテストセットで評価を行った際,事前学習に用いたプログラミング言語データがPythonのみのモデルがより良い性能を示した.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top