J-NER:大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット

渋谷 優介; 澁谷 紘人

doi:10.11517/pjsai.JSAI2024.0_4Xin206

抄録

言語モデルが文章の構造や繋がりを認識できているかどうかを確かめることは、言語モデルを理解するにあたって重要な観点である。地名、人名などの固有表現は言語の主要な構成要素のひとつであり、言語モデルの理解にあたって、言語モデルにおける固有表現の認識に関する研究は重要なテーマである。大規模言語モデルでも同様に固有表現認識は重要であるが、一般の言語モデルと比べて固有表現認識のためのデータセットの整備などで研究の余地がある。そこで本研究では、大規模言語モデルの学習データの固有表現かつ拡張固有表現階層の固有表現を含む新しいベンチマークデータセット「J-NER」を作成した。このデータセットを用いて、大規模言語モデルのGemini ProやGPT-3.5、ELYZAなどで評価したところ、正解率やF1スコアにバラつきが見られた。このことは、J-NERが大規模言語モデルの固有表現認識力を測定するのに有効であることを示唆する。J-NERを用いた評価を通じて、大規模言語モデルの固有表現認識能力に関する深い洞察が得られることが期待される。

著者関連情報

お気に入り & アラート

閲覧履歴

A FEATURE EXTRACTION METHOD FOR RETRIEVING TRADITIONAL JAPANESE CRAFTING OBJECTS

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）