主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
言語モデルが文章の構造や繋がりを認識できているかどうかを確かめることは、言語モデルを理解するにあたって重要な観点である。地名、人名などの固有表現は言語の主要な構成要素のひとつであり、言語モデルの理解にあたって、言語モデルにおける固有表現の認識に関する研究は重要なテーマである。大規模言語モデルでも同様に固有表現認識は重要であるが、一般の言語モデルと比べて固有表現認識のためのデータセットの整備などで研究の余地がある。 そこで本研究では、大規模言語モデルの学習データの固有表現かつ拡張固有表現階層の固有表現を含む新しいベンチマークデータセット「J-NER」を作成した。このデータセットを用いて、大規模言語モデルのGemini ProやGPT-3.5、ELYZAなどで評価したところ、正解率やF1スコアにバラつきが見られた。このことは、J-NERが大規模言語モデルの固有表現認識力を測定するのに有効であることを示唆する。J-NERを用いた評価を通じて、大規模言語モデルの固有表現認識能力に関する深い洞察が得られることが期待される。