主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
文や文書のベクトル化する技術は,いまや情報検索や文書分類など広範な自然言語処理アプリケーションの開発に不可欠となっている.しかし,文ベクトルの品質は長文では低下することが指摘されている.本稿では,文長によって文中の機能語や内容語の出現しやすさが変化することが,この文ベクトルの品質低下を引き起こすことを示す.まず,長文では内容語の割合が低下することを経験的・理論的に示す.次に,内容語の割合が小さくなることで異なるトピックの二文であっても文ベクトル同士の距離が小さくなることを,理論的・経験的に示す.これら二つの分析に基づき,文ベクトルの品質が長文では低下することを議論する.本稿で得られた結果は,内容語の影響力を文長に応じて動的に強める技術の必要性を示唆する.