知識グラフ(KG)構築は、学術テキストからの複雑な情報抽出が課題であり、従来手法は人手に依存していた。本研究は、この課題に対する大規模言語モデル(LLM)の可能性を検証する。CiNii要旨8点を使用し、LLMGraphTransformer、KGGen、rahulnyk KGの3つのLLMベースKG構築手法を、専門家による構文的・意味的な正確性に基づいて比較評価した。結果、LLMベース構築は有望だが、精度とロバスト性の向上が不可欠であり、手法の選択は応用要件に厳密に合わせるべきであると結論づけた。
ナレッジグラフ質問応答(KGQA)は,ナレッジグラフ(KG)を用いて質問に答える課題である.KGは構造化された情報で構成されるため,質問に対して正しく論理的に回答するのを補助できる可能性がある.既存のKGQA手法は,情報抽出ベースの手法と意味解析ベースの手法に大別される.大規模言語モデル(LLM)の台頭により,エージェント的アプローチを適用したKGQA手法が提案されるようになった.本稿では,3種類のKGQA手法について,既存のKGQAデータセットを用いて様々な観点から分析し,各手法の強みと課題について議論する.
本研究では、新型コロナウイルス感染症患者の行動記録から濃厚接触者を推定するため、知識グラフ構造化にむけた作業手法を提案する。具体的には、感染リスクオントロジーCIROを参照しつつ、大規模言語モデルを用いてShape Expressionsを半自動生成する。次に、自然文で書かれた患者の行動記録データをLLMによりJSON形式に変換し、生成したShExファイルとともにLLMに入力することで意味的ならびに形式的に妥当なRDFデータを構築する。本手法により、感染症対応において人力に依存せざるを得なかった感染リスクに関わる情報処理を記号論理による自動処理へと効率化しうる可能性が期待される。
本稿では、短い文章に特化した既存データセットの課題を克服するため、5文以上で構成された10,000件の大規模かつ複雑な因果関係のカテゴリー(20種類)を含む、汎用性が高く、既存技術の向上余地を示す新規因果関係判定ベンチマークデータセットを、GPT-4.1を用いて生成し、PCAによる一様性評価と合わせて提案する。