LODデータセットを探索する際、データセットのメタデータが充実していないため、キーワードによるデータセットの発見が難しい。また、データセットの記述内容を詳細に理解するには、直接データセットの中身を見る必要がある。そこで本研究では、LODの特性を考慮した2通りのベクトル生成手法を提案する。データセットのスキーマを表す特徴ベクトルを、GNNを用いた学習により取得する。また、データセットの個々の記述項目を表す特徴ベクトルを、LLMを用いて生成する。LODデータセット同士を比較できる特徴ベクトルを実データから抽出することで、データセットのメタデータに依存せずに探索の効率と質を向上させることができる。
Linked Open Data(LOD)の拡大に伴い、異なるデータセットを横断してSPARQLクエリを再利用する需要が高まっている。しかし、語彙やデータ構造の差異により、データセット間の対応関係に基づく厳密なクエリ変換を行っても、文法的には実行可能でありながら検索結果が0件となる場合があり、実用的な再利用性を保証できない。本研究では、厳密変換を出発点とし、結果が得られない場合に制約を段階的に緩和するQuery Relaxation手法を提案する。評価から提案手法は0件回避率を向上させる一方で、検索精度の低下を伴うことを確認し、回復効果と品質との間にトレードオフが存在することが明らかとなった。
近年,判決文のオープンデータ化が進展している.しかし,個人情報保護の観点から固有名詞等が伏字化されており,文脈の把握が困難である.一般社団法人日税連税法データベースでは,伏字箇所の可読性を回復するために,一貫した代替符号へ手作業で置換しているが,当該作業には時間を要する.本研究では,LLMを活用し,固有表現カテゴリ分類および実体同定に基づいて,判決文中の伏字箇所を対象とした代替符号置換手法を提案する.提案手法は,人手による検証を支援するため,置換箇所ごとに確信度を付与する.実データによる評価の結果,高確信度の結果を選別して利用することで,人手による代替符号置換作業を効率化できる可能性を示した.
知識グラフの埋め込みに基づく知識グラフ補完(KGC)では,閉世界仮説に基づく評価が主流である.しかし,LLMに基づくKGCでは,正解に存在しない事実を推論する可能性がある.そのため,可変プロパティに対しては,従来の評価方法では性能を適切に測定できないという課題がある.本研究では,Wikidataの編集履歴に基づき,更新頻度と編集間隔を統合した「不変性スコア」を設計し,プロパティの不変性を定量化する手法を提案する.不変性スコアにより,不変プロパティと可変プロパティを判別し,それぞれに適した評価方法を選択する枠組みの確立を目指す.実験の結果,本スコアは人手評価との間に一定の相関を示した.
Wikidataを対象としたLLMに基づく従来エンティティリンキング(EL)手法は,既存のELモデルやWikipediaに依存している.そのため,既存ELモデルの性能に制約される.また,WikidataとWikipedia間の同値関係を維持する必要があるという課題もある.本研究では,Wikidataを対象としたメンション補助情報と検索拡張生成に基づくEL手法を提案する.英語EL用データセットを対象として評価した結果,商用LLMよりもパラメータ数の少ないオープンウェイトモデルを用いた提案手法は,商用LLMを用いた既存手法と同等の性能を示した
Society5.0等の社会システムでは、多様な主体がAPIを通じて機能やデータを提供し合う基盤環境が不可欠であるが、個別APIを整合させる従来アプローチは拡張性に課題がある。本研究では、本学提唱の「共創進化スマート社会」実現基盤を対象に、相互運用性を高める分類体系を検討する。同基盤は、機能・データへのAPIアクセス、人間とAIの協働、および安全性検証を統合し、社会の連続的進化を目指す。この循環を支えるため、APIを各主体が負う「責務の境界」と捉える。これは提供役割と入出力の概念定義を規定する単位となるもので、この責務境界を軸とするAPI分類体系を提示し、AI機能等への適用可能性を展望する。
KGQAにおけるマルチホップ推論や複合クエリは、探索空間の爆発とリレーション選択の曖昧性が課題である。本研究では、LLMに型パスとリレーションヒントを含む知識プログラムを生成させ、スキーマ制約に基づき最適化する手法「Extended Type-KoPL」を提案する。本手法は、型遷移を制約とするBFS、Few-shotプロンプト、LLMリランカーを特徴とする。MetaQAで平均98.2%と既存手法を上回り、専門知識と類似リレーションが混在するPrimeKG基盤のバイオ独自ベンチでも複合クエリ98%超を達成し、ドメインを跨ぐ高い汎用性と頑健性を実証した。
障害情報を記述し、根本原因分析(RCA)への活用を想定したナレッジグラフの仕様概要と作成方式について報告する。本ナレッジグラフは、個々の障害事例で観測された事象を記述する事例ナレッジグラフと、それらを抽象化した概念ナレッジグラフから構成されており、両者間にリンクを設定する事により、適切なRCAを実現する。
RAIの実践では、AIモデルの評価情報を体系的かつ機械可読に記述することが求められる。Accuracyに基づくベンチマーク数値により性能(Capability)が主張される一方、リスク(Risk)は主にテキストで語られ、その根拠となる定量評価との関係は明示されてこなかった。RobustnessやSafetyなど評価軸の多様化を受け、各軸における定量結果と定性的解釈を構造的に結び付ける必要が高まっている。本研究では CapabilityとRiskの非対称性を整理し、DQV と prov-o を用いた定量評価と解釈の連関を明示化する記述モデルを提案する。