オープンデータポータルに代表されるデータカタログサイトを通じて、大量のデータセットおよびメタデータが流通している。タイトル・説明文などの属性に比して、時間範囲・地理的範囲といった属性の整備は限定的である。時間範囲・地理的範囲は、多様なデータセットを横断的に検索する際に重要な役割を果たす属性だが、これらが機能するためには設定値がなんらかの基準に従い、品質が担保されていることが前提となる。本研究では LLM による時間範囲・地理的範囲のメタデータ補完を試行し、その効果と限界を明らかにすることを目的とする。また、メタデータ補完のためのプロンプト設計として「JSON-LD穴埋め方式」を提案する。
シーングラフ生成 (Scene Graph Generation) は,与えられた画像内のオブジェクトを検出し,検出したオブジェクトのペアごとの視覚関係を検出する.シーングラフ生成は Visual Question Answering (VQA) など画像の視覚理解を必要とするタスクの基礎であり,精度向上させることは重要な課題である.しかし,現在のシーングラフ生成はデータセットが抱えるロングテール問題により精度向上が難しい課題となっている.本研究では,このようなシーングラフ生成の問題に対し,述語の意味に着目したデータサンプリングと二段階の学習を行うことによって精度が向上するか調査を行う.
我々は、2018 年から開催しているナレッジグラフ推論チャレンジの経験を活かし、高齢者の家庭内における危険な状況を検出して説明するシステムを募集するナレッジグラフ推論チャレンジ【実社会版】を2022年8月にサイト公開とともに作品の募集を開始し、2023年3月に最終発表・審査会を経て、2023年5月の審査結果発表まで9か月にわたって行ってきた。本稿では、ナレッジグラフ推論チャレンジ【実社会版】で提供するデータセット、タスクの概略を説明し、応募された作品の概要を紹介し、表彰された2作品についてその表彰理由を紹介する。
現在の大規模言語モデル(LLM)には学習データに存在しない知識について誤った情報を作り出して提示する問題があり,幻覚(Hallucination)として知られている.一方,Web上にはすでに様々なファクトデータが知識グラフとして存在しており,この知識グラフをLLMと接続することでHallucinationをある程度抑制できると考えられる.本研究では,テキストから知識グラフに対するクエリ言語SPARQLを生成する手法についてのこれまでの背景を整理する.また,LLMを用いてテキストからSPARQLクエリを生成する予備的実験を行い,今後の可能性を議論する。
Wikidata is a large-scale knowledge base which has more than one hundred million items. It is structuralized based on semantic web technologies such as RDF so that they are used as a Knowledge Graph. Wikidata is also linked to Wikipedia in various languages and provides language information for many languages, so it is expected to be used as a large-scale language resource. This paper discusses how Wikidata can be used as a large-scale language resource and introduces the linguistic information extracted from Wikidata.