2025 年 2025 巻 FIN-035 号 p. 75-82
本研究では、日本の不動産投資信託(J-REIT)が、有価証券報告書を通じて公開する、表形式及びテキスト形式で構成される物件情報を、大規模言語モデルを用いたアンサンブル手法を用いて構造化し、データセットを構築する手法を提案する。従来、有価証券報告書における物件情報は、HTML形式で表とテキストが混在しており、機械的な構造化は困難であった。そこで本手法では、複数の大規模言語モデルを用いたFew-shotプロンプティングにより、高精度な物件情報の構造化を実現した。大規模言語モデルは、学習データやモデルの特性の違いにより強みと弱みが異なることから、それぞれの出力を補完的に統合することで、構造化の精度向上を図った。また、大規模言語モデルが表中のテキスト内容を改変して出力していないか、事後的に検知する仕組みも導入し、手動による訂正作業の効率化を目指した。これらを通じて、手動による訂正作業の負荷を抑えたJ-REIT物件情報データセットの構築方法を提案する。