2024 年 2023 巻 FIN-032 号 p. 28-35
大規模言語モデル(LLM)の発展とともに、分野や言語に特化した言語モデルの構築の必要性が議論されてきている。 その中で、現在の大規模言語モデルがどの程度の性能を発揮するかを分野に特化して評価するベンチマークの必要性が高まっている。 そこで、本研究では、日本語かつ金融分野に特化した複数タスクからなるベンチマークの構築を行い、主要なモデルに対するベンチマーク計測を行った。 その結果、現時点ではGPT-4が突出していることと、構築したベンチマークが有効に機能していることを確認できた。一方で、それ以外のモデルのパフォーマンスも向上してきており、それらのモデルのパフォーマンス動向についても報告する。