2025 年 70 巻 3 号 p. 90-97
自機関のホームページを学習させた文章生成AI(LM)内蔵のRAG型チャットボットを作成し,異なるLMの性能比較実験を行った。埋込用LM 2種(OpenAI text-embedding-3-large, Snowflake arctic-embed2)と応答用LM 5種(GPT-4o mini, Gemma3シリーズ1B-27B)の各組み合わせを比較した。3つの観点(①オープンな質問への回答能力,②クローズドな問いの正誤判定,③無関係な質問の回答拒否),で各10問(計30問)ずつ質問し,その回答を評価した。応答用LMのパラメータ数が大きいほど性能が向上し,Gemma3 27BはGPT-4o miniとほぼ同等の成績を示した。4B以上のモデルで無関係な質問を適切に拒否できたが,12B以下のモデルでは①②の観点の問いを的確に処理できなかった。実用的なRAG型チャットボットの構築にはGemma3 27Bクラス以上の応答用モデルが必要であることが示唆された。