「評価」の評価 言語モデル評価における構成概念妥当性について

佐藤 拓真; 菅原 朔

doi:10.11517/pjsai.JSAI2025.0_1P3OS1a04

抄録

深層学習を基盤とした言語モデル（LM）の発展は目覚ましく、自然言語処理（NLP）等の分野ではLMの性能向上を目指す研究や、モデルがもつ能力についての分析を行う研究が盛んに行われている。その双方で、モデルの性能測定・評価や、そこにおける得点の解釈は重要な役割を果たしており、多くのベンチマークや性能評価タスクが提案されている。それらの評価手法の良し悪しは、タスクの包括性や実践の容易さ、最先端のモデルにとっての難しさや頑健さといった実用的な観点に基づいて判断されることが多い。しかしながら、当該の測定手法が、そこで測定しようとしているモデルの性質や能力を過不足なく測定できているかや、その測定結果を用いた解釈や推論が十分に正当化されるかといった側面も、「評価方法自体の評価」において重要である。他方、測定や評価におけるこのような側面は、心理学において、構成概念妥当性理論として豊富な議論が蓄積されている。本稿では、構成概念妥当性やその確認方法についての導入を行い、NLPにおける実践の現状を整理しながら、経験的な構成概念妥当性確認の必要性とその実践方法を提案する。

著者関連情報

お気に入り & アラート

閲覧履歴

Two cases of solitary cystic dilatation of the intrahepatic bile duct

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）