2017 年 6 巻 1 号 p. 113-125
評定尺度を用いたテストや調査は幅広い分野で利用されるが,得られたデータは本来測定したい構成概念だけでなく,回答者の反応傾向をも反映してしまうという問題点がある.この両者を分離可能なデータ収集法として係留寸描法が提案されており,とくに近年,現代テスト理論に立脚した係留寸描データのベイズ多次元IRT 型モデルが提案された.こうした中で,本研究では先行研究を3 点において拡張した.第1 に,数値的なベイズ推定法および予測の観点からみて妥当性の高い情報量規準である,WAIC とPSIS-LOO を用いたモデル選択を導入した.第2 に,項目パラメータと回答者パラメータの双方を含んだ多値型の2 次元IRT モデルのような複雑な構造に適する,ハミルトニアンモンテカルロ法を用いて事後分布からのサンプリングを行った.第3 に,提案手法を2 つの新たな実データに適用し,結果の汎用性を検証した.その結果,いずれのデータにおいても,提案手法を用いた係留寸描法による補正の効果が明確に示された.評定尺度を用いた計量分析における,回答者の反応傾向を用いて素点を補正することの重要性と,現代テスト理論に基づくモデルの有用性が確認された.
The raw scores obtained from the rating-scale method reflect not only the construct of interest in the test but also the response styles of the respondents. The method of anchoring vignettes was developed in order to distinguish between the two. A method for anchoring vignettes data based on the multidimensional item response theory (MIRT) was proposed recently; it has an advantage because it is based on the well-established modern test theory. The current study extends this framework in the following manner. First, an improved statistical model selection is introduced, based on the Watanabe-Akaike information criteria and leave-one-out cross-validation using pareto-smoothed importance sampling. Second, the Hamiltonian Monte Carlo estimation algorithm, which has a numerical advantage in complex models, such as the current one, is introduced. Third, two empirical datasets are comparatively analyzed using the proposed method. The results consistently indicate the utility of the bias-correction based on the anchoring vignettes and MIRT model. The study also discusses the importance of correcting the raw scores and usefulness of the MIRT-based model.
評定尺度を用いたテストや調査は,心理学・教育学をはじめとする学問分野や,マーケティングのような企業活動等で幅広く利用されている.しかし,評定尺度法の根源的な問題点として,項目内容とは無関係なそれぞれの回答者の持つ尺度使用の傾向,すなわち反応傾向(response style)の影響が避けられないことがある( Baumgartner&Steenkamp, 2001).反応傾向の主な種類としては次のようなものが挙げられる( 田崎・二ノ宮, 2013).(1) 極端な選択肢を選ぶ傾向である,極端反応傾向(Extreme Response Style; ERS).この反応傾向を持つ回答者は,5 件法では,1(とてもあてはまらない)や5(とてもあてはまる)を選択しやすい.(2) 中間の選択肢を選ぶ傾向である,中間反応傾向(Midpoint Response Style; MRS).5 件法では,3(どちらでもない)を選択しやすい.(3) 項目文に賛成する選択肢を選ぶ傾向である,黙従反応傾向(Aquiescence ResponseStyle; ARS).5 件法では,4, 5 を選択しやすい.(4) 項目文に反対する選択肢を選ぶ傾向である,非黙従反応傾向(Disacquiescent Response Style; DRS,DARS).5 件法では,1, 2 を選択しやすい.
近年,大規模な国際比較調査からも反応傾向は結果に小さくない影響を与えることが示されており( Mõ),評定尺度法を用いた研究で反応傾向を無視することは危険と考えられる.しかしながら,実際のところ評定尺度法を用いた応用研究では,反応傾向の影響は考慮されていないことが多い.
King, Murray, Salomon, and Tandon (2004) は,反応傾向を考慮した評定尺度データの収集方法として,係留寸描法(anchoring vignettes method)を提案した.係留寸描法では,複数人の仮想人物について描写した短文(寸描)を回答者に読んでもらい,回答者にその仮想人物についての評定を行わせ,その後,回答者自身についての評定を行わせる.たとえば,測定したい構成概念が抑うつの度合いである質問紙であれば,抑うつの重症度が異なるような複数人の仮想人物を寸描で描写し,回答者にその抑うつの程度を評定してもらう.ここで得られた評定には,回答者自身の抑うつの程度は反映されないが,回答者の反応傾向は反映されると考えられる.一方,回答者自身についての評定項目では,回答者の反応傾向と抑うつの程度の,両方が反映されると考えられる.このように,反応傾向と測定したい構成概念との両方を含む測定と,反応傾向だけを反映する測定の両方を行ってこの両者を分離することにより,反応傾向の影響を除いた,本来の目的となる構成概念についての測定が可能となる.これが係留寸描法の基本的なアイディアである.
広く行われている従来型の評定尺度法では,反応傾向と測定したい構成概念の両者が測定値には含まれてしまっている.一方,両者を分離できる係留寸描法は,幅広い分野に活用されうると考えられる.一方で,係留寸描法によって得られたデータから,回答者の反応傾向と測定したい構成概念とを分離して推定するための統計学的方法論が重要となる.
King et al. (2004) は,係留寸描法の提案と同時に,上記の目的で用いるためのパラメトリックおよびノンパラメトリックな推定法を提案した.しかし,前者は項目反応理論(item responsetheory)のような現代テスト理論に立脚した方法ではなく,心理・教育測定に関する多くの知見を活用できないという問題点がある.また,実用上のデータへの当てはまりがよくないことも指摘されている(van Soest&Vonkova, 2014).一方のノンパラメトリック法はモデルベースな方法でなく,結果の一般化可能性に難点がある.
近年 Bolt, Lu, and Kim (2014) は,係留寸描法によって収集したデータに対し,ベイズ多次元IRT(Bayesian multidimensional item response theory)型モデルを提案した.このモデルは回答者r について θ r と s r という2 つの潜在変数を含む多(2) 次元IRT モデルの一種であり,以下で述べるように係留寸描データを扱うための構造を持つ.Bolt らの提案した反応傾向のパラメータを含むモデル(反応傾向を統制するモデルなので,以下統制モデルと呼ぶ)では,回答者 r が項目 i に対して k 番目の評定カテゴリを選択する確率を

と表現する.なお今回扱うデータはすべて5 件法の項目であるため,本稿では反応カテゴリを K = 5とする.ここで, θ r は回答者 r についての本来測定したい構成概念を表す潜在変数である. c i = { c ik } は項目 i についてのカテゴリ k の選択されやすさを規定する切片パラメータであり,解答者r の潜在説明変数 θ r , s r がともに0 のとき,この値が大きいカテゴリほどより選択されやすくなる.この解釈は,よく利用される項目反応モデルの1 つである名義カテゴリモデル( nominalcategories model; Bock, 1972 ) の線形予測子における切片パラメータ( Thissen & Cai, 2016 を参照) と同様である. s r = { s rk } は,回答者 r の各カテゴリに対する反応傾向を表すパラメータである. s rk が正の値であることは回答者 r が k 番目のカテゴリを回答しやすい反応傾向を持つことを表し,負の値であることはそのカテゴリに回答しにくいことを,0 であればどちらでもないことを表す.たとえば, s r = (2,−1.3,−1.3,−1.3, 2)′ a i は質問紙で測定したい特性の項目 i におけるカテゴリ間隔であり,寸描の仮想人物を評定する項目では a i = (0, 0, 0, 0, 0)′ a i = (−2,−1, 0, 1, 2)′ θ r , s r , c i の3 つのパラメータを推定するのに対して,寸描評定項目では実際に推定するパラメータが s r , c i の2 つのパラメータになるのが一般的な多次元IRT モデルと異なる大きな特徴である.さらに,識別性のため, c i と s r は,それぞれ項目 i ,回答者 r のカテゴリ全体で中心化 するという制約を加える(i.e., Σ h c ih = 0, Σ h s rh = 0).
反応傾向を統制しないモデル(以下非統制モデル)は,回答者全員についてとくに反応傾向の影響がないとしたモデルであり,したがって(1) 式で s r = 0 とした場合として

と表現される.
Bolt et al. (2014) は,上記のモデルをWinBUGS ( Lunn, Thomas, Best, & Spiegelhalter,2000) で実装し,誠実度を測定する調査データについてDIC ( Deviance Information Criterion;Spiegelhalter, Best, Carlin, & van der Linde, 2002) を用いてモデル比較を行い,統制モデルが支持されたことを報告した.3 節で述べるように,本研究でも,このモデルの尤度を利用する.
2.2. 本研究の目的Bolt et al. (2014) は,現代テスト理論とベイズアプローチに立脚した反応傾向バイアスの補正法を与えるという点で意義深い研究である.しかしながら,以下に述べるようにいくつかの課題が指摘できる.
第1に,彼らはDIC によるモデル比較を行っている.DIC はベイズ推定のために広く普及し たソフトウェアWinBUGS が既定で出力する指標であり,広く利用されてきた.しかし近年,実 用的なパラメータ数の多いモデルではその算出上不可欠な近似が使えないなど適用にあたっての 理論的根拠に欠けること( Plummer, 2008),実際の変数選択や予測の問題でも必ずしも適切に働 かず,モデルの複雑さを十分考慮できていないこと( van der Linde, 2005) など,問題点が各所 で指摘されている.
第2に,Boltらは推定のためにソフトウェアWinBUGS を用いており,そこではスライスサン プリング( Neal, 2003),メトロポリスサンプリング( Metropolis et al., 1953; Hastings, 1970), 各種棄却サンプリング( Gilks, 1992) といったマルコフ連鎖モンテカルロ(MCMC)法のアルゴリ ズムが利用される( Lunn et al., 2000).しかし,回答者パラメータと項目パラメータをともに含 む多次元IRT モデルのような複雑性の高いモデルにおいては,こうした従来型のMCMC アルゴ リズムでは収束までに必要なサンプリング回数が多く,サンプリングの効率性が低い可能性があ る. Stan Development Team (2015a) は,潜在変数が多いIRT モデルにおいて従来型のMCMC アルゴリズムによる推定が困難であることを述べている.実際,Bolt らはいくつかのモデルで当 初設定した10,000 回の繰り返しでは収束条件が満たされず,追加のサンプリングが必要であった ことを報告している.そのうえ,単一の連鎖による推定であったため,真の事後分布に解が収束 していない可能性もある.
第3に,Bolt らの主眼はモデルを提示することにあり,実際に同論文中でその手法を適用した のは1つのデータセットのみであった.著者らの知る限り同方法を用いた研究はほかに行われて おらず,異なるデータへの汎用性については,現時点では知見がない.
そこで本研究では,上記3 点の先行研究の課題に取り組む.1 点めについては,WAIC ( widely applicable information criterion; Watanabe, 2010) およびPSIS-LOO ( Pareto smoothed importance sampling leave-one-out cross-validation; Vehtari, Gelman, & Gabry, 2016a) をモデ ル比較に用いる.WAIC は予測分布から導出された情報量規準であり,また漸近的にleave-one-out 交差検証と結果が一致する.またPSIS-LOO はleave-one-out 交差検証をパレート平滑化を用い て近似する規準であり,より頑健であるとされている.この両者はいずれも高い汎用性と理論的基 盤を持つ.また,DIC もこれらと同様に予測の観点から導出された指標であるが, Vehtari et al. (2016a) や Pan and Pandey (2016) が述べるように,DIC は事後分布全体の情報を用いることな く点推定値に要約してしまっている.これに対し,WAIC やPSIS-LOO はすべてのMCMC 標本 を用いて事後分布全体の情報を利用するため,DIC に代わってこれらをモデル選択に利用するこ とは理にかなうと考えられる.両指標の導出やその特徴などの詳細については Gelman, Hwang, and Vehtari (2014), Vehtari et al. (2016a), Watanabe (2010) を参照されたい.
2点めについては,本研究ではハミルトニアンモンテカルロ( Hamiltonian Monte Carlo, HMC; Neal, 2011) 法を用いた事後分布からのサンプリングを行う.この方法は,物理学におけるハミルトニアン力学を基に考案された手法であり, 複雑なモデルでも自己相関が低く効率性の高い事後分 布からのMCMC 標本を取り出せることに特長がある.近年,それまでHMC 法の難点とされて いたチューニングパラメータの選択を動的・適応的に自動調整するNUTS ( No-U-Turn Sampler; Hoffman & Gelman, 2014) という手法が提案され,その実用性が一層高められた.本研究でも HMC 法のチューニングパラメータの設定にはこのNUTS アルゴリズムを採用する.HMC アル ゴリズムの詳細については, Gelman, Carlin, Stern and Rubin (2014), Kruschke (2014) を,和 文では, 豊田(2015) などを参照してほしい. Gelman, Lee, and Guo (2015) は,通常のIRT モ デルにおいて,ハミルトニアンモンテカルロ法を用いた推定における収束がMetropolis-Hastings 法を用いた場合よりも非常に速いことを報告している.以上を踏まえ,本研究では,独立な4 本 の連鎖による推定を行い, Gelman and Rubin (1992) の収束判定により,事後分布に解が収束 していることを確認する.この収束判定法は,本稿での推定のように複数の連鎖を用いた事後分 布からのサンプリングを行う際に推奨される方法である( Stan Development Team, 2015a).
3点めについては,本研究では4節で述べるように,新たに2つの係留寸描データを分析する. また,さらなる後続の研究の便宜を図るため,本研究で開発・利用したR およびStan のコード をOpen Science Framework 1 にて公開する.
本研究では,2.1 節で述べた Bolt et al. (2014) におけるモデルと同じ尤度を利用した.一方 で,パラメータの事前分布の設定には,以下で述べるように本研究での応用上の文脈に適した設 定とするため,若干の変更を行った.まず, Bolt et al. (2014) は国際比較データを扱っており, 国ごとの違いを表すためθ c i については,通常の名義カテゴリモデルなどで行われるように, 識別性のためそれぞれ項目 i のカテゴリ全体で中心化されているという制約を加えた.ここで, Bolt らはこの制約を直接ベイズモデルに組み込まず,標本平均をMCMC の各ステップで引き算 する事後処理(post-processing)によってアドホックにこれを実装している.しかし,この方法は 直接的には正則(proper)にならない事後分布について,各ステップごとにMCMC 法によるサン プリングとは別個に事後処理を行うものであるため,事前分布の与える影響を定量的に評価でき ないという問題がある.また,こうした設定はStan で用いるNUTS ではアルゴリズムが発散し てしまい利用できない( Stan Development Team, 2015a, Chapter 20; Carpenter, 2016).した がって,本研究ではWinBUGS とStan で推定の条件を揃えるため,モデルの一部として明示的 にこの制約を含む事前分布を設定した.具体的には,

という変換を経たのち,

とする,リパラメタリゼーションと分布の設定を用いた.この中心化のためのリパラメタリゼーションと,半コーシー分布の事前分布への利用は,効率性と頑健性を兼ね備えており近年推奨されることが多い( Gelman, 2006; Polson, & Scott, 2012, Stan Development Team 2015a).さらに,Bolt らの統制モデルでは,測定したい特性θ s r との間に相関がある場合を考え,その事前分布として多変量正規分布を設定を行っている.しかし本研究では本来測定したい特性と反応傾向の間に相関を考えるのに十分な知見が見いだせないため,両パラメータを独立に推定した.すなわち,θ

と独立で同一な分布にしたがうことを仮定した.また, s r の事前分布は c i についてと同様の識別性のための制約を持つ事前分布


を設定した.
半コーシー分布の超パラメータについては,事前に感度分析を行い, half -Cauchy (0, 2.5), half -Cauchy (0, 5), half -Cauchy (0, 10) の3 条件を比較した.感度分析により,結果の一貫性を確認できたため,収束効率のもっともよかった half -Cauchy (0, 2.5) を採用した.
前節で述べた係留寸描データのためのベイズ多次元IRT モデルについて,従来型のMCMC アルゴリズムによる推定と,HMC を用いた場合との小規模な比較を行った.具体的には,前節で述べた反応傾向統制モデルをWinBUGS とStan の2 つのソフトウェアを用いて実装し,前者を用いた従来型のMCMC アルゴリズムと,後者を用いたNUTS アルゴリズムによるチューニングパラメータの適応的決定を伴うHMC 法アルゴリズムとで推定を行った.比較に際し,後述のセルフケア障害に関する係留寸描法データ(N=1,010)から200 名分のデータをランダムサンプリングし,全ての比較でサンプリングの際の乱数のseed 値を変更した.そして,それぞれについてWinBUGS とStan での推定を行った.MCMC のサンプリング回数は2,000 回に設定し,バーンイン期間として最初の1,000 回分は破棄することとした.また,異なる初期値から3 本の独立な乱数列を使用した.
しかしながら,Stan ではすべてのデータにおいてサンプリングが適切に行われたのに対し,WinBUGS によるパラメータ推定ではすべての場合においてサンプリング回数が500 回にも満たないうちに途中で推定が停止してしまった.20 回の分析におけるサンプリングが行えた回数のグラフを図 1 に示す.具体的には,WinBUGS の推定中に undefined real result というトラップ(エラー)が発生した.これは,WinBUGS 上のモデル設定およびデータの読み込み・動作は正常だが,MCMC サンプリング過程で極端に大きいもしくは小さな乱数値が生成され,除算が行えないなどの理由で推定が停止してしまうエラーである( Spiegelhalter, Thomas, Best, & Lunn,2003).筆者らはモデルの記法を変更する,緩和法(overrelaxation)を併用するなどさまざまなことを試行したが,この問題を解消することはできなかった.この比較検証に使用したWinBUGSとStan, R のコード及び次節のコードは2 節同様のWeb サイトにて公開する.ここで示した記法および結果は我々の試行の中では最も長くサンプリングが行えたものである.以上のように,前節の中心化のためのリパラメタリゼーションの設定と事前分布に基づいた多次元IRT モデルに対してWinBUGS を用いた従来のMCMC アルゴリズムによる推定は困難であった.

本研究では,新たな2つの係留寸描法データを分析した.1つめは回答者の睡眠障害傾向を測定するための係留寸描データ(sleep)である( King&Wand, 2007).欠損値をリストワイズ除去した,完全データのサンプルサイズは988 人であった.質問項目は各6 項目で,5 項目が仮想人物を評定する項目,1項目が回答者自身を評定する項目であった.2つめは,回答者のセルフケア障害の程度を測定するための係留寸描データ(selfcare)である( King&Wand, 2007).完全データのサンプルサイズは1,010 人であった.質問項目は各6 項目で,5項目が仮想人物を評定する項目,1 項目が回答者自身を評定する項目であった.両データセットはR のanchors パッケージ( Wand, King,&Lau, 2011) より入手できる.
分析は統計分析ソフトR とStan Ver 2.9.0 ( Stan Development Team, 2015b) を使用した.両推定において,ハミルトニアンモンテカルロ法のサンプリングは5,000 回行い,バーンイン期間として2,500 回分の標本を破棄して残りの2,500 回分のMCMC 標本で事後分布を構成した.いずれの場合にも,1 回の推定あたり,4 本の独立な乱数列を事後分布から発生させた.WAICおよびPSIS-LOO の算出には,R のLOO パッケージ( Vehtari et al., 2016a) を用いた.
5.1. sleep データ
トレースプロット目視による収束判定および,
Gelman and Rubin (1992) の収束判定を行った.前者の収束判定法では,サンプリングに用いた4本の独立な乱数列が極端な外れ値をとっていないことや,乱数の初期値に大きく依存していないこと,4本の独立な乱数列が十分にミキシングしていることをすべてのパラメータで確認した.後者の収束判定法は,複数の乱数列における各乱数列内の分散と各乱数列間の分散の比を利用した指標であり,通常算出した
の値が1.1よりも小さければ収束したと考えて問題ないとされる(
Gelman and Hill, 2007).今回の推定では,すべてのパラメータで
< 1.1 となったため収束したと判断した.
その後,各モデルにおけるWAIC およびPSIS-LOOを算出し,モデル比較を行った(表 1).統制モデルにおけるWAIC とPSIS-LOOは非統制モデルよりも小さく,予測の観点から統制モデルがよいモデルであることが示された.また,( Vehtari, Gelman, and Gabry (2016b) がWAICとLOO は非常に類似した値をとることがあると報告しているように,本研究の推定においてもWAIC 及びPSIS-LOO の値は,小数第2 位で四捨五入を行うと表中では等しい値となった.

そこで,統制モデルで実際に推定された最初の10人分の反応傾向の事後平均値を例として,表 2にまとめた.たとえば,9番目の回答者の反応傾向は, s 9 = (−0.28,−0.01, 0.82,−0.37,−0.15)′ s 3 = (−0.67,−0.09, 0.22, 0.81,−0.27)′

次に,反応傾向を統制することによって,どれだけ各回答者の特性値に影響があるかについて検討を行うため,非統制モデルと統制モデルのθ 3 にまとめた.特に,事後平均値に着目した場合,全体的な傾向は同じであるものの,回答者ごとに見るとθθ 3の結果から,反応傾向を考慮することによって,素得点だけから考えるよりもこうした回答者の睡眠障害傾向は低めだといえることになる.

さらに,統制モデルにおける項目パラメータの挙動を確認するために,相対的な各評定カテゴリの選択されやすさを表す c i の事後平均値を表 4にまとめた.たとえば,項目1における5つの評定カテゴリ内では,1 番目の評定カテゴリが最も選択されやすく,2番目,3番目... と順に選択されやすさが低下していき,5番目の評定カテゴリが最も選択されにくいことが示されている.複数の項目について,5番目や1番目といった極端な評定カテゴリは,中央付近の評定カテゴリに比べて選択されやすさが下がりやすい傾向が見られた.
5.2. selfcare データsleep データ同様にすべてのパラメータの収束を確認した後,各モデルにおけるWAIC およびPSIS-LOO を算出し,モデル比較を行った(表 5).統制モデルにおけるWAIC とPSIS-LOO は非統制モデルよりも小さく,予測の観点から統制モデルがよいモデルであることが示された.また,selfcare データにおいてもWAIC 及びPSIS-LOO は非常に類似した値をとった.


そこで,統制モデルで実際に推定された最初の10人分の反応傾向の事後平均値を例として,表 6 にまとめた.たとえば,6番目の回答者の反応傾向は, s 6 = (−0.41, 1.57, 0.07,−0.66,−0.43)′ 傾向は, s 10 = (0.20,−0.64, 1.54,−0.64,−0.47)′ 応傾向を持つと考えられる.

次に,反応傾向を統制することで,どれだけ項目内容の変化に影響を与えるかについて検討を行うため,非統制モデルと統制モデルのθ 7 にまとめた.sleep データ同様,全体的傾向はおよそ同じであるものの,反応傾向を統制することの効果の大きさには個人差が見られた.大きなθθ
そして,統制モデルにおける項目パラメータの挙動を確認するために,相対的な各評定カテゴリの選択されやすさを表す c i の事後平均値を表 8 にまとめた.全体的には,sleep データの場合と同様に,5 番目や1 番目といった極端な評定カテゴリは,中央付近の評定カテゴリに比べて選択されやすさが下がりやすい傾向が見られた.


本研究の目的は, Bolt et al. (2014) による評定尺度の反応傾向を考慮した係留寸描データのベイズ的項目反応モデルの研究を,3 点で拡張することあった.第1 に,先行研究で用いられたDIC よりも高い汎用性と理論的基盤を持つ,WAIC およびPSIS-LOO の情報量規準をモデル比較指標として利用し,統計的モデル比較を行った.結果として,分析した2 つのデータのいずれにおいても,予測の観点から見て回答者の反応傾向を統制するモデルが明確に支持された.第2に,先行研究では収束に必要なサンプリング回数とその効率性が課題として挙げられていた.本研究では,近年の方法論的発展を踏まえ,ハミルトニアンモンテカルロ法を用いた事後分布からのサンプリングとBolt らの使用したWinBUGS の従来型のMCMC アルゴリズムを用いた事後分布からのサンプリングとの比較検証を行った.その結果,本研究で提案されたBolt らのモデルをWinBUGS を用いて推定を完了することはできなかった.一方,Stan を用いたHMC 法によるサンプリングでは早い段階において事後分布への収束が示され,効率的な推定が行われていることが確認された.このことから,Stan に搭載されているHMC 法によるサンプリングが係留寸描法の多次元IRT モデルを分析する際に,WinBUGS の従来のMCMC アルゴリズムによるサンプリングよりも有効なツールとなり得るであろう.そして,第3 に,先行研究では1 つのデータセットしか実際に分析しておらず,モデルの汎用性が未知数であった.本研究では新たに2 つのデータを分析し,反応傾向を統制するモデルを支持する結果の一貫性や,補正の効果を確認した.これにより,評定尺度を用いるテストや調査データにおいて,ベイズアプローチによる多次元IRT モデルと係留寸描法を用いて回答者の反応傾向を補正することの意義や重要性が改めて明らかになったと言える.
今後の研究の展開としてはさまざまな方向性が考えられる.まず,複数の観測変数で構成するデータを用いて,測定の信頼性を高めることが挙げられる.本研究で利用したものを含め,大半の係留寸描法によるデータでは,寸描以外の回答者の特性を測定する項目は単一項目である.これは係留寸描法が政治学の世論調査のために誕生したという経緯に由来する.しかし,構成概念をテストで測定するという心理学・教育学のような応用場面では,その文脈に沿った複数の観測変数で構成するデータを用いることは有用であろう.また,多値型のIRT モデルには多値反応(polytomous response)モデルや段階反応(graded response)モデルなどさまざまなモデルがあり,これらのモデルを係留寸描データ用に拡張することも可能と考えられる.こうしたモデルは筆者らの知る限りまだ提案されておらず,有用な将来の研究の方向性となりうるであろう.
冒頭に述べたように,現在のところ心理学や医学分野での大半のテストや調査を用いた研究において,回答者の反応傾向は考慮されていない.本研究の結果をふまえると,既存のテストや調査を用いた研究結果に反応傾向がどれだけの影響を与えているか,またそれを統制した場合に既存の知見がどれだけ変わりうるのかといったことについて,さらなる研究を進めることが有意義と考えられる.
本研究はJSPS 科研費16K13470 の助成を受けたものです.また,最終稿に至るまでの過程で大変有益なコメントをくださいました複数の査読者および編集委員会の皆様に厚く御礼申し上げます.