2017 年 6 巻 1 号 p. 101-112
多肢選択式は,客観式テストにおいて最も多く利用されている問題形式である.その多くはあらかじめ受験生に正答選択肢の数が示されているが,正答選択肢の数があらかじめ示されておらず「適切なものをすべて選べ」と問う問題形式もある.このような形式の問題の採点方法については様々な方法が提案されているが,最適な方法については定まっていない.
これまで提案されてきた方法の多くは,正しい判断をした選択肢の数や選択した正答選択肢の数などに基づいて部分点を与える方法である.本研究では,受験者による選択肢の選択を0/1 データが並んだ解答パタンとして捉え,正答/誤答選択肢の並びとの関連の強さや類似度に基づいて部分点を与える方法を新たに提案した.2種類の提案手法,MTF 法,NM 法の4 つの採点方法について検討し,その特徴を明らかにした.その結果,これらの中では得点の段階数の多さや計算の簡便さなどからJaccard 係数法の適切さが示された.なお,採点方法により得点の値は異なるものの,高得点となる解答パタンは採点手法間でおおよそ一致していた.
The multiple-choice (MC) format is the most widely used format in objective testing. The “select all the choices that are true” item is one variation of the MC format. This item has no instructions to indicate the number of correct choices. Although many studies have developed and compared scoring methods for this type of item, the results have often been inconsistent.
Most scoring methods that have been developed are based on the number of choices correctly selected. In this study, we treated the response patterns of examinees as binary variables and we proposed new scoring methods based on the similarity or the degree of association between response patterns and key patterns. Two proposed methods, the multiple true-false (MTF) method, and the negative marking (NM) method were compared and their characteristics were revealed. Among these methods, the Jaccard index method was considered to be appropriate from the viewpoint of score diversity and calculation simplicity. The results showed that the response patterns with high scores were basically identical for the methods.
多肢選択式は,客観式テストにおいて最も多く利用されている問題形式である.その多くは,正しい選択肢(正答選択肢)が1 つだけであり,受験者は複数の選択肢の中から1 つだけ選択する.このような形式の問題の採点は,正答選択肢を選択した場合のみ加点され,それ以外は0 点とする二値採点であり,部分点は無いのが通常である.しかし,多肢選択式とは「あらかじめ選択肢として複数用意された質問に対する答のリストの中から適切なものを選ぶという形の質問形式」( 日本テスト学会(編),2007)である.正答選択肢が複数ある問題形式も存在し,そのような問題形式では受験者の選択した選択肢に応じて部分点を与えることが可能となる.このうち,「正答選択肢の数があらかじめ示されている」形式であれば,選択された正答選択肢の数に比例させるなどの分かりやすい方法で部分点を与えることができる.しかし,「正答選択肢の数があらかじめ示されていない」形式では正答選択肢の数も問題で問うている内容の一部であるため,そのような方法で部分点を与えることはできない.
1.1. 正答選択肢をすべて挙げる形式の問題とは正答選択肢をすべて挙げる形式の問題とは,受験者があらかじめ用意された選択肢の中から正しいと考える選択肢をすべて選択する形式の問題のことである.Multiple-mark 式,Multiplemultiple-choice 式などと呼ばれ,多真偽形式(Multiple true-false form)のバリエーションの1 つとされる( Haladyna, 2004).具体的な問いかけ文は,例えば「次の選択肢のうち,正しいものをすべて選べ」である.この形式の問題では,受験者は提示された選択肢のすべてについて正誤を判断する必要がある.そのため,特定の分野に関する詳細な知識を測定するのに有効であるとされる.
このような形式の問題については,古くから研究されており(例えば, Cronbach (1941)),採点方法に関する研究もなされている( Albanese & Sabers, 1988; Domnich et al., 2015; Tsai & Suen, 1993).
1.2. 正答選択肢をすべて挙げる形式の問題の採点について正答選択肢をすべて挙げる形式の問題の採点については,さまざまな方法が検討されているが,部分点を与える方がテストの信頼性・妥当性が高まるものの( Albanese & Sabers, 1988),どの方法が望ましいかについて一致した結論は得られていない( Domnich et al., 2015; Tsai & Suen,1993).
これまでに提案されている採点方法には次のようなものがある.以下,各項目の最高点は1点とし, N を選択肢の総数,そのうち n c 個が正答選択肢, n w 個が誤答選択肢であるとする( N = n c + n w ).本研究では必ず1 つ以上の正答選択肢と1 つ以上の誤答選択肢が含まれていることとする(0 < n c ,0 < n w ).また,受験者が正答選択肢から x c 個,誤答選択肢から x w 個選択したとする(0 ≤ x c ≤ n c ,0 ≤ x w ≤ n w ).このとき,受験者が選択した選択肢の数は x c + x w であり,受験者の正しい判断の数(正答選択肢を選択した数と誤答選択肢を選択しなかった数の合 計) i は, i = x c + ( n w − x w ) である(0 ≤ i ≤ N ).
•MR(multiple-response)法:すべての選択肢について正しい判断をしている場合( i = N ) にのみ1 点,それ以外は0 点とする.部分点を与えない採点方法.
•Count-n(count for n options correct)法:すべての選択肢について正しい判断をしている場合( i = N )は1 点,誤った判断が1 つだけの場合( i = N −1)は0.5 点,それ以外は0 点とする方法.誤った判断が2 つの場合まで部分点を与える方法もある.
•MTF(multiple true-false)法: N 個の選択肢のそれぞれを真偽(true-false)式の項目として捉え,正しい判断をしている選択肢の数 i に比例して点数を与える方法.採点方針が分かりやすく,多くの先行研究において検討されている.MTF 法による得点 s M は式(1) のように表され,得点の範囲は0点~1点である.
•CFG(correction for guessing)法:MTF 法による点数から,誤った判断の数
N
−
i
に応じてペナルティを与える方法.
点が与えられ,−1 点~1 点の範囲をとる.CFG 法による得点
s
CFG
はMTF 法による得点と
の関係にある.
•NM(negative-marking)法:誤った判断に対してペナルティを与える方法のうち,正答選択肢を選択した数に応じて
点ずつ得点を与えるが,誤答選択肢を選択した場合には
点ずつ減点していく方法をここではNM 法と呼ぶことにする.正答選択肢の選択数に応じて
点ずつ得点を与えるところはRipkey 法(
Ripkey, Case, & Swanson, 1996) と同じであるが,誤答選択肢を選択した際の処理が異なる.NM 法による得点
s
N
は式(2) のように表され,得点の範囲は
である.得点の計算が簡単であり,答案を見ながらすぐに採点できるとい
う利点がある.
MR 法,Count- n 法では当て推量による得点を減らすことができるのに対し,MTF 法では当て推量でも得点ができる( Siddiqui et al., 2016),MR 法ではテストの平均点が他とくらべて低くなる( Tsai & Suen, 1993) などの特徴がある.
1.3. 目的これまでの方法の多くは,正しい判断をした選択肢の数や選択した正答選択肢の数などに基づいて部分点を与える方法である.本研究では,受験者による選択肢の選択を N 個の0/1 データが並んだ解答パタンとして捉える.受験者の能力が高いほど,受験者の解答パタンは正答パタンに近い物となると考えられる.そこで,正答/誤答選択肢の並び(正答パタン)との類似度に基づいて部分点を与える方法を新たに提案する.先行研究で用いられている方法と合わせて検討し,各採点方法の特徴を把握することを目的とする.
パタン・データの類似度を表す指標としてよく知られているファイ係数とJaccard 係数を取り上げ,それらに基づく新たな採点方法を提案する.
2.1. ファイ係数法受験者が正しい判断を行った場合は正しく,誤った判断を行った場合は誤りであるとみなすと,受験者の解答は,設定された選択肢の正誤と受験者の選択をそれぞれ行と列とする2 × 2 の分割表(表 1)にまとめられる.この表の行と列の関連の強さを表す指標としてファイ係数を考える.
ファイ係数に基づく得点 s ϕ は次式で与えられる. s ϕ は,受験者の解答パタンと正答パタンのピアソンの積率相関係数としても求めることができる.
ただし,上式から明らかなように( x c + x w ) ≠ x c + x w ) ≠ N とする.すなわち,受験者が選択肢を1 つも選択しない場合と,すべての選択肢を選択する場合を除くものとする.
s
ϕ
のとりうる範囲は−1 ≤
s
ϕ
≤
s
ϕ
= 0 となるのは
の場合,すなわち,正答選択肢からの選択率と誤答選択肢からの選択率が等しい場合である.
N 個の選択肢をパタンの要素として捉え,解答パタンについては選択した選択肢を「1」,選択しなかった選択肢を「0」,正答パタンについては正答選択肢を「1」,誤答選択肢を「0」とし,解答パタンと正答パタンの類似度の指標としてJaccard 係数を考える.Jaccard 係数は,両パタンに共通する要素数を,少なくとも一方のパタンにある要素数で割ったものである.Jaccard 係数に基づく得点 s J は次式で与えられる.
Jaccard 係数法では,選択されなかった誤答選択肢の数を考慮しない.このような“負の一致”を類似に含めない指標のうちでは,Jaccard 係数は最もシンプルなものである( Sokal & Sneath,1963). s J のとりうる範囲は0 ≤ s J ≤
2 章に示した二つの提案手法に加え,既存の方法として1.2 節に示したMTF 法及びNM 法を取り上げる.採点方法によっては,得点が負の値になることがある.実際の採点時には,線形変換を行うなどの操作を行って0 以上の値にする必要があるが,ここでは特に断らない限り負の値のままで検討を行う.
選択肢の総数 N ,正答選択肢の数 n c ,誤答選択肢の数 n w が決まっているものとすると,受験生の解答パタンは全部で2 N 通りが考えられる.各パタンごとに得点が考えられるが,各選択肢の重みが同じであるとすると,本研究で検討する採点方法はいずれも正答選択肢を選択した数 x c と誤答選択肢を選択した数 x w が決まれば得点が一意に定まる.そこで以下では解答パタンを( x c , x w ) の形で示す.
次に示すような得点の性質及び解答パタンと得点の関係について理論的な検討を行い,具体的な値を見るために数値例として N = 8 の場合を計算した. N = 8 を取り上げたのは,選択肢の数が多い方が解答パタンが多く,得点の変化の様子を把握しやすいためである.これらの結果は4 章に示した.
得点の性質
採点方法を比較するには,得られる得点の性質を把握する必要がある.どのような場合に満点(1 点)となるのか,得点は何通りありうるのか(これを得点の段階数と呼ぶ)などである.また部分点であるので,正答選択肢を選択した数 x c が多いほど,あるいは誤答選択肢を選択した数 x w が少ないほど得点が高くなることが望ましい.そこで,各採点方法の定義式から,得点の範囲,特定の点数(0 点や1 点など)となる場合の解答パタン,得点の段階数, x c (あるいは x w )が一定の場合の得点の変化,選択肢を1 つも選択しない場合(無選択)及びすべての選択肢を選択する場合(全選択)の得点を調べた.
解答パタンと得点
解答パタンが( x c , x w ) の場合,その次に得点が高いと考えられる解答パタンは,誤答選択肢を1 つ多く選んでいる場合( x c , x w + 1) と正答選択肢を1 つ選び損ねている場合( x c − 1, x w ) のどちらかであると考えられる.どちらの場合の方が得点が高いのか,定義式から確かめた.
各採点方法による点数の性質を表 2 にまとめた.
表 2 の多くは定義式から簡単に示すことができるので,ここではその過程を示さない.ただし,得点の段階数は次のように求めた.解答パタンが全部で( n c +1)( n w +1) 通りであるので,得点は最大でも( n c +1)( n w +1) 段階である.しかし,採点方法によっては必ず同じ得点となる解答パタンが存在するので,それを除いた値を段階数とした. s ϕ は,解答パタンのうち無選択と全選択の場合が定義されないので段階数は最大で( n c +1)( n w +1) −2 である. s J は, x c = 0のとき x w によらず s J = 0 であるので段階数は最大で1 + n c ( n w + 1) である. s M と s N は, x c − x w が− n w ≤ x c − x w ≤ n c の任意の整数値をとることが可能であるので,段階数は N +1 である.なお, s ϕ 及び s J について段階数の最大値を示しているのは, n c と n w の値によっては得点が同じになることがあり(例えば表 6 の s ϕ ),その場合には段階数が少なくなるからである.
4.2. 解答パタンと得点解答パタンが( x c , x w ) の場合の正しい判断の数は x c + n w − x w である.解答パタンが( x c , x w +1)及び( x c − 1, x w ) の場合,正しい判断の数はいずれも x c + n w − x w − 1 で等しい.したがって, s M 及び s N の得点は両解答パタンで同じになる.
一方,
s
J
については,前者から後者を引いた差が
であり,常に前者の方が得点が高い.
s
ϕ
については,前者が高い場合と後者が高い場合があり,一概には言えない(例えば表
6 において,(4,1) では前者の方が,(3,0) では後者の方が得点が高い).
得点の例
選択肢の総数 N = 8,正答選択肢の数 n c = 3 の場合について,すべての解答パタンについて得点を計算し,表 3 に示した.表 2 での一般的な性質が成立していることが確かめられる.
得点の段階数や値は選択肢の総数
N
によって異なる.そこで,
N
= 5~8(いずれも
n
c
= 3)の場合の得点を計算し,採点方法別の得点の分布を図
1 に示した.図
1 から,
N
が大きくなるにつれて,得点の段階数が増えていくことが分かる.
s
M
と
s
N
はどちらも等間隔であり,
s
M
では
N
が大きくなるにつれて得点の間隔が狭くなる
のに対し,
s
N
では
N
によらず得点の間隔が同じ
であり,
N
が大きくなるにしたがって得点の最低値が低くなる.一方,
s
ϕ
及び
s
J
はどちらも
s
M
と
s
N
よりも段階数が多く,多様な得点が得られることが分かる.ただし,0.8 付近~1の間(及び−0.8 付近~−1 の間)には
s
ϕ
や
s
J
の得点はなく,
s
ϕ
が比較的偏りなく点が分布するのに対して,
s
J
は0.1~0.5 付近に点が多かった.
完全な当て推量による得点
選択式の問題では当て推量が問題になることがある. N = 8, n c = 3の場合について完全にランダムに当て推量をしたと仮定して(すなわち,2 8 = 256 通りの解答パターンが等確率で現れるとして)得点の期待値を表 4 に示した.ただし, s ϕ は無選択と全選択を除いた254 通りを元に計算した.また,負の値となった得点を0 に変換した場合の期待値も同様に計算した.
負の得点を0 に変換しない場合には,ファイ係数法では0.000,NM 法では−0.333 と小さな値となった.これは,負の値の得点が含まれているためである.負の得点を0 点に変換をした場合には,ファイ係数法では0.156,NM 法では0.061 となった.一方,MTF 法では0.500 と最も大きな値であった
得点上位の解答パタン
部分点として「完全な正答ではないが,正答に近い解答」に対して与えたいという場合がある.そこで,得点が上位になる解答パタンに着目し,正答選択肢の数が3 個の場合と4 個の場合について,各採点方法ごとに得点が上から4 番目までとなる解答パタンを表 5,表 6 にまとめた.MTF法とNM 法では,得点の値は異なるものの,各順位に対応する解答パタンは同じであったので,1 つの列にまとめて示した.
Jaccard 係数法について得点順に対応する解答パタンをみると, n c = 3(表 5)では(3,0),(3,1),(2,0),(3,2), n c = 4(表 6)では(4,0),(4,1),(3,0),(4,2) であった.他の方法でも,同順位の解答パタンがあるものも含めれば同じ順番であった.
部分点として望ましい性質について
表
2 に得点の性質の比較をまとめた.いずれの方法も得点の最大値は1点であったが,最小値はJaccard 係数法とMTF 法では0 点,ファイ係数法では−1 点,NM 法では
点であった.通常は採点時に減点することはないので,部分点の範囲としては0 点~1 点が望ましい.そのため,ファイ係数法とNM 法は何らか方法で負の値が0 以上の値になるように変換する必要がある.得点の変換については5.2 節で述べる.
解答パタンとの関係からみるとき,まず,すべての選択肢を正しく判断している場合には1点となっているべきである.この点については,いずれの方法も満たしていた.また,「( x c が等しい場合には) x w が大きくなるほど得点が低く」なり,「( x w が等しい場合には) x c が大きくなるほど得点が高く」なることが望ましい.この点については,Jaccard 係数法の x c = 0の場合を除き,いずれの方法も満たしていた.
一方,無選択あるいは全選択という解答もありうる.無選択とは解答欄に何も記入されていない場合であるから0 点が望ましいであろう.逆に解答欄にすべての選択肢が記入されている場合が全選択である.受験生が真剣にすべての選択肢を選んでいる可能性もあるが,何も考えずにすべての選択肢を挙げている可能性もあり,そのような場合に部分点が与えられるのは望ましくない.これらの解答パタンに対して,MTF 法ではどちらの場合も,Jaccard 係数法(及び n c と n w の値によってはNM 法)では全選択の場合に得点が与えられてしまう.一方,ファイ係数法は両解答パタンに対する得点が定義されていない.どちらも起こりうる解答パタンであるので何かしらの得点を定義しておく必要がある.
また,選択式の問題であるので,当て推量による選択が可能である.表
4 の「負の得点を0 点に変換」の場合では,ファイ係数法,NM 法が小さい値であった.しかし,このように期待値が低くなったのは,「負の得点を0 点に変換」する方法では0 点が多くなるためである.例えば
や
で変換した場合には,ファイ係数法もNM 法も期待値は0.500 となる.部分点を与えるため,択一式の場合の期待値
よりも高くなると考えられるが,当て推量による得点の期待値が高いことは得点の信頼性の低下につながり,望ましくない.
得点の段階数と間隔
図 1 から分かるように,採点方法ごとに得点の段階数や間隔などの得点の分布の様子は異なっていた.段階数の最大値で比べると,ファイ係数法では1 < n c ,1 < n w の場合に,Jaccard 係数法では1 < n c の場合にMTF 法,NM 法よりも段階数が多い.ファイ係数法とJaccard 係数法では,2 < n w の場合にファイ係数法の方が多い.段階数は多い方がより細かい違いを反映できるようになるため望ましい.ただし, n c = 1 の場合には,Jaccard 係数法の段階数はMTF 法,NM 法と同じになる.
間隔については, s ϕ 及び s J の得点は等間隔ではない.これは解答パタンと正答パタンとの近さ(類似度)を反映させた得点だからである.得点は等間隔の方が部分点として利用しやすい場合もあるが,後から変換を施すことによって等間隔にすることもできる.
解答パタンと得点
ある解答パタン( x c , x w ) に対して,誤答選択肢を1 つ多く選んでいる場合( x c , x w +1) と正答選択肢を1 つ選び損ねている場合( x c − 1, x w ) の得点を比較した.MTF 法及びNM 法では両解答パタンの得点は同じであった.これは,正答選択肢を選ぶことと誤答選択肢を選ばないことを同じ重みで評価しているということである.一方,Jaccard 係数法では常に前者の方が得点が高くなり,ファイ係数法では前者が高くなる場合も後者が高くなる場合もある.前者の方が得点が高いとは,「正答選択肢を1 つ選び損ねることに対する減点」よりも「誤答選択肢を1 つ多く選んでしまうことに対する減点」の方が小さいということである.選択式の問題のなかには,正答選択肢を正しいと判断するのは難しくても,誤答選択肢の誤りには気がつきやすいようなものもある.そのような問題においては望ましくない性質と言えよう.
得点が上位となる解答パタンについては,表 5 及び表 6 で見たように,4 方法の間で同じであった.上位の解答パタンにのみ部分点を与えようとする場合には,どの解答パタンを上位とみなすかがが問題となるが,この場合には採点方法の違いによる影響は小さい.
5.2. 得点の変換と得点の意味採点方法から算出された得点は,部分点として利用しやすいように値を変換して用いることがある.得点の変換には,得点の範囲を0~1 点とするために行う線形変換のように得点の性質を整えるために必要な変換や,部分点として利用しやすいように,ある範囲の得点を特定の部分点(例えば0 点,0.5 点,1 点)に対応させる変換などがある.どのような変換が適切であるかは,部分点を用いる目的や実用上の制約等から決まるが,各解答パタンに対する部分点がなぜこの値であるのかを説明できるようなものであることが望ましい.そのためには,得点の意味を考えながら得点の変換を行うべきであろう.
ファイ係数法及びNM 法では,得点が負の値となるため,得点の変換を行う必要がある.どちらも線形変換によって得点の範囲を0~1 点に変換することができるが,変換後の0 点はどちらも「すべての選択肢の判断を誤っている場合」となり,変換前の0 点と同じ意味を持つ点は異なる点になる(
で変換した場合には0.5 点,
で変換した場合には
点).
別の変換方法として負の値を一律に0 にする方法もある.これは,ある基準より下位の解答パ タンには部分点を与えなくてよい,という方針の変換方法である.この場合,ファイ係数法では 「正答選択肢からの選択率よりも誤答選択肢からの選択率の方が高い場合には0 点にする(加点し ない)」,NM 法では「正答選択肢よりも誤答選択肢からの選択数の方が多い場合には0 点」となり, 変換後の意味も分かりやすい.
5.3. まとめファイ係数法,Jaccard 係数法,MTF 法,NM 法による採点の特徴を表 7 にまとめた.
提案手法と既存の方法の大きな違いは,得点の段階数及び間隔である.部分点を与える目的は,受験者が部分的に持つ知識や能力を得点に反映させることである.このことを踏まえると,解答パタンの違いをより細かく反映し,類似度等を反映させた数値を得られる提案手法の方が,既存の方法よりも適切な採点手法であろう.その場合,部分点が0.5 点や1 点,2 点のような簡単な数値ではなくなるため,分かりづらいなどの批判がなされる可能性はあるが,部分点が受験者の能力を反映しているということが理解されていけば,例えば学校の授業で理解の度合いをみたり,入学試験などで各受験者の学力差をより詳細にみたりすることができるようになると期待される.
提案手法のファイ係数法とJaccard 係数法を比べると,得点の範囲が0~1 点であるので得点の変換の必要がないこと,無選択及び全選択の場合の得点が定義されていること,計算が容易であること,「正答選択肢を1 つも選んでいない場合は0 点」と得点の意味が分かりやすいことから,Jaccard 係数法の方が実用的な方法と考えられる.一方,ファイ係数法は,2 < n w であれば段階数が多く,得点の間隔の偏りが少ない方法であるが,得点の変換の必要性及び計算の容易さを考慮すると,Jaccard 係数法より実用的な方法とは言えない.
以上より,本研究で検討した中ではJaccard 係数法が最も適切であると考えられる.しかし,本研究で取り上げた方法以外にも類似度の指標は他にも多数あり,ペナルティを与える方法も様々な方法が考えられる.また,特定の選択肢に重みを付けることも考えられる.採点方法として最適な方法は,1 つに定まるものではなく,試験の目的や部分点を与える方針(どのような解答に何点を与えるのか)などによって異なる.方針にそった採点方法を採用できるよう,今後も様々な採点方法を検討し,その特徴を明らかにしていきたい.本研究が採点方法を考える際の一助となれば幸いである.