Bulletin of Data Analysis of Japanese Classification Society
Online ISSN : 2434-3382
Print ISSN : 2186-4195
Article
Who Select Attractors Including the Words in Key Sentences?
—Focusing on Different Types of English Reading Items—
Takahiro TeraoHidetoki IshiiHiroyuki Noguchi
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2017 Volume 6 Issue 1 Pages 63-82

Details
Abstract

本研究の目的は,英語文章読解テストにおける錯乱枝(多くの受検者に選ばれ,受検者の典型的な誤りを反映した誤答選択枝)の選択率に対し,キーセンテンス(選択枝に関連する文章中の文)と錯乱枝との語の重複・設問タイプが及ぼす影響を,能力群別に検討することである.本研究で検討した設問タイプは,文章中に明示されている情報についての理解を問う下位レベル設問と,文章の構造やテーマの理解を問う上位レベル設問の2 種類である.大学生460 名に対し,本研究の目的に合わせて作成したテスト冊子への解答を求めた.実験操作を行った項目では,正答選択枝1 つに加え,否定語を含む錯乱枝・対義語を含む錯乱枝・因果関係の取り違えを含む錯乱枝の計3 つを受検者に提示した.階層ベイズモデルによるパラメタ推定の結果,下位レベル設問において,能力低群では語の重複を含む錯乱枝の選択率が高かったが,能力高群では語の重複を含まない否定語錯乱枝・対義語錯乱枝の選択率が高かった.一方,上位レベル設問では,語の重複に関して下位レベル設問とは逆の結果が得られた.本研究の結果から,今後の項目作成の際,下位レベル設問では語の重複を含む錯乱枝を,上位レベル設問では語の重複のない錯乱枝を作成すれば,英語文章読解項目が受検者の認知過程を反映し,識別力を向上できる可能性が示唆された.

Translated Abstract

We investigated choice ratios of attractors that are the incorrect choices reflective of typical errors made by students during reading comprehension tests by examining the effects of lexical overlaps between key sentences related to each choice and an attractor. We also investigated the effects of question types represented by lower- and upper-level questions on attractor decisions. The former questions asked test takers only to identify key sentences and evaluate options, whereas the latter asked them to grasp the structure or the gist of a paragraph or a passage. Undergraduate student test takers (N = 460) participated. They were given one of eight booklets. Experimental items consisted of one key and three attractors: a negation, an antonym, and a causal misunderstanding. Estimates and generated quantities in a Bayesian hierarchical model obtained via Gibbs sampling indicated that for lower-level questions test takers with low proficiency selected attractors with overlapping words, whereas those with high proficiency chose attractors with negations or antonyms in the non-overlapping condition. In contrast, for upper-level questions less proficient students chose attractors in the non-overlapping condition and proficient students selected attractors with negations or antonyms in the overlapping condition. These results suggest that examining attractors in multiple-choice tests could enable us to develop optimal items and to qualify test items.

1. 問題と目的

1.1. ハイステークスなテストにおける項目の品質管理

入学試験や資格試験などのハイステークスなテストにおいて,項目の品質管理を行うことは重要である.テスト項目の品質を検討する際,項目の統計的性質等の定量的な側面に着目する場合と,項目の内容等の定性的な側面に着目する場合がある(加藤,2014).わが国では,テスト項目に対して予備調査を行うことができないことが多いため,定量的な側面からみた項目の品質管理が困難である一方で,定性的な側面からの項目の品質管理は可能であると考えられる.近年の教育測定学研究では,項目の品質を定性的に高める方法として,受検者の認知過程を反映した項目 作成の重要性が指摘されている( e.g., Bax, 2013; Embretson & Gorin, 2001).

1.2. 項目の品質を高める道具としての錯乱枝

ハイステークスな大規模テストの場合,多枝選択式テストが用いられることが多い.多枝選択式テストは,採点が簡便かつ客観的である一方で,項目作成に多大な時間と労力を要する.特に, 選択枝の作成は非常に難しい( Haladyna, Downing & Rodriguez, 2002).

選択枝の中でも誤答選択枝は,多枝選択式項目の品質を定性的に高める重要な道具である.実際,誤答選択枝に受検者の典型的な誤りを反映させる( Haladyna et al., 2002) ことで,受検者の認知過程を詳細に捉えることができる( Downing, 2006/2008).本研究では,多くの受検者が選び,受検者の典型的な誤りを反映した誤答選択枝を「錯乱枝」と呼ぶ( Rodriguez, Kettler, & Elliott, 2014).一般的には,誤答選択枝全体を錯乱枝と呼ぶことが多いが( e.g., 野口・大隅,2014),本研究では,錯乱枝を項目の品質改善の道具として位置づけているため,上のような限定的な定義を採用することとする.

また,錯乱枝は,定量的にも項目の品質を向上させることが知られている.具体的には,錯乱枝を項目に含めると,項目の困難度が低くなりすぎないこと,項目の識別力が高くなることが挙 げられる( Dibattista & Kurzawa, 2011).以上の通り,多枝選択式テストにおける錯乱枝は,項目の品質を定性的な側面・定量的な側面から向上させる道具であると考えられる.

1.3. 英語文章読解テストを解くときの受検者の認知過程と錯乱枝

多くの大規模英語テストにおいて,英語文章読解能力は英語能力の中心となっている( Kikuchi,2006).そこで本研究では,受検者の能力を測定するテストとして,英語文章読解テストを取り上げることとする.

英語文章読解項目の品質を向上させるためには,受検者の認知過程( Embretson & Wetzel,1987; 図 1) に基づいて錯乱枝を作成する必要がある.英語文章読解テストに関する認知過程を扱った Embretson and Wetzel (1987) のモデルのうち,解答の決定に関するプロセスはテストを解く際に特有の認知処理であり,受検者は設問や選択枝を読んだ後,これらに関連する情報が文章中のどこに記述されていたかを特定した上で,それぞれの選択枝に対する正誤判断を行っていることになる.

このモデルのうち「選択枝の正誤の評価」に焦点を当て,錯乱枝の選ばれ方について検討を行った先行研究がある( e.g., King, Gardner, Zucker, & Jorgensen, 2004; 寺尾・安永・石井・野口,2015). King et al. (2004) の理論的分類を踏まえ, 寺尾他(2015) は,否定語を含んでいるため誤りとなる錯乱枝(否定語錯乱枝),対義語を含んでいるため誤りとなる錯乱枝(対義語錯乱枝),文章中の因果関係を取り違えて記述しているために誤りとなる錯乱枝(因果関係の取り違え錯乱枝)の選択率が高くなることを明らかにしている.

1.4. キーセンテンスの読解と錯乱枝の選ばれ方との関連

Embretson and Wetzel (1987) のモデルに基づくと,選択枝に対応する文章中の情報の特定は,選択枝の正誤の評価に影響を及ぼすと考えられる.本研究では,選択枝の内容の正誤判断にあたって手がかりとなる文章中の1 文およびその周辺の文を「キーセンテンス」と呼ぶ.なお,本研究におけるキーセンテンスの定義は, Carr (2006) の定義を選択枝全体に拡張したものである.

図1 文章読解テストを解く際の受検者の認知過程に関するモデル( Embretson & Wetzel, 1987)

先行研究では,キーセンテンスの特定に関して,キーセンテンス中の語と錯乱枝中の語の重複に着目したものがあるものの,語の重複が錯乱枝の選択率に及ぼす影響に関する知見は一貫していない( Buck, Tatsuoka, & Kostin, 1997; Drum, Calfee, & Cook, 1981).このような知見間の相違は「よい錯乱枝」の作成を妨げる可能性があるため,本研究では解決策として以下の2 点に着目した.

第1に,設問タイプの違いに応じて語の重複の効果が異なる可能性がある.設問タイプは,文章中に明示されている情報についての理解を問う下位レベル設問と,文章全体の構造やテーマの理解等を問う上位レベル設問の2 種類に大別される( 清水,2005).実際,下位レベル設問における語の重複は正答選択率を高める一方で,上位レベル設問における語の重複の効果は見られなかった( Freedle & Kostin, 1993).本研究では,正答選択枝の場合と同様に,設問タイプの違いによって錯乱枝の選択率に対する語の重複の効果が異なると予測した.

第2に,錯乱枝の種類の違い(e.g., 否定語錯乱枝,対義語錯乱枝,因果関係の取り違え錯乱枝)によって,語の重複の効果が異なる可能性がある.しかし,先行研究( e.g., Buck et al., 1997; Drum et al., 1981) では,錯乱枝の種類の違いに着目した検討は行われていない.

そこで本研究では,キーセンテンス中の語と錯乱枝中の語の重複・設問タイプを独立変数,それぞれの錯乱枝の選択率を従属変数とし,これらの独立変数が錯乱枝の選択率に及ぼす影響について能力群別に検討することを目的とする.

2. 方法

2.1. 調査協力者

愛知県の大学に通う学生を調査協力者とした.調査協力に同意のなかった者,すべての項目に回答のなかった者を除いた上で,460 名(男性140 名,女性319 名,不明1 名)のデータを分析対象とした.観測可能な応答(3220)のうち,0.37%(12)が欠測であったが,欠測値が特定の項目に偏っていることはなかった.

2.2. 材料

学校法人河合塾(2015)受験サプリ(2015) のホームページ上で公開されている私立大学の入学試験問題のうち,英語文章読解問題を5 題用いた.

2.3. キーセンテンス中の語と錯乱枝中の語の重複に関する実験操作

本研究では,キーセンテンス中の特定の1 語をターゲット語とし,ターゲット語が錯乱枝でも使用されている条件(重複条件),ターゲット語が錯乱枝で使用されていない条件(非重複条件)の2 種類の錯乱枝を作成した.実験操作の具体的な手順は以下の通りである.

1. キーセンテンスを設定する.

2. キーセンテンス中の語から,ターゲット語を選定する.

3. ターゲット語をそのまま含むようにして,重複条件の錯乱枝を作成する.

4. ターゲット語を,キーセンテンス中で用いられていない,ターゲット語の類義語に置き換えた上で,非重複条件の錯乱枝を作成する.

第1ステップ「キーセンテンスの設定」では,設問に対する答えとなるような文を3つ選定した.これら3 つの文は,第3・第4 ステップにおいてそれぞれ否定語錯乱枝・対義語錯乱枝・因果関係の取り違え錯乱枝を作成する際の基になる文であることを念頭に置いて選定した.例えば,付録 1 に示した錯乱枝の作成にあたっては,以下の文をキーセンテンスとして選定した.

• The National Highway Traffic Safety Administration has stated that equipping seat belts are not the most effective way to protect schoolchildren.

• Instead, they support the idea of “compartmentalization,” which means sitting in strong, closely spaced seats that have energy-absorbing, high seat backs and having the seats strongly anchored to the floor and frame of the bus.

• The primary argument against adding seat belts is that they would provide very little added protection for impacts of a car collision.

次に,第2 ステップ「ターゲット語の選定」では,大学英語教育学会による英単語リスト 「JACET8000 英単語」( 相澤・石川・村田,2005) を参照し,それぞれのキーセンテンス中に 含まれるすべての英単語について使用頻度レベルを調べた.その後,キーセンテンス中の語のう ち使用頻度の低い語1 語を選定し,ターゲット語とした.

第3 ステップ「重複条件の錯乱枝の作成」では,ターゲット語をそのまま含むようにして,キーセンテンスの意味が大きく変わらないよう留意しながら,重複条件の否定語錯乱枝・対義語錯乱枝・因果関係の取り違え錯乱枝を作成した.3 種類の錯乱枝は,第1 ステップで選定したキーセ ンテンスに対して,原則1 対1 対応するよう作成した.ただし,キーセンテンスと1 対1 対応するように作成できなかった場合には,1 つのキーセンテンスに対して2 つの選択枝を作成したり, 2 つのキーセンテンスを部分的に組み合わせて1 つの選択枝を作成することがあった.

第4 ステップ「非重複条件の錯乱枝の作成」では,オンライン版WordNet 3.1 ( Princeton University, 2015) を用い,ターゲット語の類義語を検索した.これらの語のうち,JACET8000 においてターゲット語よりも使用頻度が高く,キーセンテンス中で使用されていない語をターゲッ ト語の置き換え語として選定した.その後,重複条件の錯乱枝3 種類に含まれているそれぞれのターゲット語を置き換えて,非重複条件の錯乱枝とした.なお,本研究で作成した選択枝の例を付録に示した.

2.4. 設問タイプに関する実験操作

本研究では,それぞれの設問タイプの定義に照らしながら,以下の基準で設問を作成した.下位レベル設問では,キーセンテンスを特定できれば選択枝の正誤が判断できるよう作成した.一方, 上位レベル設問では,各段落の主旨を問う設問(e.g., Which of the following statements best summarize each paragraph?)と,文章全体の主旨を問う設問(e.g., What is the main idea of this passage?)の2 種類を作成した.下位レベル設問・上位レベル設問ともに,設問に対して複 数のキーセンテンスが該当するように作成した.例えば,本稿の付録 1 に示した問題では,文章中でスクールバスのシートベルトに関する米国運輸省道路交通安全局の主張がいくつか述べられていたため,“What does the National Highway Traffic Safety Administration state about school buses?” のような設問を立てた.

2.5. テストデザイン

テスト冊子は,第1 問(3 項目)と第2 問(4 項目)から構成される.第1 問については,文章・設 問・選択枝を入学試験で出題されたまま提示したが,第2 問については,上述の手順で設問・選 択枝を作成のうえ提示した.第1 問はすべてのテスト冊子に収録し(共通項目),第2 問はテスト 冊子によって異なる文章・設問・選択枝のセットを提示した(実験項目).なお,共通項目の数は, 読解テストであることによる実施時間の制約や受検者への負担,実験項目の数との兼ね合い等を考慮した結果,3 項目とするのが最大限であると判断した.

以下では第2 問の特徴について,選択枝・設問タイプ・語の重複の3 点に触れながら述べる. 第2 問の選択枝については,正答選択枝1 つと錯乱枝3 つ(否定語錯乱枝・対義語錯乱枝・因果 関係の取り違え錯乱枝)を作成した.これらの錯乱枝は,読解能力の低い受検者・中程度の読解能 力の受検者において選択率が高いことが明らかにされている( 寺尾他,2015).また,第2 問の問 1・問2 を下位レベル設問,問3・問4 を上位レベル設問とした(設問タイプ).さらに,第2 問の問1~問4 までがすべて重複条件となっている版と,問1~問4 までがすべて非重複条件となっ ている版の2 種類を作成した(語の重複).最終的に,材料とした5 題の英語文章読解問題のうち, 共通項目として用いた1 題を除く4 つの英語文章それぞれに対し,重複条件の錯乱枝を収録したテスト冊子を冊子1-1 から冊子4-1 とし,非重複条件の錯乱枝を収録したテスト冊子を冊子1-2 から冊子4-2 として,計8 種類のテスト冊子を作成した.なお,冊子名のハイフンの前の数字が文章の違いを表し,ハイフンの後の数字が語の重複に関する条件の違い(重複:1,非重複:2)を 表している.

2.6. 手続き

受検者には,本研究のテストが受検者自身の能力を測定しようとする目的で行われるものではなく,テスト項目の性質について検討する目的で行われるものであることを伝えた.また,受検者に対し,テスト冊子が研究室内で厳重に保管されること,研究参加を辞退しても受検者自身が不利益を被ることはないこと,解答の途中で気分が悪くなったり,解答をやめたいと思ったりし た際には,いつでも研究参加を辞退してよいことなどについて伝えた上で,研究参加への同意を確した.なお,本研究は名古屋大学大学院教育発達科学研究科倫理審査委員会の承認を得て実 施した(倫理審査委員会承認番号:14-537).

受検者には,8 種類のテスト冊子のうち1 種類をランダムに配布した.また,各項目への解答 にあたり,正しいと思う選択枝の丸番号をテスト冊子上で直接塗りつぶすよう受検者に教示した. 解答時間は25 分間であった.

3. 結果

3.1. 項目分析

項目分析にあたり,第1 問は項目を,第2 問は選択枝を分析単位とした.第1 問では各項目の正答率,各項目への応答と後述する潜在特性値の推定値との点双列相関係数を算出し,第2 問では,各項目におけるそれぞれの選択枝の選択率,それぞれの選択枝への応答と推定値との点双列相関係数を算出した.

項目分析の結果を表 1 に示した.一部の誤答選択枝について点双列相関係数が正の値になっていたが,全体的には項目・選択枝の統計的指標がおおむね良好であった.

3.2. IRT-1PLM を用いた受検者の潜在特性値の推定

本研究では,受検者が異なるテスト冊子の項目に解答しているため,困難度の高い項目に正答で きた場合の1 点と,困難度の低い項目に正答できた場合の1 点を等しく扱う正答数得点では,受 検者の能力値を反映する指標にならない可能性がある.そこで本研究では,項目応答理論(IRT)における1PLM を用いて,受検者の潜在特性値をEAP 推定した.以下では,項目パラメタ・受 検者の潜在特性値の推定の手順について述べることとする.

本研究では,異なるテスト冊子に含まれる実験項目はすべて異なる項目であった.したがって, パラメタの推定に用いた応答行列は,共通項目3 項目に加え,実験項目32 項目(1 冊子あたり4 問×8 冊子分)の計35 項目から構成されることになる.この応答行列では,受検者が解答したテスト冊子に含まれる項目への応答のみが観測され,受検者が解答しなかったテスト冊子に含まれ る項目への応答はすべて欠測値となる.

このように,受検者が解答しなかったテスト冊子に含まれる項目に対する応答がすべて欠測値となった行列であっても,共通項目が含まれている場合には,同時尺度調整法(concurrent calibration) によって,項目パラメタ・受検者の潜在特性値を推定することが可能である( 加藤・山田・川端,2014).本研究では,第1 問(共通項目)をアンカーとする同時尺度調整法を用いて,項目パラメタ・受検者の潜在特性値を推定した.なお本研究では,項目パラメタを周辺最尤推定したのち,項目パラメタの推定値を所与として,受検者の潜在特性値をEAP 推定した.推定には, 統計解析ソフトR のltm パッケージおよびirtoys パッケージを使用した.

IRT-1PLM を用いた項目パラメタ・受検者の潜在特性値の推定にあたり,1 次元性の仮定に関する検討を行った.本研究のデータには構造的欠測が多く含まれていたことから,相関行列の固有値を用いる方法ではなく,1 次元性を仮定した1PLMの適合度指標を用いる方法により,1 次元性の仮定に関する確認を行った.本研究では1PLM における個人適合度の指標として, l z 統計量を用いた.いま,項目 j に対してモデルから予測される受検者の正答確率を p j j に対する応答を x j (0 or 1) とすると,項目j に対する対数尤度は,

表1 項目分析の結果

で表される. l 0j n 項目すべてについて足し合わせた l 0 は,

である. l 0 は漸近的に正規分布に従うため,個人適合度の指標 l z 統計量

は,漸近的に標準正規分布に従う.

表1 項目分析の結果(続き)

本研究のデータを用いて受検者ごとに l z 統計量を算出したところ, l z 統計量の絶対値が1.96を超えていた受検者は17名おり,全体の受検者の3.70%であった.この結果から,1 次元性を仮定した1PLM が本研究のデータに適合していると考えて差し支えないと判断した.

なお,本研究では現実的な制約も踏まえて共通項目を3 項目としたため,受検者の潜在特性値の推定結果が十分安定していない可能性が考えられる.ただし,受検者の潜在特性値を精確に推定することは,本研究の目的に照らして必ずしも重要であるとは言えず,推定された受検者の潜在特性値が多少不安定であっても,次節で述べるようにして能力群を構成すれば,推定値の不安定さを含みこむことが可能であると考えられる.したがって,推定値の不安定さが以降の分析においてそれほど大きな問題にはならないと考えられる.

3.3. 受検者の群分け

受検者の潜在特性値の推定値は連続変量であるが,次節以降,それぞれの錯乱枝の選択率について検討を行う際には,選択枝の選択状況についてG-P 分析を行うときのように,受検者を能力群に分割して検討することが,項目作成の知見を提供するうえで有用であると考えられる.以下では,受検者の群分けの方法について述べることとする.

受検者の群分けでは,潜在特性値の推定値を受検者の能力値とした上で,古典的テスト理論の方法( Kelley, 1939) にならい,能力値のヒストグラムの27 パーセンタイル点以下であった受検者を能力低群,中央46%(27 パーセンタイル点から73 パーセンタイル点)の受検者を能力中群,73 パーセンタイル点以上であった受検者を能力高群とした.この方法は,項目分析においてしばしば採用されている( e.g., 安永・石井,2012). Kelley (1939) の分割方法は,能力高群と能力低群の選択率の差( D 指標)を最大化し,各能力群の人数が少なくなりすぎない臨界点であるとされている( Feldt, 1963; 池田,1973).この方法で算出された識別力の指標を用いれば,適切な項目選択が可能になるとされている( 池田,1973).以上を踏まえ,錯乱枝の選択状況について検討する本研究では,( Kelley (1939) の方法で受検者を群分けすることが適切であると考えられる.

上記の方法に沿って,受検者の能力値の27パーセンタイル点( q (.27) = −.279),73 パーセンタイル点( q (.73) = .275)を求めた上で,分布の下側27%を能力低群( n = 125),中央46%を能力中群( n = 211),上側27%を能力高群( n = 124)とした.

3.4. 錯乱枝の選択率に関する検討の際に用いたデータ行列の構造

ここで,次節以降の分析で用いたデータ行列の特徴について述べることとする.これまでの分析では,構造的欠測を含む460 行×35 列(受検者× 項目)のデータ行列を用いてきた.このデータ行列では,異なるテスト冊子に収録されている項目への応答を区別して扱っていた.一方,錯乱枝の選択率に関する分析からは,第1 問(共通項目)に対する応答を除外し,第2 問で提示した4 つの文章・8 種類のテスト冊子の実験項目への応答を縦に結合した.結合後のデータ行列の行では,受検者数460 名×4 項目分の応答が縦に並ぶため本来ならば1840 行となるが,実験項目において欠測が5 つあったことから1835 行となっている.一方,結合後のデータ行列の列では,受検者ID,冊子番号(文章番号),設問タイプ,語の重複の有無,選択枝番号の計5 列を配置した.したがって,結合後のデータ行列は1835 行×5 列となる.

結合後のデータ行列では,文章が異なる場合であっても同一の実験条件に割り当てられた項目に対する応答は区別せずに扱うことになる.複数の文章の下での項目に対する応答を区別せずに分析に用いる理由として,本研究が英語文章読解テストの項目作成に対する一般的な知見の提供をねらいとしている点が挙げられる.受検者が解答したテスト冊子に含まれる文章や項目の違いを区別して分析を行った場合,特定の文章・項目の下で,本研究の実験操作が錯乱枝の選択率に及ぼす影響を検討することになり,本研究がねらいとする一般的な知見の提供が困難になると考えられる.この点を踏まえて本研究では,さまざまな特徴をもつ文章・項目が含まれていた上での実験操作の効果の大きさについて検討を行うことが必要であると判断したため,さまざまな文章の下で同一条件に割り当てられた複数の項目への応答を結合したデータ行列を用いた.

3.5. 語の重複・設問タイプが錯乱枝の選択率に及ぼす影響に関する能力群別の検討

本研究では,キーセンテンスと錯乱枝との語の重複・設問タイプがそれぞれの錯乱枝の選択率に及ぼす影響について,能力群別に検討することを目的としている.そこで,基準変数の分布としてカテゴリカル分布( n = 1 のときの多項分布)を仮定した階層ベイズモデルを立てた.なお,分析モデルとして,多項分布を用いた一般化階層線形モデルが考えられるが,本研究のデータに対しては適合が悪く,計算結果が収束しなかったため,以降で紹介するモデルにより検討を行った.

階層ベイズモデルでは,基準変数をそれぞれの錯乱枝の選択率,説明変数を語の重複・設問タイプおよびこれらの交互作用項とした.また,切片および偏回帰係数(以下,回帰パラメタ)を能力群ごとに設定し,ギブスサンプリングにより回帰パラメタを推定した.モデル・事前分布・推定結果等については,次節以降で述べることとする.

3.5.1. モデル

受検者が選んだ選択枝(choice)は,能力群 j ( j = 1, 2, 3) に属する受検者 i ( i = 1, 2, · · · , N )が選択枝 k ( k = 1, 2, 3, 4) を選ぶ確率 p ijk をパラメタにもつカテゴリカル分布に従う.

ただし,能力群に関する添え字は, j = 1 のとき能力高群, j = 2 のとき能力中群, j = 3 のとき能力低群を表し,選択枝に関する添え字は, k = 1 のとき正答選択枝, k = 2 のとき否定語錯乱枝, k = 3 のとき対義語錯乱枝, k = 4 のとき因果関係の取り違え錯乱枝を表すものとする.

カテゴリカル分布のパラメタ p ijk は,多項ロジスティック回帰モデルとして表現される.

多項ロジスティック回帰モデル中の q ijk は,語の重複(overlap),設問タイプ(question),および,語の重複と設問タイプの交互作用項を含む線形予測子によって説明される.

ただし,overlap i = 0のとき重複条件,overlap i = 1のとき非重複条件を表すこととする.また,question i = 0 のとき下位レベル設問,question i = 1 のとき上位レベル設問を表すこととする.

3.5.2. 事前分布

正答選択枝の選択率を参照カテゴリとするため, k = 1 のときの回帰パラメタはすべて0 であるという制約をおく.線形予測子中の説明変数の番号を l ( l = 1, 2, 3, 4) とすると,

一方,それぞれの錯乱枝( k = 2, 3, 4) に対する回帰パラメタ β ljk は階層事前分布をもつとする.階層事前分布は,平均が μ ljk ,精度が τ ljk の1 変量正規分布とする.

さらに, β ljk の平均 μ ljk の事前分布は,平均0,精度10 −9 の正規分布とする.また,精度 τ ljk の事前分布は,形状パラメタ10 −9・尺度パラメタ10 −9 をもつガンマ分布とする.

3.5.3. ギブスサンプリングによる定常分布からの乱数発生

上の階層ベイズモデルに含めたそれぞれの回帰パラメタを推定するため,マルコフ連鎖モンテカルロ法(MCMC)によるサンプリング法のうち,ギブスサンプリングを用いた.ギブスサンプリングには,統計解析ソフトR とJAGS(Just Another Gibbs Sampler)を使用した.事後分布の推定の際,175000 回の乱数発生を行い,うち25000 回をバーンインとするチェインを3 チェイン行った.なお,定常分布への収束のため,10 回に1 回間引き(thinning)を行った.

回帰パラメタの事後分布の統計量として,それぞれの回帰パラメタのEAP 推定値,事後標準偏差(post.sd),各分位点, Gelman and Rubin (1992) による収束判定指標 ,有効標本数(n.eff)を表 2 に示した.すべての回帰パラメタについてトレースプロットを確認し,似た値がサンプリングされている傾向がないことを確認した上で,収束判定指標 が1.1 以下であったことから,いずれのパラメタも定常分布からサンプリングされていると判断した.

3.5.4. 生成量に基づくオッズ比の解釈

次節以降では,正答選択枝の選択率に対するそれぞれの錯乱枝の選択率のオッズについて,それぞれの設問タイプにおける重複条件と非重複条件との間で検討を行う.すなわち,重複条件に対する非重複条件のオッズ比について検討する.オッズ比の算出には,バーンイン期間を除くそれぞれの繰り返し t での回帰パラメタ の関数としての生成量 g ( β ( t )) ( generated quantities,derived quantities; Hobbs & Hooten, 2015) を用いた.

ここで,生成量としてのオッズ比の算出方法について述べることとする.例えば,下位レベル設問・重複条件の錯乱枝に関するオッズは,(6) 式のoverlap i = 0,question i = 0 とすればexp ( β 1 jk ) と表すことができ,下位レベル設問・非重複条件の錯乱枝に関するオッズは,(6) 式のoverlap i = 1,question i = 0 とすればexp ( β 1 jk + β 2 jk ) と表すことができる.したがって,下位レベル設問における重複条件と非重複条件の選択率の差を評価する際には,生成量

を用いればよいと考えられる.同様に,上位レベル設問・重複条件の錯乱枝に関するオッズは,(6) 式のoverlap i = 0,question i = 1 とすればexp ( β 1 jk + β 3 jk ) であり,上位レベル設問・非重複条件の錯乱枝に関するオッズは,(6) 式のoverlap i = 1,question i = 1 とすればexp ( β 1 jk + β 2 jk + β 3 jk + β 4 jk ) である.したがって,上位レベル設問における重複条件と非重複条件の選択率の差を評価する際には,生成量

表2 回帰パラメタの事後分布の統計量

を用いればよいと考えられる.本研究では,上の2 種類の生成量を用いてオッズ比を解釈した.なお,本研究ではオッズ比を効果量として捉え, Cohen’s Rules of Thumb (Cohen, 1988) に基づき,オッズ比のEAP 推定値が1.50 以上(0.67 以下)であれば小さな効果,2.50 以上(0.40 以下)であれば中程度の効果,4.30 以上(0.23 以下)であれば大きな効果として解釈した.

生成量の計算には,175000 個のMCMC サンプルのうちバーンインを除き,間引きを行った結果として得られる15000 個のサンプルを3 チェイン分合わせた,45000 個のサンプルを用いた.

3.5.5. 否定語錯乱枝の選択率に関する能力群別の検討

否定語錯乱枝の選択率について検討した結果を表 3 に示した.オッズ比が小さな効果を示していたのは,すべての能力群における下位レベル設問,能力高群における上位レベル設問であった.さらに,オッズ比が中程度の効果を示していたのは,能力低群における上位レベル設問であった.このことから,能力高群では下位レベル設問・非重複条件,上位レベル設問・重複条件の否定語錯乱枝の選択率が高い可能性が示された.また,能力中群・低群では下位レベル設問・重複条件の否定語錯乱枝の選択率が高い可能性があり,能力低群では上位レベル設問・非重複条件の否定語錯乱枝の選択率が高いことが示された.

3.5.6. 対義語錯乱枝に関する能力群別の検討

対義語錯乱枝の選択率について検討した結果を表 4 に示した.オッズ比が小さな効果を示していたのは,能力高群における下位レベル設問,能力低群における上位レベル設問であった.このことから,能力高群では下位レベル設問・非重複条件の対義語錯乱枝の選択率が高く,能力低群では上位レベル設問・非重複条件の否定語錯乱枝の選択率が高い可能性が示された.

3.5.7. 因果関係の取り違え錯乱枝に関する能力群別の検討

因果関係の取り違え錯乱枝の選択率について検討した結果を表 5 に示した.オッズ比が中程度の効果を示していたのは,能力低群における下位レベル設問・上位レベル設問であった.この結果から,能力低群では,下位レベル設問・重複条件,上位レベル設問・非重複条件の因果関係の取り違え錯乱枝の選択率が高いことが示された.

4. 考察

4.1 下位レベル設問

下位レベル設問において,能力低群では非重複条件よりも重複条件の否定語錯乱枝・因果関係の取り違え錯乱枝の選択率が高く,能力中群では非重複条件よりも重複条件の否定語錯乱枝の選択率が高かった.一方,能力高群では重複条件よりも非重複条件の否定語錯乱枝・対義語錯乱枝の選択率が高かった.下位レベル設問では,英語文章読解能力の低い受検者が語の重複を含む錯乱枝を選び,英語文章読解能力の高い受検者が語の重複を含まない錯乱枝を選んでいた.

下位レベル設問では,キーセンテンスを特定した上で選択枝を選ぶことが求められる.先行研究では,読解能力の低い受検者も語の重複を使用できることが示されている( Buck et al., 1997).ただし,読解能力の低い受検者は,特定できたキーセンテンスの内容とそれぞれの選択枝の内容の比較検討を十分行っていなかった結果,重複条件の錯乱枝に対する正誤判断を誤ったと推察される.実際,読解能力の低い受検者において非重複条件の錯乱枝の選択率が相対的に低かったことを踏まえると,キーセンテンスと錯乱枝の語の重複を根拠に,重複条件の錯乱枝を選択していたことが考えられる.一方,非重複条件においては語の重複の手がかりが使用できないため,キーセンテンスの特定が困難になると考えられる.キーセンテンスの特定が正しくない可能性のある状況下においては,選択枝の正誤の判断を正しく行うことができないため,読解能力の高い受検者において非重複条件の錯乱枝の選択率が相対的に高かったものと考えられる.特に,否定語錯乱枝・対義語錯乱枝に関しては,能力高群において非重複条件の選択率が高かったことから,錯乱枝に含まれている否定語や対義語について判断を行う場合に,キーセンテンス中の語が錯乱枝中にも含まれていることの重要性が示唆される.

表3 否定語錯乱枝の選択率に関するオッズ比のEAP 推定値と分位点
表4 対義語錯乱枝に関するオッズ比のEAP 推定値と分位点
表5 因果関係の取り違え錯乱枝に関するオッズ比のEAP 推定値と分位点

正答選択枝の選択率に対する語の重複の効果について検討を行った Freedle and Kostin (1993)では,下位レベル設問における語の重複の効果が能力群を問わず検出されていたが,本研究では錯乱枝の選択率に対する語の重複の効果が相対的に能力の低い受検者においてのみ検出された.両研究の結果を統合すると,読解能力の低い受検者は正答選択枝がどれであるか見当がつかないため,すべての選択枝に対して語の重複の手がかりを用いてキーセンテンスを特定しようとするが,読解能力の高い受検者は,正答選択枝がどれであるか見当がつくため,正答選択枝に絞って語の重複の手がかりを用いることが想定される.

4.2 上位レベル設問

上位レベル設問において,能力低群では重複条件よりも非重複条件のすべての錯乱枝の選択率が高かった.一方,能力高群では非重複条件よりも重複条件の否定語錯乱枝の選択率が高かった.本研究の結果から,英語文章読解能力の低い受検者はキーセンテンス中の語の代わりに使用頻度の高い別の語を用いて記述された錯乱枝を選ぶ一方で,英語文章読解能力の高い受検者はキーセンテンス中の語を含む錯乱枝を選ぶという結果が得られた.

上位レベル設問では,段落や文章全体の主旨を把握した上で,設問で指示された段落や文章全体の主旨が適切に要約されている選択枝を選ぶことが求められる.ただし,キーセンテンスの特定という認知過程は,段落や文章全体の主旨の把握にあたって必要である.先行研究では,使用頻度の高い語を用いた選択枝の選択率が高くなる( Drum et al., 1981) ことが知られている.先行研究および本研究の結果を踏まえると,使用頻度の高い語の使用によって錯乱枝の記述内容がわかりやすくなり,読解能力の低い受検者はキーセンテンスの特定という認知過程を経ずに選択枝の正誤判断をしていた可能性が考えられる.一方,読解能力の高い受検者は,上位レベル設問を解く際,キーセンテンスの内容を踏まえて段落や文章の主旨を適切にまとめた選択枝を選ぶことが目標であることを理解しているため,非重複条件の錯乱枝は選択しなかったものと考えられる.

4.3 本研究のまとめと今後の課題

本研究では,下位レベル設問において,読解能力の低い受検者は語の重複を手がかりにするものの,キーセンテンスの内容と錯乱枝の内容に対する吟味が不十分であるために,語の重複を含む錯乱枝を選択するという示唆が得られた.この知見に基づいて下位レベル設問の項目を作成する際,キーセンテンス中の語をそのまま使用して錯乱枝を提示すれば,読解能力の低い受検者は語の重複だけを手がかりに錯乱枝を選ぶのに対し,読解能力の高い受検者は内容の吟味を十分に行うことができるため正答選択枝を選ぶことができると考えられる.したがって,このような項目は高い識別力を示すと期待される.

また,上位レベル設問において,読解能力の低い受検者はキーセンテンスを特定せずに段落や文章全体の主旨に関する選択枝を選ぶ一方で,読解能力の高い受検者は,キーセンテンスを特定した上で段落や文章全体の主旨に関する選択枝を選んでいることが示唆された.この知見に基づいて上位レベル設問の項目を作成する場合,キーセンテンス中の語の代わりに使用頻度の高い語を用いれば,読解能力の低い受検者はキーセンテンスの特定をスキップすると考えられるため,錯乱枝を選ぶことが予想される.このような項目も,高い識別力を示す可能性がある.

一方,本研究の課題として,錯乱枝の種類の違い(否定語錯乱枝・対義語錯乱枝・因果関係の取り違え錯乱枝)のパターンが先行研究の知見とは一致せず,解釈がやや困難であった点が挙げられる. King et al. (2004) および 寺尾他(2015) では,中程度の能力をもつ受検者が文章中の記述内容同士の関係を取り違えた錯乱枝(i.e., 因果関係の取り違え錯乱枝)を選択する傾向が示されている一方で,本研究では能力の低い受検者における因果関係の取り違え錯乱枝の選択率が高くなっていた.この点については,今後継続的に検討する必要があると考えられる.なお,本研究ではさまざまな制約から少数の実験項目に対する検討にとどまっており,より一般的な知見を得るためには,さまざまな特徴をもった多数の実験項目に対する検討が必要である.

本研究の知見は,今後の英語文章読解テストにおける項目作成に活用できると考えられる.本研究の知見を踏まえて受検者の典型的な誤りを反映する錯乱枝を作成することで,予備テストを実施する代わりに,項目の品質を定性的な側面から高めることが可能になるとともに,これらの錯乱枝の選択率が高くなれば,項目の品質を定量的な側面から高めることにつながる.また,わが国のような特殊な状況に置かれていない国々でも,予備テスト段階における項目作成の際に本研究の知見を生かすことができると考えられる.

付録

付録1

下位レベル設問と選択枝の例(冊子1-1・第2 問・問1,冊子1-2・第2 問・問1)

※ターゲット語および置き換え語を点線で囲んだ.

付録2

上位レベル設問と選択枝の例(冊子1-1・第2 問・問3,冊子1-2・第2 問・問3)

※ターゲット語および置き換え語を点線で囲んだ.

Acknowledgments

本研究の実施にあたり,日本学術振興会特別研究員奨励費(2216J05973)の支援を受けた.

References
 
© 2017 Japanese Classification Society
feedback
Top