Bulletin of Data Analysis of Japanese Classification Society
Online ISSN : 2434-3382
Print ISSN : 2186-4195
Article
Detecting Cheating Using Acoustic Devices in Examinations with Eye Tracker
Hiroyuki OgataMisao AkamaSatoshi Suzuki
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2017 Volume 6 Issue 1 Pages 127-139

Details
Abstract

筆者らは,自宅受験のような監督者不在のオンライン試験において,不正行為判別を自動化する方法について検討している.受験時に行われる不正を自動検出できるようになれば,評価への信頼を保つことにつながり,オンライン試験の公平性を高められる.ここでは,受験者の眼球運動に着目し,イヤホンなどを使用した聴覚利用型不正行為をアイトラッカによって判別する手法を提案する.受験者が課題文を読み,解答する形式の試験を想定し,課題文を普通に読解する課題と,読解偽装しながら音声課題を聴取する二重課題を設定して眼球運動特性を比較し,提案手法の有効性を検証する.

Translated Abstract

Web-based online exams are now becoming popular, driven by the growing number of computers connected to the Internet. The major benefit of online exams is that they can improve efficiency and save costs by reducing the workload of examiners, and examinees can access them anytime and from anywhere. This paper proposes a method for detecting cheating, by examinees using acoustic devices like in-ear earphones, in unproctored online exams, such as computerized take-at-home exams. Such technologies are expected to raise the reliability of assessment, thus improving fairness in online exams. We employ an eye tracker to track the gaze features of the examinees to detect cheating using acoustic devices. In the experiment, subjects performed both a reading task and a dual task of pretending to read a dummy text while carrying out a listening task. The gaze behaviors of the subjects were compared to verify the effectiveness of the proposed method.

1. はじめに

世界的にネットワーク環境の整備が進んでいることを背景に,近年インターネットを介したオンライン試験の実施が一般的になりつつある.オンライン試験では,主催者側にとって実施効率アップやコスト削減などのメリットが生じると同時に,受験者側にとっても受験する場所や時間の自由度が増えるなどのメリットがある.オンライン試験は技術的には自宅等の任意の場所で受験可能な一方,主催者側からすればそのような状況下では受験環境をコントロールできず,カンニング等の不正行為を防止できないことが問題となる( 日本経済新聞, 2014).これへの対策として,ウェブカメラを配布して監督者が遠隔から試験を監視する試み( Kitahara, Westfall & Mankelwicz,2011; Rodchua, Yiadom-Boakye & Woolsey, 2011) が存在するが,視点が固定されるなどの制約から十分な監視が行えない欠点がある.したがって,ハイ・ステークスな試験の場合には,オンライン試験といえども,会場を設けて実施しているのが現状である.

筆者らは,任意の場所で実施するオンライン試験において公正さを確保するために,不正行為判別を自動化するシステムの研究に取り組んでいる.本論文では,そのうち,聴覚利用型不正行為の自動判別法について検討する.

1.1. 関連研究

不正行為の自動判別に関連する研究事例はいくつか存在する.

菊池・古田・赤倉(2010) および 米谷・松本・古田・赤倉(2010) では,多肢選択式問題を前提に選択肢の「あ」~「お」の文字をペンタブレット上で筆記解答させることで替え玉判別する研究を行った. 菊池他(2010) では参加者6 名で実験を実施し86%の正解率 1 が得られたとしている.また, 米谷他(2010) では2 種類の実験を実施した.一方の実験では参加者12 名に対してFRR 2 が26%,FAR 3 が38%(正解率に換算するとしたらそれぞれ74%,62%),他方では参加者14 名に対してそれぞれ33%,39%(正解率換算値67%,61%)となったと報告している.

Apampa, Wills & Argles (2011) は,ビデオ映像において受験生頭部を楕円体でモデル化して追跡し,途中の人物の入れ替わりを検出する方法を論じた.実験では11 個のアクティビティに対して検出を試み,正解率は82%だったとしている.

橋本・村松・小方(2013) では,筆記用具を使用する試験において,筆記用具の持ち方の画像から連続的に本人認証を行い,替え玉判別に利用する方法を提案した.29 名の実験参加者データを用いて判別を行ったところ,EER 4 が7%(正解率換算値93%)となった.

デスクトップPC やノートPC などキーボードを利用した試験の替え玉判別にはキーストローク認証( Joyce & Gupta, 1990; Banerjee & Woodard, 2012) のような従来のバイオメトリック技術が利用できる.試験に対してではないが,類似の応用として Asha & Chellappan (2008) のように,この技術をe–ラーニング受講者の本人認証に応用した事例がある.

1.2. 不正行為の分類

ここでは試験において考えられる不正行為を図 1 のように分類する.

図1 不正行為の分類

まず,実際に受験している人物が本人か他人かという観点から分類できる.受験者が他人の場合はいわゆる「替え玉」であり,例外なく不正行為といえよう.一方,受験者が本人の場合は,不正行為を人間の五感に基づいて分類できる.聴覚利用型の例としてはイヤホンを利用して録音機ないし外部の協力者から解答情報を得る方法が考えられる.視覚利用型の例にはカンニングペーパーや腕時計型端末を用いるもの( 日経産業新聞, 2015) が挙げられる.また,触覚利用型には,携帯機器のバイブレーションモードを利用するもの( 蒋, 2011) などがある.嗅覚と味覚を利用した行為は使用デバイスや伝達情報量などの制約から考えにくく,実例も見られないので,図中では括弧を付する.

この他の分類法として,不正行為の手口の観点からのものも考えられるが,新しい手口が開発される度に新たな範疇を設ける必要があり,本分類の方がより包括的と言える.

前節で挙げた関連研究は,専ら替え玉に分類される不正行為の判別を目的としたものである.一方,本論文では,聴覚利用型不正行為を取り上げ,その判別法について検討する.

2. 提案手法

2.1. 手法の検討

オフライン(従来型)の試験では,監督者を配置して不正行為の監視に充てる.しかし,近年では情報機器の小型化,無線化が進み,米粒大のイヤホンや長髪の下に隠したワイヤレスイヤホンを使用した不正行為の事例( 日本経済新聞, 2012; VIETJO, 2014) が見られ,監督者が同室していても,道具の発見による不正行為の摘発は困難になっている.これらの機器がオンライン試験でも悪用されるのは必然であり,他の不正行為判別手段を検討しておく必要がある.

ひとつのアプローチは,不正行為を欺瞞の観点から捉えるものである.欺瞞検知では対象者の発するサインに着目する. 佐藤(2013) によれば,そのサインには生理反応,非言語的行動,および言語的行動の3 タイプがある.このうち,生理反応を測定するには特殊な機器を要し,オンライン試験の現場では使えない.また言語的行動は発話が前提なので除外され,試験時に観察できるサインは非言語的行動のみとなる.

欺瞞に関する先行研究で扱われるのは,話し手と聞き手が会話をやり取りする場面がほとんどである.これは試験時に想定されるシチュエーションとは異なるため,それらの研究の知見をそのまま使うことはできない.そこで,筆者らは,以下のような予備実験を行い,実験参加者(大学生・大学院生の男性6 名)に現れる非言語的行動を観察した.

実験では,画面に表示される英単語を見てその日本語訳をキーボード入力して回答する条件(条件A)と,画面に表示される無関係の英単語を見ながら装着したイヤホンから流れる英単語を聴き取り日本語訳を回答する条件(条件B)の2 条件を設定した.実験参加者には,条件B が不正行為の再現であることを知らせたうえで,両条件でできるだけ同じようにふるまうように教示した.そして,回答時の顔と体全体の様子をビデオ撮影して観察を行った.その結果,表 1 のようにさまざまな種類の非言語的行動が観察されたが,条件B 時に比較的共通して見られたのは,眼に関連した挙動だった.

表1 観察された非言語行動

本論文では,この観察結果に基づき,アイトラッカを用いて受験者の眼の挙動をより詳細に計測し,聴覚利用型不正行為の定量的な判別が可能か検証する.

アイトラッカはまだ高価な機器だが,近年低価格化が進み( 川上・笹田・五十嵐・秋田, 2015),民生用モバイル機器のカメラを利用したアイトラッキングの研究( Chuang, Bala, Bernal, Paul & Burry, 2014) も進んでいる.このことから,将来的に安価な機材によってオンライン試験で利用できるポテンシャルを有していると考える.

2.2. 手法の満足すべき要件

不正行為を判別する時に,実施中の試験に影響があってはならない.そのため,筆者らは判別手法は以下の要件を満足することが必要だと考えている( 橋本他,2013).

• 継続性:ある時点で不正行為が検出されなくても,他の時点で不正が行われていないことの保証にはならない,したがって,判別は単発的または断続的にではなく,継続的に行う必要がある.

• 透過性:試験途中でのパスワード入力など,受験者に追加の作業を要求すると,正当な行為や思考の妨げとなり,正確な評定ができなくなる.したがって,不正行為判別は受験者に意識されない形のものでなければならない.

• 同一性:不正行為の監視対象の人物と実際に受験中の人物とが同一であることを保証できる手法でなければならない.

• 耐攻撃性:ここでいう攻撃とは検出を回避しようとする行為を指す.不正行為の検出を受験者や協力者が容易に回避できる手法だとしたら,導入の意味がないので,回避が困難となるような手法でなければならない.

アイトラッカは計測を連続的に行い,受験者に追加の作業を要求しないので,提案手法は,上記の要件のうち,まず継続性と透過性を満足する.

また,アイトラッカで計測した左右の瞳孔間距離は人によって異なり,個人識別に利用できるとの報告がある( Bednarik, Kinnunen, Mihaila & Fr¨anti, 2005).この値が受験者と監視対象の人物との間で異なる場合には検知できることから,同一性も保証される.

耐攻撃性は本論文の実験において検証する.

3. 検証実験

3.1. 実験環境

本実験では,受験者が目の前のモニタに表示された文章題に対して解答するタイプの試験を想定する.日本語の文章を読んでいる時の眼球運動の性質については従来様々な角度から分析が行われている( 神部, 1998; 斎田, 2004; 三根・汐崎・國本・石田・倉田・上田, 2007) が,不正行為時の眼球運動を取り上げたものは見られない.また,条件の違いにより眼球運動に差があることが分かったとしても,眼球運動のどの特性が条件の判別にどの程度利用できるのか,利用できるとしたらどの特性を組み合わせたら効果的なのかを,実際に判別を行い評価する必要がある.そこで,本検証実験は通常受験時と不正行為時の読みの間の眼球運動特性の差異を調べるとともに,差異があった場合にそれらの特徴量からどの程度の判別が可能なのかを確認することを目的とする.

2 に実験環境を示す.モニタは23 型(1920 × 1080 pixel)のノングレアタイプのものである.アイトラッカとしては,装着による実験参加者への影響を避けるために,眼鏡型のものではなく,据え置き型のもの(Tobii X120)を使用した.サンプリングレートは60 Hz である.

一般に眼の挙動はなだらかではなく,一点付近にしばらく留まっては,次の点に素早く変位する運動を繰り返す.ある一点付近に留まる状態を停留といい,停留間の素早い変位運動をサッケードという.本実験に使用したアイトラッカではI-VT フィルタを利用して眼球角速度情報から停留とサッケードの判定を行っている( Tobii Technology, 2012).ここでは,フィルタの設定に以下のデフォルト値を利用した.

max gap length=75ms(補間を行う最大データ欠損時間幅)

noise reduction=MovingMedian(ノイズ低減に移動メディアンフィルタを使用)

max angle between fixations=0.5 deg(視角変化がこの範囲内であれば停留継続とみなす)

minimum fixation duration=60 ms(継続時間がこの値に満たない場合は停留とみなさない)

Tobii Technology(2012) によると一般に瞬目に要する時間は75 ms 以上であり,max gap lengthをこの値に設定することで,瞬目によるデータ欠損を排除できる.また,max angle between fixationsの0.5 deg は本実験環境では画面上の約22 pixel 分に相当し,1 文字の大きさよりも十分に小さい.

実際の不正行為を実験で再現することは難しい.そこで,ここでは課題文読解時点において以下の2 条件を設定し,普通に受験している状況と,聴覚利用型不正行為をはたらいている状況に替える.

• 読解条件:モニタに提示されている課題文を目で追い,読解してもらう.

• 聴取条件:耳に装着したイヤホンから課題音声を聴き取ると同時に,モニタに表示されたダミーの課題文を読むふりをする二重課題を行ってもらう.課題音声を聞くことが,協力者からカンニング情報を取得することに相当し,読むふりをすることが不正行為判別システムへの攻撃に相当する.

図2 実験環境

課題文には実験参加者である大学生等が容易に読解できるジュニア向けの200 字程度の文章を2 つ選んだ.これらの課題文は読解条件,聴取条件にそれぞれ1 つずつ使用される.課題文の情報を表 2 に,課題文のひとつを表示した様子を図 3 に示す.表示フォントにはLaTeX 標準の明朝体を使用した.図の外枠はモニタの表示範囲を表す.

表2 課題文情報
図3 課題文表示時のスクリーンショットの例

また,聴取条件における課題音声には,日本語リスニング試験の中で最もポピュラーで実績のある日本語能力試験からN2 レベルのものを使用した.試験主催者である日本国際教育支援協会の説明( 日本国際教育支援協会2012) によれば,N2 レベルは「日常的な場面に使われる日本語の理解に加え,より幅広い場面で使われる日本語をある程度理解することができる」ものとされ,課題文と同等のレベルと考えられる.課題音声の再生時間は42 秒であり,かな文字換算で221 字の文章である.

3.2. 実験方法

視覚・聴覚とも健常な大学生・大学院生48 名の協力を得て実験を実施し,眼球運動データを取得した.使用したアイトラッカは,コンタクトレンズや眼鏡を使用していてもデータを取得できる仕様のため,該当者には通常の受験時と同様に装着した状態で実験に参加してもらった.

実験参加者には読解条件,聴取条件下でそれぞれ1 回ずつ実験を行ってもらい,データを取得した.その際,課題文および練習効果・疲労効果の要因を考慮し,以下のようにカウンタバランスをとり,12 名ずつ4 パターンの実験を実施した.

• 読解条件に課題文1を,聴取条件に課題文2を使用/読解条件に課題文2を,聴取条件に課題文1を使用

• 読解条件,聴取条件の順に実験を実施/聴取条件,読解条件の順に実験を実施

実験参加者が読解条件下で課題文を理解する意思をもって読んでいたか確認するために,直後に課題文の内容を問うクイズ用紙を配布し,回答してもらった.聴取条件下でも,同様に課題音声の内容について回答してもらった.クイズはいずれも4 つの選択肢から1 つを選ぶ形式のものを用意した.また,実験参加者の読解能力を問うことが目的ではないので,普通に読んだり聴いたりしていれば容易に解けるものになっている.

4. 実験結果

クイズの正答率は読解条件では両文章ともに87.0%,聴取条件では82.6%であった.またどちらの条件のクイズとも解けなかった被験者はいなかった.よって,いずれの被験者も課題文,課題音声を理解する意思をもって臨んでいたと判断した.

また,アイトラッカで得られたデータから,一定割合以上のエラーを含むもの(使用アイトラッカの分析ソフトTobii Studio で“High Confidence” と判定されなかったもの)や,聴取条件において課題文を読むふりができていないと判断されるものなどを除外したところ,データの総数は34 名分となった.聴取条件で課題文を読むふりができているものとできていないものと判断されたデータの例をそれぞれ図 4 の(a),(b) に示す.図 4 の点は視線の停留を,線はサッケードを表す.

図4 聴取条件における読解偽装時の視線の軌跡

4.1. 眼球運動特性の差異

両条件で眼球運動特性に差異があるか確認した.ここでは,取得データから,停留およびサッケードに関するものを含めた,34 個の特徴を抽出した.これらの特徴は, Bulling, Ward, Gellersen & Trö吉村・Kai・黄瀬(2015) などで使用されているものを参考にしたほか,以下の特徴を独自に追加したものである.

• ヒストグラムの左右非対称性の大きいデータについて平均値の他に中央値

• 異常値の影響を除くため,最大値・最小値の代わりに第1・第3 四分位数

表3 読解条件と聴取条件における眼球運動特徴の差

• ヒストグラムの左右非対称性の大きいデータについて標準偏差の他に四分位範囲

• 読み終わりまでの時間の長短の影響を除くため,サッケードの上下左右方向の回数の代わりにその割合

これらの特徴についてMann-Whitney のU 検定を行った結果を表 3 に示す.ただし,「読み終わりまでの時間」,「停留時間総和」については検定を行わなかった.「読み終わりまでの時間」は,聴取条件において平均値が48.01 sec と課題音声の長さに近く,標準偏差も2.08 sec と読解条件時より小さい.つまり,ほとんどの実験参加者が課題音声終了まで読むふりをしたことで得られたデータであり,両条件の判別に利用する意味がないと判断したためである.「停留時間総和」もそれに比例して増減する.

サッケードに関連した特徴について統計的な有意差が見られたのは移動速度のy 成分の平均と標準偏差のみだった.

一方,停留に関しては8 つの特徴のうち,5 つは1%水準で有意,2 つは5%水準で有意となった.読解条件時と比較すると,聴取条件時の停留時間の割合はほぼ変わらないものの,平均・中央値・第1・3 四分位数および標準偏差・四分位範囲は大きくなっており,停留の1 回あたりの長さは大きく,ばらつく傾向となることがこの実験からわかった.

4.2. 読解・聴取条件の判別

前節の分析から,読解条件・聴取条件間に停留特性の差異が存在することが明確に認められたので,ここでは,それを利用して両条件間の判別がどの程度可能なのかを調べる.

ここでは,停留時間に関する特徴のうち,有意差のあった7 つの中から,それぞれ別個の側面を表すと思われる平均値と標準偏差を説明変数とした.また,判別には1-最近傍法,ロジスティック回帰分析,3 層パーセプトロンを用いた.いずれの手法でも10-fold の交差確認を行った.

1–最近傍法は,照会事例を相違度が最も小さい事例と同じカテゴリに分類する手法である.ここでは,特徴量を標準化し,そのベクトル間のユークリッド距離を相違度とした.ロジスティック回帰分析は,事例があるカテゴリに属する確率 p のロジットを,以下のように特徴量 x i の重み付き線形和で表現できると考え,分類する手法である.

多層パーセプトロンは,ニューラルネットワークの一種であり,単純パーセプトロンを層状に結合した非線形判別手法である.本実験で使用した3 層パーセプトロンは判別に一般的に利用されるものであり,各々1 層の入力層,中間層,出力層から構成される.入力層のノード数は2 であり各特徴量の値が入力となる.出力層のノード数は1 で,出力値の範囲は(0,1) である.読解条件・聴取条件の場合にそれぞれ出力値が0 と1 に近くなるように誤差逆伝播法で学習した.

評価結果を表 4 に示す.表におけるMAE(mean absolute error),FAR(false accept rate),FRR(false reject rate)はそれぞれ平均絶対誤差,聴取条件における他人受入率と本人拒否率である.3 層パーセプトロンは,評価が最良となった中間層が3 ノードの場合の結果を示してある.いずれもMAE に大差はなく,ロジスティック回帰分析と3 層パーセプトロンの正解率はともに.809という結果となった.正解率はほぼ同じだが,FAR/FRR の値は異なっている.

また,別途説明変数を停留時間の中央値,四分位範囲として分析した場合の結果を表 5 に示す.説明変数が平均値,標準偏差のケースと比較すると,1–最近傍法のみMAE が改善されるものの,いずれも正解率は8 割を切る結果となっている.

説明変数が平均値,標準偏差のケースでロジスティック回帰分析で得られた関係式を以下に示す.

表4 平均値,標準偏差を説明変数とした場合の各判別手法の評価結果
表5 中央値,四分位範囲を説明変数とした場合の各判別手法の評価結果
図5 ロジスティック回帰モデルによる判別時のしきい値とFAR/FRR の関係

このときの赤池情報量規準(AIC)の値は67.1 だった.説明変数を平均値,標準偏差のみにした場合のAIC はそれぞれ81.9,69.7 だったので,それらと比較して2 変数モデルの方がよく適合している.

次に,この回帰式において閾値を変化させた場合のFAR とFRR のプロットを図 5 に示す.EER(equal error rate;等エラー率)は閾値.45 の時となり,値は.21 だった.また,FAR=0 となるのは閾値.72 付近で,その時のFRR は.41 だった.つまり,不正行為をしていない受験生にほぼ影響がないところまで閾値を上げても,なお6 割程度不正行為を検出できる.これは不正を行う受験者にとって依然高水準のリスクといえる.

実験参加者中4 人は停留時間の平均が聴取条件の方で短くなっており,これが誤判別の原因のひとつとなっている.4 人のデータを調べると聴取条件下での「全体に対する停留時間の割合」が共通して低い.具体的には,参加者全体の平均と標準偏差は両条件でいずれも.6,.2 程度と大差ない(表 3 参照)のに対し,4 人の値は表 6 のようになっている.このことから,停留時間の割合が小さい参加者には別の手がかりからの判別も行うことで,誤判別を低減できる可能性があると考えられる.

表6 聴取条件の停留時間平均の方が小さい参加者の「全体に対する停留時間の割合」

5. おわりに

本論文では,自宅受験などの監督者をつけないオンライン試験において,聴覚利用型不正行為を検出する手法について検討した.最近の情報通信技術の進歩により,不正行為に用いられる機器を試験中に発見することはますます困難になっている.オンライン試験で遠隔監視システムを導入した場合,固定視点からの監視になるなどの制約がさらに加わるため,他のアプローチを検討する必要がある.そこで,ここでは受験者の眼球運動特性に着目し,アイトラッカを用いて聴覚利用型不正行為を判別することとした.

ここでは受験者が課題文を読み,解答する形式の試験を想定し,課題文読解時点で,文章を通常通り読解する場合と,読解偽装しながら音声課題を聴取することで不正行為を模擬した二重課題を行う場合とで眼球運動特性を比較することにした.48 名の参加者の協力を得て実験を実施し,不適切分を除外した34 人のデータについて分析した結果,34 個の特徴のうち,主に停留に関係した9 個の特徴において有意差が見られた.さらに3 種類の手法を用いて判別分析を行ったところ,ロジスティック回帰分析を用いた時の等エラー率が.21 となった.判別性能は現在実用化されている指紋認証や静脈認証ほど高くない.これは,この認証法が行動認証の範疇に属するものであり,個々人でほぼ確実に異なる身体的特徴を利用したものではないためである.実際,関連研究で挙げた替え玉判別研究も, 橋本他(2013) のように身体的特徴も判別に利用しているものは例外として,正解率は80%前後である.また,本実験では比較的多くの実験参加者からデータを取得し,交差確認も行うよう配慮しており,関連研究と比較して結果の妥当性が確保されていると考えられる.結果,本実験によって事前訓練を行っていない受験者の場合の耐攻撃性が確認できたといえる.提案した判別手法は継続性,透過性,および同一性も満足する.

ただ,本論文では以下の制約がある.

(1) 受験者が読解を行っている最中での検出を想定し,思考中,回答中等の他の時点でのことは 考慮していない.

(2) 読み返しのない眼球運動データを取得する目的で,ジュニア向けの容易な短文を課題に用いている.そのため,文章の難易度が高くなり,読み返しや,思考をしながらゆっくりと読み進める読み方などが混在する場合や,飽きや疲労などが表れた場合には,眼球運動特性が変わることが予想される.

(3) 今回の実験では参加者に訓練なしで二重課題を行ってもらったが,事前に訓練を行った場合には,参加者の偽装が巧妙になり,耐攻撃性が低下する可能性もある.

(4) 受験者の眼球運動特性が共通であることを前提とし,4.2. 節で見られた停留時間割合の低い一部の受験者などは考慮していない.

これらへの対応が,今後の課題として残されている.

脚 注
1  本論文では,受験者が不正を行っているか否かを正しく判別する率

2  False Reject Rate(本人拒否率):不正を行っていない受験者を行っていると誤判別する率

3  False Accept Rate(他人受入率):不正を行っている受験者を行っていないと誤判別する率

4  Equal Error Rate(等エラー率):FRR とFAR が等しくなるように判別閾値を設定した時の誤判別率

Acknowledgments

成蹊大学理工学部の中野有紀子教授には本研究を進めるにあたり多大なご支援をいただいた.また,本研究の一部はJSPS 科研費基盤(C)25350355 の助成を受けた.ここに感謝します.

References
 
© 2017 Japanese Classification Society
feedback
Top