The rapid evolution of machine translation and generative AI in recent years—driven by big data—has resulted in output that closely approximates natural human language. Against this backdrop, a growing body of literature has advocated for the integration of such technologies into English language education. Nevertheless, practical classroom-based applications remain limited, and few studies have provided concrete evidence to substantiate the pedagogical benefits of machine translation. This study aims to evaluate the effectiveness of machine translation as a tool for learning English writing by examining cerebral hemodynamic responses and learners’ actual writing performance. Japanese university students with TOEIC scores in the low 600s were divided into two groups: those who used machine translation and those who did not. The analysis revealed that activating the brain region associated with language production—specifically, Broca’s area—may be essential for fostering writing proficiency. Although the use of machine translation was found to have limited influence on the activation of this area, it showed potential utility in facilitating vocabulary acquisition. These results suggest that while machine translation may not fully support the cognitive processes underlying syntactic production, it can serve as a complementary tool promoting language learning.
モデル文提示の英語ライティング学習の研究は少なからず存在するが,生成AIや機械翻訳が生成した英文をモデル文として提示し,その学習効果を測った研究は数少ない。しかし昨今の生成AIや機械翻訳は,文法等の誤りもほとんど認められず,インターネット上に溢れている英語の慣用的な使用法をベースとしているため,例えば教科書に掲載されているモデル文よりも,ある意味,海外で実際に使用されている「生きた」英語のロール・モデルとなり得るのではないかと考えた。本研究では,従来の教師によるフィードバック型のライティング学習と比べ,このような「AI支援型モデル文提示」のライティング学習にどのような教育的効果があるかを,実際のライティング・パフォーマンス及び脳血流量の観点から調査した。
昨今,機械翻訳や生成AIを第2言語 (外国語) 学習に応用することを論じる先行研究が増えているが (Son et al., 2025),筆者の考えによれば,それらは大きく3つのグループに分類される。まず,第2言語 (外国語) 学習における生成AIや機械翻訳利用についての筆者の考えを述べるものである。例えばBetal (2023) やWei (2023),Choukaier (2024) は,AIテクノロジーは,個別最適化学習,即時のフィードバックや学習評価,自律学習,動機づけ等といった点で第2言語習得にとって効果的であると論じている。Kristiawan et al. (2024) は英語教育へのAIの導入は,学習結果を促進し,動機づけを高めるツールや戦略を提供する可能性が十分あると述べ,Almelhes (2023) は今後はチューターとしてのAIが果たす役割が大きくクローズアップされるだろうと予想している。こうした論調を代表する形で,Godwin-Jones (2024) は,AIは“learner-tool-environment” (pp. 7-8) の3者の関係性に大きな変革をもたらし,この現象は言語教育にとっての“dynamically shifted ecosystems” (p. 8) を象徴していると述べている。日本では,山中 (2019) はAIに端を発する「英語教育解体論」を展開しているが,木村 (2024) は,むしろAIと共存したり,それを取り込むことで,英語教育は新たな可能性を示していくことになるだろうと指摘している。
2つ目は,生成AIや機械翻訳利用に関する学習者の意識・姿勢・習慣等の調査である。例えばKumar (2023) は,パキスタンの大学生のAI利用に関する意見や実践について調査を行い,こうした学習法は効果的かつ動機づけを高め,積極的に推進すべきであると主張している。日本でも,例えば佐藤 (2023) の調査では,全体的に機械翻訳が授業に導入されても英語学習は必要と感じる学生の割合は高いことが示された。一方,横野 (2023)は,今後AI通訳・翻訳の発達とともに,英語を教養科目としてのみ学ぶ大学生の英語学習意欲が低下し続ける可能性を危惧し,そのためにも教養課程での英語の授業の目的や方法の再考の必要性を訴えている。
3つ目は,生成AIや機械翻訳を利用した実践研究であり,多くがそのような学習法が有効であることを指摘している (Gayed et al., 2022; Lee & Davis, 2024; Syifauddin & Yuliansyah, 2023; Ziwen & Hongwei, 2025)。例えばZhang and Huang (2024) は,大規模言語モデルは第2言語教育に革命的な変革をもたらす可能性を秘めていると主張し,Wei (2023) は,AIを搭載した学習アプリは,学習を個人のレベルやニーズに合った,より面白く,手軽に行える身近な体験とし,内発的動機づけや自己効力感を高め,自律学習の促進に効果的であると論じている。一方,Karataş et al. (2024) は,トルコの学生にChatGPTを利用した英語学習を行わせ,文法,ライティング,語彙習得に関してこうした学習法が有効であると指摘している。日本でも,例えば山下他 (2024) は,Grammarly,DeepL,ChatGPTを搭載した英作文支援ツールTransableを授業の中に導入した結果を報告し,岩中 (2023) は,ライティング支援ツールCriterion®のフィードバックの効用について論じている。
2.2 モデル文提示型ライティング学習法と教師によるフィードバック型ライティング学習法遠山 (2017) は,モデル文提示のタイミングと英語ライティング学習の関係性について調査した。日本人の大学生及び大学院生38名を,(a) 書く活動を行った後モデル文を見る群,(b) モデル文を見てから書く活動を行う群,(c) モデル文を見ずに書く活動を繰り返す群の3群に分類し,Schmidt の気づき仮説及びSwain のアウトプット仮説をベースとして,以下の仮説を形成した。すなわち,(c) 群は書いた時に感じる自分の知識の穴に対する気づきしかないものの,(b) 群は加えて初めにモデル文を見ているため形式への気づきがあり,(a) 群は自分が犯した誤りに対する気づきも促されるため,3群の中で (a) 群が最もライティング学習が促進すると予測した。しかし調査の結果,各群において予想された気づき自体は観察されたものの,(a) 及び (b) 群は (c) 群よりも有意に正確性の向上が見られたが,(a) 群と (b) 群の間で有意な差は確認されなかった。つまりモデル文提示自体の効果はあっても,異なるタイミングで提示することの効果はないと言える。遠山はさらに考察を進め,(c) 群でも確認された穴への気づきはライティング学習にとってさほど重要ではなく,また,(a) 群のみに誤りへの気づきが認められたが,(a) 群と (b) 群間に正確性の点で有意差が生じなかったことから,誤りへの気づきもそれ程重要ではなく,すなわち,(a) 群及び (b) 群ともに観察された形式への気づきが最も重要な要素である,と結論づけている。
田辺 (2023) は,日本人の中学生約200名に対し,教科書に掲載されているモデル文を定着させる活動 (段落毎にカードを作成し,つなぎ言葉を意識しながら内容を捉え,まとまりのある英文に並べ替える,等) を実施し,その後何度か段階的に書く練習をさせた上で,事後ライティング及び質問紙調査を実施した。その結果,モデル文の提示により形式への気づきが促され,また,内容,構成,正確さの点で格段にパフォーマンスが向上していることが確認された。とりわけ内容に関しては,伝えたい内容はあるもののそれをどう伝えればよいか分からなかった際に,モデル文から言語形式の気づきを得たことで表現の幅が広がったのではないか,また構成に関しても,当初は一文ずつ書くことばかりに注意が向き,全体の構成までは考えられなかったが,モデル文を手本とすることで構成に関する気づきを得られたのではないかと田辺は推測している。
国外では,Ayyash and Khalaf (2016) が,これから書こうとしているトピックに関わる別の英文を読むことが,いかに学習者のライティング・パフォーマンスの向上に寄与するかを検証した。パレスチナの大学生67名を実験群と統制群に分け,実験群にはライティング前にそのトピックに関わる内容の英文エッセイを読ませ,両群のパフォーマンスを比較した。その結果,実験群のパフォーマンスの方が有意に優れ,とりわけ結論部で再度main ideaを強調したり,具体的な理由や詳細な例を提示する点で優れていることが確認された。Ayyash and Khalaは,こうしたpre-writing activityは,読んだものを自身のライティングのモデルとすることで,ライティング・スタイルや新しい語彙,構成,テクニック,読みやすさ等について学ぶことができるだけでなく,使用する語彙や表現,扱うトピックの幅を広げることにも繋がり得ると指摘している。
一方,Abbuhl (2011) は,自身の研究の結果に基づき,ライティング学習にもたらすこうしたモデル文を読む効果は,学習者の英語習熟度に拠らずに観察されるが,モデル文を読むだけでは学習者は“target rhetorical features” (p. 8) にまで意識が向かないことも多く,モデル文提示とともに“explicit instruction” (p. 9) を行う必要性も訴えている。
従来の教師によるフィードバック型ライティング学習に関しては,米村 (2018) は,日本人高校生60名を,直接的フィードバックをもらうグループ,間違いのみを指摘し訂正は学習者に委ねる間接的フィードバックをもらうグループ,修正はせず学習者自身が誤りを見つけて訂正させるグループ,全くフィードバックを行わずに次のライティングを行わせるグループの4グループに分類し,事前・事後ライティングを実施して,その効果を比較検証した。調査の結果から,前者2つのグループ,とりわけ間接的フィードバックのグループが,他のグループと比べ,事後ライティングにおいて正確性の向上が認められた。その理由として米村は学習経験を挙げている。すなわち,本実験の参加者は英語学習を始めてまだ3年と学習経験が浅く,Kellogg (2008) の言う「知識伝達モデル (Knowledge-Telling)」の段階にあり,このモデルではライティングは学習者の知識のみに依拠しており,知識の再構成は不可能であるという。文法的正確性が向上した領域について,項目毎に検証したところ,「動詞時制」の領域で顕著に正確性の向上が確認されたが,「動詞時制」といった比較的単純な文法間違いは,間違いを指摘されるだけでも,比較的容易に自身の知識の範囲内で修正が可能であり,これが正確性を押し上げた要因ではないかと米村は推測している。一方,前置詞の誤りは上昇しており,これは参加者が前置詞の用法に関する知識が極めて限定されており,結果的に知識の再構成が機能しなかったことによるものと考えられる。
望月 (2024) は,非明示的な直接的フィードバックを日本人大学生24名に与え,フィードバックが与えられる前後の英文を,流暢さ (文字数),正確さ,複雑さの点で比較検証した。望月によれば,学習者が書いた英文を修正後Google Classroomを通して返却すると,どこがどのように修正されたかが分からなくなってしまうため,この点で本フィードバックは「非明示的」であるという。調査の結果から,流暢さと複雑さは有意な向上が見られたが,それらについては他の要因によるものが大きいと推測され (例えばフィードバック後のライティングでは文字数が指定されたり,ライティングを行う直前に読んだ英字新聞の記事内の表現をそのまま使用した可能性がある点等),正確さについては有意な変化は認められなかった。その要因として望月は二つの可能性を指摘している。一つは,この種のフィードバックに対する学習者の理解の限度である。たとえフィードバックが与えられても,何がどのように修正されたのかを理解しない限り,正確さの向上には繋がらない。また,ライティングを電子端末上で行ったことも一つの要因と考えられる。例えばWord等のアプリを利用すると,綴りや文法等の誤りは自動的に訂正されてしまい,そうした誤りに対する気づきは促されない。この種のフィードバックが文法の正確さに及ぼす影響については,米村 (2020) も,日本の高校生45名を対象に,非焦点化フィードバックの観点から考察している。焦点化フィードバックとは,特定の文法項目に絞ったフィードバックのことで,最初からどの項目についてのフィードバックであるかが分かっているため認知的負荷が低く,特に習熟度が低い学習者にとって有効である。一方,非焦点化フィードバックとは,対象とする文法項目が限定されないフィードバックのことで,米村はそうした非焦点化された間接的フィードバックを,英語学習を始めて3年目の学習者に与え,直接的フィードバックよりも文法の正確性の向上が確認されたと報告している。文法項目が限定されていないとはいえ,学習経験を3年間積み上げた学習者は,その経験から間接的フィードバックの意味するところをある程度推測することができ,直接的フィードバックより高い教育的効果が得られたのではないかと推測している。
西尾・猪井 (2012) は,日本の中学生95名を対象に,英語ライティング学習に有効な修正フィードバックの種類と英語習熟度の関係性について調査している。本調査では,教師による口頭でのフィードバックを,メタ言語フィードバック (正しい文法的形式を直接与えるのではなく,間接的に示し,学習者が自ら正しい形式を産出できるように促す暗示的修正方法),リキャスト (学習者が間違えた後で,エラーを正しく言い直す明示的修正方法),意味内容をベースとしたフィードバック (形式ではなく,意味内容に着目させ,結果的に形式への気づきを促す修正方法) の3種類のフィードバックに分け,どの種類のフィードバックが過去形のアウトプットの正確性に寄与するかを調査した。結果,1番目のフィードバックが他の2つのフィードバックに比べ,長期にわたり有意に維持されたことが判明したが,この種のフィードバックは習熟度が高い学習者にのみ有効で,習熟度が中程度の学習者に対してはリキャストの方が有効であることが判明した。その要因として,言語的な知識や技能を身につけている学習者には,ある言語形式に注目しアウトプット活動を通して自らの言語的なエラーに気づき,修正を促すメタ言語フィードバックは有効だが,言語的知識はあるものの,それをまだ活用する段階に至っていない学習者には,まずは正しい形式を伝え,それを反復練習させるリキャストが有効である点が指摘された。
2.3 脳血流と第2言語教育研究19世紀に脳機能に関する研究が始まり,ブローカ野,ウェルニッケ野,角回・縁上回という言語機能を担う3つの脳の領域が特定された (藤本・田浦, 2011)。それに伴い,飛田・湯舟 (2014) も指摘しているように,これまでは筆記試験やアンケートの結果といった経験則に基づき学習成果の要因や学習の際の認知過程を推測するといった方法が主流であったが,脳のこの3領域の活動状態を調べることで,より直接的な証拠やデータを入手することが可能となった。これらは脳機能イメージングと呼ばれる手法によって行われ,脳波 (Electroencephalogram) や機能的磁気共鳴画像法 (Functional Magnetic Resonance Imaging) といったものがあるが,中でも近赤外線分光法 (near-infrared spectroscopy [NIRS]) は,非侵襲的,そして何より学習者があるタスクに従事している際の脳血流量の測定が可能である点で (Farrukh et al., 2025),高額な点や煩雑さの点で研究自体の数は少ないものの,第2言語教育研究においては比較的好んで利用されてきた。例えば湯舟 (2011) は,チャンクで区切ったリーディングのトレーニングを積むことで,脳への負担がいかに軽減されるかをNIRSを用いて検証した結果,文法解析の作業を司るブローカ野の血流量が減り,速く読むために必要な,音韻符号化の高速化に関連する聴覚性言語野のウェルニッケ野での上昇が見られたことを受け,リーディングの自動化が促進されたと推測している。また,飛田・湯舟 (2014) は,NIRSを使って学習者特性と教材の相関関係を調べ,表面上は学習しているように見えても,実は脳が活性化していない場合もあることを指摘した。Farrukh et al. (2025) は,パキスタンの大学生にあるイメージを提示し,それを言語化するタスクを行わせたところ,“language production” (p.1) を担う左脳に脳血流の上昇が認められたと報告している。大石・木下 (2008) は,学習者に第1言語と第2言語のリスニング課題を行わせ,NIRSを用いてその際の脳血流量を測定した。まず,脳血流量の変化は実際には何を意味しているかという問いに対し,脳血流量と注意量は正の相関があるとする先行研究の結果を踏まえ,課題に振り向ける注意量を示しており,さらに言えば,課題が難しくなれば当然のことながら注意量も増え,課題の難易度とも正の相関があるとした。これを仮説として,第2言語によるリスニング課題に従事している学習者の脳血流量を測定したところ,実際に第1言語のそれよりも高いことが示され,第2言語を伴う課題の方が,情報処理の自動化の度合いが低く,結果,より多くの注意量を必要とすると指摘している。
2.4 先行研究を踏まえた本研究のリサーチ・クエスチョン上記の先行研究から,教師によるフィードバックは,学習者の習熟度をよく踏まえ,そのレベルに即したフィードバックを与えることが重要であり,反対にレベルに適合しないフィードバックを与えると,いくらその中で正しい形式を伝えても,学習者がそれに気づかないことも多いことが確認された。いずれにせよ,学習者のレベルに即したフィードバックを与えることが非常に難しい方法だと言えるだろう。一方,モデル文提示型のライティング学習法も,気づきをベースとしている点では同じだが,学習者の習熟度がある程度高い場合は,提示されたモデル文から,自身のニーズに合わせ好きなだけ吸収できる点で,教師によるフィードバック型学習法よりも教育的効果が高いと言えるのではないだろうか。一方,上記の先行研究にもあるように,学習者のライティング・パフォーマンスを数値化して,その変化の要因となり得るもの (例えば学習者の認知過程) を質問紙調査の結果等だけから推測しても,直接的な証拠とは言い難く,根拠としては不十分な場合もあり得る。
以上より,本研究のリサーチ・クエスチョンは以下の通りである。
(1) 日本の大学生としては比較的英語習熟度の高い学習者に,モデル文提示型のライティング学習法と教師によるフィードバック型のライティング学習法を実施させた場合,どちらの学習法の方が教育的効果は高いか (どちらの方がライティング・パフォーマンスが高いか)。
(2) モデル文提示型のライティング学習法を実施している時と教師によるフィードバック型のライティング学習法を実施している時とで,両者の間に脳血流量の差異は見られるか。また,差異が見られる場合,両者のライティング学習の際の認知過程 (例えば文のどの要素 (構文,文法,語彙等) にとりわけ注意を振り向けているか) に具体的にどういった差異があると推測されるか。
また,今回のモデル文提示型の学習法は,従来の方法とは機械翻訳のモデル文を利用する点で異なり,その点で特異な教育的効果が見られる可能性がある。したがって,
(3) 機械翻訳が生成したモデル文を利用することで特異な教育的効果は見られるか。それは何か。
以上3つを本研究のリサーチ・クエスチョンに据える。
調査の際にまとまった量の英文を書いてもらうため,また,両群の条件を同じくするため,TOEICスコア約600点台前半の18~20歳の商学を専門とする日本人大学生18名を対象に,機械翻訳 (Google Translate; 調査当時は今ほど生成AIが普及していなかった為) を提示して英語ライティング学習を行う参加者A群9名 (男: 8名,女: 1名) と,利用せずに学習を行う参加者B群9名 (男: 6名,女: 3名) とに分け,NIRSを用いて脳血流量を測定した。近赤外線の光は生体組織中のヘモグロビンに吸収されるため,近赤外線の光を脳に照射することで,ヘモグロビン濃度の相対的変化や血中の酸素化状態,また脳血流量自体の変化を測定することが可能である。また,血流量を測定する脳の領域はブローカ野と呼ばれる領域を中心に行った。ブローカ野は「言語中枢」とも称され,文法処理や統語処理を司る脳の領域とされている。利き手が右手の場合,ブローカ野はほぼ100%左脳の前頭葉に位置するといわれているが,利き手が左手の場合,必ずしもブローカ野が同部位に位置するとは限らないため,参加者は利き手が右手の学生のみに限定した。
参加者A群には,こちらで用意した日本文 (参加者の専門を考慮してビジネス・レター) とそれをGoogle Translateで英語に翻訳したものを比較し (図1),学習した上で (3分間),よく似た内容の別の日本文 (図2) を自力で英訳してもらった (この間辞書は使用可で時間制限なし)。機械翻訳がライティング学習の際のロール・モデルとなり得るかどうかについては検証すべき余地があるが,インターネット上に溢れている英語使用を基に生成され,最近はほとんど誤りも認められない為,本研究では一定のロール・モデルになり得ると判断した。図1の日本文と機械翻訳を比較し,その後,図2の日本文を英訳している間の参加者A群の脳血流量を測定し,同時に,脳血流量のデータとその間の参加者A群の動作を比較するため,学習及びライティング中の参加者の様子を許可を得て録画した。その後,両者 (脳血流量のデータと参加者の様子) を見比べながら,英訳した際に何を考えていたか等について参加者A群と半構造化インタビューを実施した。
一方,参加者B群には,まずこちらで用意した日本文 (ビジネス・レター) (図1の上半分の日本文) を自力で英語に訳してもらい (この間辞書は使用可で時間制限なし),その後それを20年以上大学英語教育に携わっている大学教員に,通常行っている方法と同じ方法 (明示的な直接的フィードバック) で添削してもらうよう依頼し,後日返却した添削を学習した後で (3分間),よく似た内容の別の日本文 (図2) を再度自力で英訳してもらった (この間辞書は使用可で時間制限なし)。教師からの添削を読み,図2の日本文を英訳している間の参加者B群の脳血流量を測定し,同時に,脳血流量のデータとその間の参加者B群の動作を比較するため,学習及びライティング中の参加者の様子を許可を得て録画した。その後,両者を見比べながら,英訳した際に何を考えていたか等について参加者B群と半構造化インタビューを実施した。



両群ともに,上記のライティング学習から約1か月後,長期記憶をはかるために,よく似た内容の別の日本文 (図3) を再度自力で英訳してもらった (この間辞書は使用可で時間制限なし)。この1か月の間,両群ともに英語の学習について特に制限を設けることはなかったが,最後のライティング・パフォーマンスに直接的な影響を与えるような要素を除去するため,約1か月後に再度ライティングを実施する旨は伝えたものの,具体的に何を書くかについては伝えず,また,日本文や機械翻訳,参加者が書いた英文等は,この時点で全て回収した。
後日,それぞれの群から得た脳血流量のデータをMATLAB R2022bを用いて分析・グラフ化し,その後IBM SPSS Statistics 26を用いて,最初の3分間の学習,すなわち参加者A群は日本文と機械翻訳の英文を比較している間,参加者B群は自分が書いた英文の添削を見直している間の脳血流量に統計的な有意差があるかどうかを検証した。
参加者が訳した英文については,後日20年以上日本の大学の英語教育に携わっている英語のネイティブスピーカーの教員に依頼し,(1) Logical connection (文同士が論理的に結びついているかどうか),(2) Linguistic correctness (文法的に正しい英文が書けているかどうか),(3) Linguistic appropriateness (ビジネス・レターの形式に沿った書き方のスタイルや用法等が用いられているかどうか),(4) Vocabulary (ビジネス・レターの形式に沿った表現や言い回しが用いられているかどうか),(5) Spelling (単語のスペルが正しく書けているかどうか),(6) How much the goal of the letter is achieved (レターの目的がどれ程達成されているか),(7) How well the letter is written as a whole の7項目について,5 (Excellent)~1 (Not good at all) の評点法で評価してもらい,両群のライティング・パフォーマンスに統計的有意差があるかどうかを検証した。この7項目については,Schaefer (2008) の分析的評価ルーブリックを基に,本研究の参加者が書く英文が,目的を相手に効率的に伝える必要のあるビジネス・レターである点も考慮して設定した。また,それぞれの群において1回目と2回目のライティング・パフォーマンスに統計的有意差があるかどうかも検証した。
インタビューの内容は全て録音し,後日書き起こした上で,質的データ分析ソフトNVivo 12を用いて分析を行った。
本実験にあたり,あらかじめ著者が所属する大学の倫理審査委員会の承認を得 (承認番号: 2023-h02),脳血流量データ,ライティング・パフォーマンスのスコア,インタビュー内容の論文使用について各参加者からインフォームド・コンセントを得た。
参加者A群,参加者B群ともに最初の3分間の学習の間の脳血流量データ (oxy-Hb (酸素化ヘモグロビン量)) は正規分布をなしているとは言えなかったため,Mann–WhitneyのU検定を実施した。結果,両者の血流量に統計的有意差は見られなかったが (p=.113 > .05),効果量は大きく,今後さらなる検討が必要であると考えられる (表1)。
| 参加者A群 | 参加者B群 | p値 | d (効果量) | |||||
|---|---|---|---|---|---|---|---|---|
| M (oxy-Hb) | SD | M (oxy-Hb) | SD | |||||
| 653.44 | 31336.37 | 23194.02 | 25612.88 | 0.113 | 0.79 | |||
| 脳血流量 (oxy-Hb) | 参加者A群 (N=9) | 参加者B群 (N=9) |
|---|---|---|
| 75,001 ~ 100,000 | 0 | 1 |
| 50,001 ~ 75,000 | 0 | 0 |
| 25,001 ~ 50,000 | 1 | 1 |
| 0 ~ 25,000 | 5 | 7 |
| -25,000 ~ -1 | 2 | 0 |
| -50,000 ~ -25,001 | 0 | 0 |
| -75,000 ~ -50,001 | 1 | 0 |
最初の3分間 (0-180秒) の学習中の心理状態について参加者と半構造化インタビューを行った。以下の図は参加者の脳血流量の変化をグラフ化したもので,右のコメントは,この間の心理状態について,当該参加者のインタビュー内容を簡単に要約したものである。トリガ時 (学習を開始した瞬間。参加者A群は日本文と機械翻訳とを比較し始めた瞬間,参加者B群は返却されたフィードバックを学習し始めた瞬間を指す。グラフ上では横軸 (時間) の0で示されているポイント) 以降の血流量の変化を調べるため,トリガ時より1分前から測定し始め,データ入手後,加算平均処理 (絶対値ではなく,トリガ時からの相対的な血流量の変化を検証するためのデータ処理),ベースライン処理 (トリガ時に血流量を0に設定するためのデータ処理),波形強度の正規化 (参加者間の比較を行えるようにするためのデータ処理) を施して脳血流量をグラフ化した。
4. 2.1 参加者A群 【参加者A群1】








参加者A群は,最初の学習時間の3分の間,機械翻訳のモデル文中に使用されている語彙や表現に意識が向いたという声が圧倒的多数を占めた。また,この間,文法処理や統語処理を司るブローカ野の脳血流量が概してそれ程上昇していないことがグラフから読み取れる。
4.2.2 参加者B群一方,参加者B群に関しては以下のような結果が得られた。
【参加者B群1】








参加者A群と比較して,参加者B群は,最初の学習時間の3分の間,文法や構造,全体的な構成等について色々考えをめぐらしたり,悩んだりしたというコメントが多かった。また,文法や構造について考えあぐねている時に,ブローカ野の脳血流量が上昇していることが確認できる。
4.3 ライティング方法のセクションで述べたように,参加者A群に関しては日本文と機械翻訳とを見比べ学習した直後に書いた1回目の英文と約1か月後に書いた2回目の英文,参加者B群に関しては添削された英文をよく見直した直後に書いた1回目の英文と約1か月後に書いた2回目の英文を,(1) Logical connection,(2) Linguistic correctness,(3) Linguistic appropriateness,(4) Vocabulary,(5) Spelling,(6) How much the goal of the letter is achieved,(7) How well the letter is written as a wholeの7項目について,ネイティブスピーカーの教員に1~5点の評点法で評価してもらい,両群のスコアに統計的有意差があるかどうかを検証した。項目 (1) の2回目及び項目 (5) の1回目は両群共に正規分布をなしていないとは言えなかったためt検定を,それ以外に関しては正規分布をなしているとは言えなかったためMann–WhitneyのU検定を実施して検証した (表3)。
| A群 (N=9) | B群 (N=9) | p値 | d (効果量) | ||||||
|---|---|---|---|---|---|---|---|---|---|
| M | SD | M | SD | ||||||
| (1) Logical connection | |||||||||
| 1回目 | 4.11 | 0.78 | 4.44 | 0.53 | 0.436 | 0.50 | |||
| 2回目 | 3.67 | 0.87 | 3.67 | 0.87 | 1.000 | 0.00 | |||
| (2) Linguistic correctness | |||||||||
| 1回目 | 3.11 | 0.78 | 2.67 | 0.70 | 0.258 | 0.59 | |||
| 2回目 | 2.67 | 0.70 | 3.00 | 0.70 | 0.387 | 0.47 | |||
| (3) Linguistic appropriateness | |||||||||
| 1回目 | 3.33 | 1.00 | 3.11 | 0.60 | 0.666 | 0.27 | |||
| 2回目 | 2.89 | 0.60 | 3.22 | 0.67 | 0.340 | 0.53 | |||
| (4) Vocabulary | |||||||||
| 1回目 | 4.22 | 0.67 | 3.78 | 0.44 | 0.190 | 0.79 | |||
| 2回目 | 3.33 | 0.87 | 3.89 | 0.78 | 0.297 | 0.67 | |||
| (5) Spelling | |||||||||
| 1回目 | 3.89 | 0.78 | 3.56 | 0.88 | 0.409 | 0.40 | |||
| 2回目 | 4.78 | 0.44 | 4.44 | 0.73 | 0.387 | 0.56 | |||
| (6) How much the goal of the letter is achieved | |||||||||
| 1回目 | 4.00 | 0.71 | 4.00 | 0.50 | 1.000 | 0.00 | |||
| 2回目 | 3.33 | 1.00 | 3.78 | 0.67 | 0.340 | 0.52 | |||
| (7) How well the letter is written as a whole | |||||||||
| 1回目 | 3.22 | 0.83 | 3.00 | 0.50 | 0.489 | 0.32 | |||
| 2回目 | 3.00 | 0.87 | 3.33 | 0.50 | 0.258 | 0.47 | |||
表3から,(5) Spelling の2回目に関しては両群ともに平均値と標準偏差の和が測定値の最大値5を超えており,天井効果が発生している可能性があるが,1回目及び2回目ともに,全ての項目において両群のスコアに統計的有意差はないことが分かる。ただし効果量に目を遣ると,(4) Vocabularyの1回目が0.79と他の項目や回と比べてかなり高く,直前に機械翻訳のモデル文を確認したことが,vocabularyに関して,かなりライティング・パフォーマンスに良い影響を与えたことが理解できる。
一方,各群の1回目と2回目のライティング・パフォーマンスを比較するため,項目 (1) の参加者A群については,1回目,2回目ともに正規分布をなしていないとは言えなかったためt検定を,それ以外に関しては正規分布をなしているとは言えなかったためWilcoxonの符号付き順位検定を実施した (表4)。
| 1回目 | 2回目 | p値 | d (効果量) | ||||||
|---|---|---|---|---|---|---|---|---|---|
| M | SD | M | SD | ||||||
| (1) Logical connection | |||||||||
| 参加者A群 (N=9) | 4.11 | 0.78 | 3.67 | 0.87 | 0.035 | 0.84 | |||
| 参加者B群 (N=9) | 4.44 | 0.53 | 3.67 | 0.87 | 0.084 | 0.65 | |||
| (2) Linguistic correctness | |||||||||
| 参加者A群 (N=9) | 3.11 | 0.78 | 2.67 | 0.70 | 0.102 | 0.61 | |||
| 参加者B群 (N=9) | 2.67 | 0.70 | 3.00 | 0.70 | 0.317 | 0.33 | |||
| (3) Linguistic appropriateness | |||||||||
| 参加者A群 (N=9) | 3.33 | 1.00 | 2.89 | 0.60 | 0.046 | 0.84 | |||
| 参加者B群 (N=9) | 3.11 | 0.60 | 3.22 | 0.67 | 0.564 | 0.19 | |||
| (4) Vocabulary | |||||||||
| 参加者A群 (N=9) | 4.22 | 0.67 | 3.33 | 0.87 | 0.023 | 1.14 | |||
| 参加者B群 (N=9) | 3.78 | 0.44 | 3.89 | 0.78 | 0.655 | 0.14 | |||
| (5) Spelling | |||||||||
| 参加者A群 (N=9) | 3.89 | 0.78 | 4.78 | 0.44 | 0.046 | 0.84 | |||
| 参加者B群 (N=9) | 3.56 | 0.88 | 4.44 | 0.73 | 0.054 | 0.76 | |||
| (6) How much the goal of the letter is achieved | |||||||||
| 参加者A群 (N=9) | 4.00 | 0.71 | 3.33 | 1.00 | 0.167 | 0.47 | |||
| 参加者B群 (N=9) | 4.00 | 0.50 | 3.78 | 0.67 | 0.414 | 0.27 | |||
| (7) How well the letter is written as a whole | |||||||||
| 参加者A群 (N=9) | 3.22 | 0.83 | 3.00 | 0.87 | 0.317 | 0.33 | |||
| 参加者B群 (N=9) | 3.00 | 0.50 | 3.33 | 0.50 | 0.257 | 0.39 | |||
表4から,参加者B群は (1) と (6) 以外の全ての項目において,1回目から2回目のライティングにかけて,統計的有意差はないものの平均点が上昇している一方,参加者A群は (5) を除き,全ての項目で平均点が下がっており,かつ (1),(3),(4),(5) の項目で統計的有意差があることが分かる。ただし効果量に目を遣ると,参加者B群はほぼ全ての項目で平均点が上がっているとはいえ,その効果はさほど大きくないと言える。特筆すべきは,(5) Spellingのみ,両群ともに平均点が大幅に上昇し (参加者A群は統計的有意差もあり),効果量もかなり大きい点である。また,(4) Vocabularyの参加者A群の効果量が1.14と,他の項目や群と比べて突出して高く,vocabularyに関しては,前のライティングから1か月間を空けたことが,参加者A群の最後のライティング・パフォーマンスにかなりの負の影響を与えたことが理解できる。
表3より,1回目のライティングでは概して参加者A群の方が平均点が高く,2回目のライティングではそれが逆転してしまっている (参加者B群の平均点の方が高い) ことが確認されたが,p値や効果量から,それらの現象が起こる蓋然性は低く,また機械翻訳のモデル文を見たり,教師からのフィードバックを読んだりしたことの影響はとりわけ大きいわけではないと考えられる。ただし,vocabularyの項目の1回目は効果量が0.79と,他の項目や回と比べてかなり高い。つまり,機械翻訳のモデル文を見たり,教師からのフィードバックを読んだりしたことの影響は全体としてはさほど大きくないものの,vocabularyに関してはかなり大きな影響を及ぼしている,具体的には,直前に機械翻訳のモデル文を読むことが,教師からのフィードバックをもらうことよりも,ライティング・パフォーマンスにかなりの正の影響を与えたことが確認される。このことは,機械翻訳のモデル文中に見慣れぬ単語や表現が多くあり,とても勉強になったという参加者A群のインタビュー内容とも符合する。一方,表4から,参加者B群は1回目のライティングから2回目のライティングにかけて概してパフォーマンスの向上が見られ (統計的有意差はなし),参加者A群は反対にパフォーマンスの低下が見られた (項目によっては統計的有意差もあり)。とりわけVocabularyの項目に関しては,参加者A群の効果量は1.14と,他と比べて突出しており,1回目のライティングから1か月間を空けたことが,参加者A群の2回目のライティングにかなりの負の影響を与えていることが確認された。上記のことと考え合わせると,参加者A群は,機械翻訳のモデル文中に多くの知らない単語や表現を見出し,それらを直後の自身のライティングには反映させることができ,結果,表3の (4) Vocabularyの1回目の効果量を正の方向にかなり上昇させることに至ったが,その後おそらくそれらを全く,またはほとんど使わず約1か月を過ごした結果,その反動で表4の (4) Vocabularyの効果量を負の方向へ大幅に上昇させ,また,表3の (4) Vocabularyの2回目の効果量も0.67と,1回目とは反対の方向に比較的大きな上昇を見せるに至ったと考えられる。
これは脳血流量の結果とも符合する。機械翻訳のモデル文中に見知らぬ単語や表現が多くあり,勉強になったと答えた参加者A群の学習時の脳血流量は全体的にそれ程上昇していないのに対し,教師からのフィードバックを読んでいた時の参加者B群の脳血流量は概して上昇している。このことは表1に示した効果量からも裏付けられる。これは参加者B群が,文法や統語等により多くの注意を振り向けた証拠であると考えられる。参加者A群は,たしかに機械翻訳のモデル文中に見慣れぬ単語や表現を見出したものの,参加者B群のように文法や統語等にも細かく注意を払ったわけではない。このことが,1回目のライティングでは大変勉強になったと言った単語や表現が,2回目のライティングでは,表3及び表4の (4) Vocabularyの効果量から推測されるように,大半が忘れられてしまった要因と考えられるのではないだろうか。次の参加者A群4のインタビューのコメントはまさにこの点を示唆していると言えるだろう。
たしかに自分で書いているだけだと,同じような,自分に馴染みのある表現しか使わない傾向があります。一方で,[機械翻訳を] 見ればたしかに意外性もあるし,あ,こんな風に使うんだと思うことも沢山あるんですけど,その時は [そういう風に感じて] それで終わってしまうんです。それを自分の中で取り込んで使ってみて,初めて覚えられるんだと思いますし,次に使えるんだと思います。
冒頭の先行研究のセクションで挙げたモデル文提示型ライティング学習法について調査した研究 (田辺, 2023; Ayyash and Khalaf, 2016) は,モデル文を提示することで,内容,構成,語彙,正確さ等,多面的なパフォーマンスの向上が見られたが,本研究においても参加者A群は,学習直後は概してB群よりも高いパフォーマンスを示し,中でも語彙に関しては高いパフォーマンスを示した。その理由として,今回のモデル文が比較的短く,かつ機械翻訳をベースにしていることによると考えられる。おそらく参加者達は,日本語訳もつけられた短いモデル文の中で,内容や構成よりも,見慣れぬ語彙や表現の方により注意が向いたのではないだろうか。また,これらの先行研究の多く (田辺, 2023; 遠山, 2017; Ayyash and Khalaf, 2016) は,モデル文提示後も長期に渡ってライティング・パフォーマンスを維持し得ているかどうかについて調べていないが,本研究の結果から,モデル文提示の学習効果は概して一時的で,長期的な定着に至っていないことが確認された。一方,先行研究のセクションで挙げた教師によるフィードバック型ライティング学習法に関する先行研究 (西尾・猪井, 2012; 米村, 2018, 2020) は,概して間接的フィードバックの方が,直接的で明示的なものよりも学習効果が高いことを示しているが,本研究の結果から,たとえ直接的で明示的なフィードバックであっても,再度文法や統語等の観点から自分なりに考え直すことで学習効果が上がる,すなわち長期的な定着へと繋がる可能性があることが確認された。
尚,結果のセクションでも述べたように,表4を見ると,(5) Spellingに関して,両群ともに1回目から2回目のライティングにかけてかなりスコアを伸ばしていることが分かるが,これは2回目のライティングでは,自分が確実に綴りを知っている単語のみを使用したことによるものと推測される。もちろん文法等も自身が理解している文法項目を努めて使用するということもあったであろうが,よく理解できていない項目であっても,文脈上使用せざるを得なかったものもあったのではないだろうか。一方,語彙に関しては,自分が確実に綴りを知っている単語に代替することは比較的容易であり,このことが2回目の平均値を押し上げた要因であると考えられる。
以上から,本研究のリサーチ・クエスチョンへの解答は以下のように示される。
(1) たしかにある程度英語習熟度の高い学習者は,機械翻訳のモデル文から適切な単語や表現を自力で見つけ出すことができ,その点では教育的効果はあると言えるが,それが必ずしも長期的なライティング・パフォーマンスの向上に繋がるわけではない。一方,教師によるフィードバック型の学習は,文法・統語等にも注意を払いながら英文を読んだり,書いたりする機会が多く,さらにパフォーマンスも維持されており,その点では後者の学習法の方が教育的効果は高いと言える。
(2) 学習中の脳血流量は,機械翻訳のモデル文提示型より教師によるフィードバック型の方が概して高い傾向がある。このことは,冒頭で挙げた湯舟 (2011) や大石・木下 (2008) の研究の結果を基に考えると,機械翻訳のモデル文提示型のライティング学習を行う学習者は,モデル文中に特異な単語や表現の存在を見出すものの,文法や統語といったものにあまり注意を払わず,一方,教師によるフィードバック型のライティング学習を行う学習者は,教師からのフィードバックを注意深く読み,また,文法処理や統語処理,すなわち文の生成に関わるとされる脳の領域により多くの負荷がかかっている (使用している) ことを示唆していると言える。
(3) 機械翻訳のモデル文からは,特に語彙に関して,かなりの教育的効果が期待できると言える。参加者A群の多くが,機械翻訳中に使われていた幾つかの表現を知らなかったとコメントしていることから,おそらくこれらの表現は,日本の中学生や高校生が一般的に学ぶ表現ではなかったと推測される。従来は,いわゆる学校英語以外の英語に触れる機会はかなり限定されていたが,機械翻訳の出現によって,インターネット上の,英語のネイティブスピーカー達が普段使用する,しかし日本人にはあまり馴染みのない英語使用に触れることが可能となった。すなわち機械翻訳は,日本人が習得し得る語彙量を飛躍的に増やす可能性を秘めていると言える。しかし,2回目のライティングでパフォーマンスを上げた参加者B群とパフォーマンスを下げた参加者A群間に脳血流量の差異があることから推測できるように,単にモデル文中にその存在を見出すだけで,「文生成」に関わる要素に注意を払わないのでは定着には不十分であると言える。
本研究を通じて,英語ライティング学習において,機械翻訳のモデル文提示型と,従来の教師によるフィードバック型のそれぞれの学習法の効用を一定程度示し得たと考えられるが,本研究には課題も多い。まず参加者数が少ない点が挙げられる。そもそも脳血流量といった現象は,個人的要因 (気が散りやすい,神経過敏等) の影響を受けることも多いため,一般化するのは難しい部分もある。一般化を目指すのであれば相当数のサンプルが必要となるだろう。英語習熟度の問題もある。本研究では日本の大学生としては比較的英語習熟度の高い学習者を対象としたが,もっと習熟度が高かったり,低かったりする学習者の場合もはたして同様の事が言えるだろうか。例えば英語習熟度がもっと高い学習者であれば,機械翻訳という「お手本」を見るだけでも,長期的なライティング・パフォーマンスの向上に繋がる可能性も否定しがたい。また,今回は文法処理や統語処理を司るブローカ野のみにフォーカスしたが,機械翻訳を利用した参加者A群から,機械翻訳中の意外な単語や表現に注意が向いたというコメントが多数聞かれたため,次回は語彙を司る左角回や左縁上回といった脳の部位にも焦点を当てる必要がある。いずれにせよ,この種の研究はまだ緒に就いたばかりであり,上記のことについてさらに考察を深めていくことで,ライティング学習における機械翻訳のモデル文提示の教育的効果の全体像が掴めていくものと確信している。
本研究はJSPS科研費 JP24K04039の助成を受けたものです。本研究の遂行にあたり,岡村優希さん (早稲田大学教育学部4年生 [当時]),高山祥梧さん (早稲田大学教育学部4年生 [当時]) にはデータ収集にご協力頂きました。また,早稲田大学教育・総合科学学術院の伊藤悦朗教授には,早稲田大学先端生命医科学センターに設置されているNIRSの使用を快くご許可頂き,また,NIRSを利用したデータ収集や処理に関する貴重なご助言を賜りました。また,匿名の査読者の先生方からは論文執筆の上で貴重なアドバイスを頂きました。この場を借りて心より御礼申し上げます。