パフォーマンステストの評価尺度の開発：ファシリテーションスキルの弁別性と実施可能性

木村 一男

doi:10.57365/jacetkanto.9.0_42

Abstract

Under the new course of study being implemented, it is expected that high schools will be welcoming students with increasing language knowledge and richer language experience, so it is predicted that more advanced language activities and performance tests for advanced learners will be needed. Advanced learners are reportedly good at utilizing both discussion skills and decision-making skills. Accordingly, this study aims to investigate the followings: 1) whether facilitation skills, which contribute to the facilitation and deepening of discussions and decision-making, can be indicators that distinguish advanced learners from others; 2) whether facilitation skills have sufficient reliability as evaluation criteria; and 3) whether facilitation skills can be used for evaluation without encountering any problems. The results obtained show that although facilitation skills constitute one characteristic of advanced learners, some problems with the performance test need to be solved.

1. はじめに

2020年より本格的に開始された教育改革によって，全ての教育現場の英語教師達は大きな変化に直面することとなった。例えば，小学校英語が教科化されたことにより，小学校では，600から700語の語彙を学習することになり，中学校ではそれに1600から1800語が上乗せされ，さらに高校では最大2500語を学ぶことになった。学習する語彙数が圧倒的に増加することとなった。また，学習指導要領の改訂によって，中学校では，自分自身の考えや気持ちを伝え合う対話重視の活動に重きが置かれることとなり，そして「英語の授業は英語で行うことを基本とする」ことによって，教室における言語使用の促進が期待される。合わせて，新学習指導要領において，「話すこと」が「発表」と「やりとり」に分けられたことによって，学校現場では，即興でコミュニケーションを続けられる力の育成が求められることとなった。つまり，論理・表現Ⅰ・Ⅱ・Ⅲが創設され，発信力の強化を目指している高校では，これまで以上に言語知識を持ち，言語経験が豊かな生徒たちを迎え入れることになり，さらに高度な言語活動を提供する必要が生じることが予想される。

上記のような現状を踏まえて，本研究では，木村 (2021) の主張に基づき，議論の進行・深化及び意思決定に貢献するファシリテーションスキルが，新学習指導要領実施後に必要とされるであろう，高度な言語活動の評価尺度として適するものなのか，つまりadvanced L2 learnersとそれ以外の学習者を弁別するのかを検証することを目的としている。また，パフォーマンステストを実施可能性の面から分析することによって，高校現場における，高度なパフォーマンステスト及びその評価尺度開発を支援する示唆を提供したいと考えている。

2. 先行研究

2.1 コミュニケーションにおけるスキル

Sato, Yujobo, Okada, and Ogane (2019) によれば，研究の初期からCommunication Strategies (以下CS) は，心理学的観点とインタラクション的観点という，2つの視点で定義されてきたが，いずれも不完全な発話を補完する働きという点では類似していた。後に，CSは社会言語学的な観点も有するようになり，会話の目的達成への影響も分析されるようになった。本研究では，木村 (2021)に倣って，言語知識不足から生じるコミュニケーション上の問題に対応するための工夫を問題対応のCSと呼ぶ。問題対応のCS使用とL2 proficiencyには関連があるという報告は数多く存在している。例えば，市川 (2009) はTHE NICT JLEコーパスを用いて，日本人英語学習者のCS使用状況と習熟度レベルの関係を検証した結果，初級者の場合はCSの使用が多くなり，上級者になると言えないことが少なくなるためにCSの使用数も減ると主張している。

また，コミュニケーション上発生した問題を，やりとりにおいて解決する工夫である，意味交渉と学習者の運用能力の関係についても，多くの研究者が検証している。学習者の運用能力が低い時には，意味交渉する機会が多く，運用能力が向上するとその必要が少なくなっていく，と主張されている (Ellis, 1985; Gass & Varonis, 1985) 。しかし，Lazaro-Ibarrola and Azpilicueta-Martinez (2015) は，運用能力が低い子供達を対象に調査した結果，EFL環境にある運用能力の低い子供達は，大人やESL環境にいる子供達よりも意味交渉をしない，と全く逆の報告している。そのことに関して，彼らは，やりとりが発生するには，ある一定の運用能力のレベルに達している必要があり，そのレベル以下では意味交渉はあまりなされない，という興味深い推測をしている。

木村 (2021) は，問題対応のみではなく，コミュニケーションの効果を高める工夫をも含めたCSリストを作成し，日本人高校生のスピーキングテストにおけるパフォーマンスの包括的な分析を試みた。その結果，言語知識不足から生じる問題対応のCS使用状況の分析によると，先行研究の表す通りに，成績下位の学習者は，問題対応に追われる傾向があること，成績上位の学習者は，問題対応の必要が少ないこと，また，Lazaro-Ibarrola et al. (2015) の報告と同じく，成績下位の学習者は意味交渉を使用できていないことがわかった。一方, コミュニケーションの効果を高めるCSの使用状況の分析からは, 成績上位者は，議論の進行に貢献する工夫 (相槌など) が多いなどの, 彼らのコミュニケーションにおけるスキルの特徴の一端が明らかになった。

以上のように，問題対応のCSは，学習者の運用能力の違いを確実に写し出すことができる。また，コミュニケーションの効果を高めてくれる工夫をも対象とすることによって，より包括的に，より詳細に，学習者のコミュニケーション能力の発達を観察することができると考えられる。井上 (2021) は，大規模スピーキングテストでは，観点別スコアやそれ以上のフィードバックが受験生に返却されることは稀で，あったとしても，「物差し」が長く，目盛りの幅も広い，generalなものになってしまい，すぐに学習に役立つかはわからないと指摘している。本研究のように，校内スピーキングテストとして実施する限り，学習者の本当の成長を見つけ，次の指導に生かせる評価でなければならない。そこで，本研究では，より包括的に, より詳細に，成長を観察することができる，学習者がL2コミュニケーションにおいて行う工夫に評価の焦点をあてることとした。

2.2 評価尺度としてのファシリテーションスキル

堀 (2018) によれば，グループダイナミクス研究において重要性が明らかにされたファシリテーションとは，「集団による知的相互作用を促進する働き」であり，問題解決，学習，自己表現など，あらゆる知的創造活動を支援し促進していく働きと説明されている。本研究においては，様々な種類の中から，話し合いにおけるファシリテーションに焦点をあてる。また，議論の進行・深化及び意思決定に貢献するスキルが本研究の対象とするファシリテーションに含まれると想定している。

先述の通り，新学習指導要領のもと，高等学校においては，従来と比べ，より高度な言語活動の実施が求められる。「今後の英語教育の改善・充実方策について　報告～グローバル化に対応した英語教育改革の五つの提言～」 (文部科学省，2014) によれば，今後の英語教育の改善の方向性として，高等学校では，言語活動の高度化の例として，英語による発表や交渉，討論などの活動が推進されている。つまり，用意された発話のみならず，問題解決や意思決定などを伴う，即興のやりとりが増えていくことが予想される。そのような高度な言語活動において，議論の進行・深化及び意思決定に貢献する，ファシリテーションは大変重要な意味を持つコミュニケーションスキルと考えられる。

木村 (2021) は，ある与えられた状況下において，生徒同士での話し合いを通して，意思決定を求められるパフォーマンステストを日本人高校生に実施し，彼らのパフォーマンスをディスカッションスキル及び意思決定スキルの観点から分析している。用いられたディスカッションスキルの評価尺度は，安永・江島・藤川 (2000) のディスカッションスキル尺度及び春木 (2019) のメタ議論の定義等を参考に作成された。意思決定スキルの評価尺度については，Simon (1977) の意思決定モデルの3つの段階を観察するために，駒形・大塚 (2014) が作成した行動要件をもとに作成された。分析の結果，テストにおける成績上位者は，成績中位・下位の学習者達と比べ，議論の進行・深化に関わるディスカッションスキル及び意思決定に貢献するスキルの量が多く，さらに使用されている種類が豊富であることが明らかになった。このことは，議論の進行・深化及び意思決定に関わるコミュニケーションスキルがadvanced learnersを弁別する可能性があることを示唆している。

以上のように，話し合いにおけるファシリテーションは，全ての活動の基礎となるスキルであり，現実世界において非常に有益であると考えられる。また，今後高校における英語教育現場において実施されるであろう，より高度な言語活動において，コミュニケーションの目的を達成するために，その効果を高めるために，必要とされるスキルであると思われる。さらに，高度な言語活動における生徒のパフォーマンス評価においても，重要な役割を担う可能性があると推測されるため，本研究において，評価尺度としてのファシリテーションスキルを研究対象とした。

3. リサーチクエスチョン

本研究の目的を達成するために，以下のリサーチクエスチョンを設定した。

RQ1　ファシリテーションスキルという評価尺度は，advanced learnersとそれ以外の学習者を弁別することができるのか。
RQ2　ファシリテーションスキルという評価尺度は，十分な信頼性を有しているのか。
RQ3　ファシリテーションスキルを測る評価尺度を用いるパフォーマンステストの実施可能性はどの程度であるか？

4. 方法

4.1 パフォーマンステスト及び評価項目開発過程

以下の手順でファシリテーションスキルを測るためのパフォーマンステストを開発した。

1) パフォーマンステスト実施内容原案作成：
当該学年担当英語科職員4名が話し合い，パフォーマンステストの原案を作成した：ファシリテーションスキルの具体的な評価項目及び評価基準，パフォーマンステストの形式 (3人によるディスカッション)，タスクの種類 (状況を踏まえた意思決定タスク)
2) 予備実験＋事後インタビュー：
英語運用能力が比較的高い3人の生徒による予備実験を行う。終了後に生徒よりフィードバック (形式・situation等のテストの環境設定について) をもらった。
3) テスト実施内容修正案作成＋テスト詳細案の作成：
当該学年担当英語科職員4名が予備実験＋事後インタビューでもらったフィードバックを参考に，テスト実施内容，評価項目及び評価基準，situation案，そしてテスト実施手順を改訂した。
4) 再実験＋アンケート：
英語運用能力が比較的高い，予備実験とは異なる3人の生徒による再実験を行う。終了後に生徒よりアンケートの形式でフィードバック (環境設定について) をもらう。
5) テスト実施内容及び詳細の調整と確定
再実験の結果，大きな問題が見受けられないことから，テスト実施内容と詳細を若干調整し, 確定させた (付録参照)。

4.2 パフォーマンステストの評価項目と評価基準

表1に本研究で用いた評価項目，評価基準及び配点を示した。Englishというセクションでは，本校の実情を考慮し，英語のデリバリに加えて，メッセージが伝わるかどうかという正確性も含めた評価項目とした。間違いがなく，デリバリが自然で，効果的な場合を満点 (5点) とした。何か足りない要素があるごとに，評価を1段階ずつ下げることとした。Contentでは，同様に，本校の生徒の弱点である，根拠とともに意見を述べられることを対象とした。必要な場面では常に，根拠とともに，十分な説得力のある発言ができていれば，満点 (5点) とした。何か足りない要素があるごとに，評価を1段階ずつ下げることとした。Facilitationは，ファシリテーションに関わるスキル，つまり，議論の進行・深化及び意思決定に関わる項目を設定した。木村 (2021) で使用したディスカッションスキルおよび意思決定スキルをもとに，担当者の話し合いを通して，必要な項目を追加・改変を行なった。具体的には，「3人の発話量のバランスを取っている」は，公平な発話機会は，公平な議論を示していると考え設定した。「論点を整理している」は，先行研究のディスカッションスキルにおける項目をまとめ，発展させることで作成した。議論の進行・深化及び意思決定に貢献する項目と捉え設定した。「結論を出そうとしている」は，タスクの性質上必要であるため，先行研究の項目を簡略化して作成した。「発話を促している／質問をしている」「根拠とともに，賛成と反対の意見を言う」は，論理的な思考を促すための項目として，先行研究の項目をまとめて作成した。「肯定的な反応をする」は，円滑なコミュニケーションを促進するための工夫として，先行研究で使用された，相槌，笑いに加えて，本研究では，“it’s good” などの短い発話も含めた。全ての項目が実行された場合を満点 (5点) とした。何か足りない要素があるごとに，評価を1段階ずつ下げることとした。

本研究におけるパフォーマンステストは，主にファシリテーションスキルを対象とするという目的があるため，よりファシリテーションが顕著に機能するであろう，3人でのディスカッションという形式にした。そのような形式の中で，科目担当者4名が観察可能だと思うファシリテーションスキルの種類と数の評価項目を選定した。

4.3 パフォーマンステストの実施

実施：2021年6月29日〜7月2日の3日間に渡り，Communication English Ⅲ 及び総合英語の授業を3時間使用して実施した。
対象：筆者の勤務校である，千葉県内公立高校3年生79名を対象に実施した。79名のGTEC (2021年4月実施) の4技能平均スコアは 896.8 (CEFR-JレベルA2.2換算) であり, 内訳は, A1レベルが 0人 (0.1%) , A2.1が4人 (5.1%) , A2.2が62人 (78.5%) , B1.1が11人 (13/9%) , B1.2が2人 (2.5%) である。平成29年高校3年生英語力調査結果によると,生徒全体のA2以上の割合は，4技能において50%に達していないことから, 本研究に協力してくれた79名は, 全国の高校3年生において, 平均以上の生徒たちであると考えられる。
形式：評価者2人で3人の生徒を評価した。テスト時間は4分とした。
手順：① 廊下へ対象生徒3名を同時に呼び出し，あらかじめ並べられた机に着席させる。
② situation cardを3人それぞれに手渡し，各々の状況を確認させる。
③ 状況確認終了後，30秒の準備時間を与える。
④ ディスカッションを開始させる。タイマーは常に表示しておく。
⑤ 4分後タイマーがなった時点で原則テストを終了させる。
⑥ 評価者が評価を評価用紙に記入する。
評価：評価者は2名一組で，同一の生徒を評価した。それぞれが評価基準に則って評価をし，評価用紙に記入する。評価者間で相談をすることはない。ファシリテーションスキルについては，事前の打ち合わせで項目の多さ (5つ) が懸念されたので，評価項目・評価基準を参考に，最終的には印象点で評価を出した。評価規準に即してEnglishが5点 (満点)，Contentが5点 (満点)，Facilitationが5点 (満点) の合計 (Total) が15点 (満点) になる。評価者Aは79名全員を評価したが，時間割の関係で，同じ79名を他の4名の英語教師 (B, C, D, E) が分担し，評価した。

5. 分析結果と考察

5.1 全体概況

表2には，パフォーマンステストの全体成績平均及びセクション (English, Content, Facilitation) ごとの2つの評価 (評価者2名) の平均点を示した。全体成績及び各セクションの平均点は全て約7割程度であった。3つの評価項目の成績平均は，評価者A及び他の評価者 (B,C,D,E) の評価において，ほぼ同じ程度の得点であったことから，本研究で用いられたFacilitationが他の項目に比べて，評価を得るのに，特に困難ではなかったことがわかった。また，Facilitationの，およそ70％の得点率 (2名の評価者の評価平均3.48点) は決して低い数字ではないことから，想定した以上に，学習者には，ファシリテーションスキルが備わっており，それを表出することができていた可能性があると考えられる。

表2 全体成績及びセクション成績（Rater Aとother Ratersの比較）

TOTAL
				95%CI
Rater	n	M	SD	LO	HI
A	79	10.75	1.31	10.45	11.04
others	79	10.25	1.48	9.92	10.58
English
				95%CI
Rater	n	M	SD	LO	HI
A	79	3.49	0.53	3.38	3.61
others	79	3.29	0.48	3.18	3.40
Content
				95%CI
Rater	n	M	SD	LO	HI
A	79	3.71	0.51	3.59	3.82
others	79	3.56	0.57	3.43	3.69
Facilitation
				95%CI
Rater	n	M	SD	LO	HI
A	79	3.54	0.71	3.38	3.70
others	79	3.41	0.74	3.24	3.57

5.2 学習者グループの特定と各グループの特徴

パフォーマンステストの各セクション (English，Content，Facilitation) のそれぞれの成績を用いて，ウォード法によるクラスタ分析を行なった。その結果，3つのクラスタを得た。クラスタ1には14名，クラスタ2には43名，クラスタ3には22名の生徒が含まれていた。等分散の検定(Levene検定) から F(2, 76) = 2.06, p = .134, ns という結果が得られた。そのため，3つのクラスタのデータの分散は同等と判断できる。また，各クラスタとパフォーマンステスト全体成績の関係を，一元配置の分散分析を用いて検証した (表3，4，図1参照)。

表3 記述統計量 (TOTALと各クラスタ)

					95%CI
クラスタ	n	M	SD	MS	LO	HI
1	14	8.57	0.65	0.173	8.20	8.94
2	43	10.72	0.45	0.069	10.58	10.86
3	22	12.18	0.59	0.125	11.92	12.44

表4 分散分析 (TOTALと各クラスタの分散分析)

	SS	df	MS	F	p	η²
グループ間	111.58	2	55.79	198.58	.000	0.84
グループ内	21.35	76	0.28
合計	132.94	78

図1. 平均値のプロット (TOTAL).

表5 多重比較の結果

		平均値の差			95%CI
クラスタ		(I-J)	MS	p	LO	HI
Low	Middle	-2.15	.163	.000	-2.54	-1.76
	High	-3.61	.181	.000	-4.04	-3.18
Middle	Low	2.15	.163	.000	1.76	2.54
	High	-1.46	.139	.000	-1.79	-1.13
High	Low	3.61	.181	.000	3.18	4.04
	Middle	1.46	.139	.000	1.13	1.79

分散分析の結果，各クラスタ間に有意差があること，そして大きな効果量があることがわかった (F(2,76) = 198.58, p =.000, η² = .84)。TurkeyのHSD法 (5%水準) による多重比較 (表5) を行ったところ，全ての群の間に有意差が見られ，上位のクラスタの得点が最も高いこと，中位，下位のクラスタの順に，平均点が高くなることがわかった。このことから，下位のクラスタ1を低群 (low)，中位のクラスタ2を中群 (middle)，上位のクラスタ3を高群 (high) と名付けた。

5.3 各クラスタとEnglish, Content, Facilitationの特徴

各クラスタ内の記述統計を表6にまとめた。各クラスタ (低群，中群，高群) の特徴を挙げる。低群は，全ての評価尺度において評価が低く，運用能力，論理的思考力，ファシリテーション能力の全てにおいて困難を抱える様子が窺える。また，低群において，最も低い平均点はFacilitationであり，他の項目と比べても，高群との差が最も大きいことから，低群の学習者の最も顕著な特徴は，Facilitation使用における困難ではないかと捉えることができる。中群においては，English に比べ，Content, Facilitationの大幅な成績上昇が特徴的である。中群の生徒は，ある程度の英語運用能力を身につけており，それ以上の論理的な思考力を発揮し出し，議論の進行・深化にかなり関わるようになる。ある程度の運用能力に達することが，他の技能の進歩の条件となる可能性があるのではないだろうか。高群では，Englishが，他の項目よりも低い。Contentは中群との差が小さく，Facilitationは他の項目に比べ，成長しており，低群の成績との差が最も大きくなる。高群の生徒たちは，運用能力は中郡に比べ成長はしているが，論理的思考力はわずかに優れている程度であり，最も得意なことは議論の進行に貢献することであるように思われる。

表6 各クラスタ内の記述統計

English
				95%CI
クラスタ	n	M	SD	LO	HI
Low	14	2.93	0.07	2.77	3.08
Middle	43	3.47	0.08	3.31	3.62
High	22	3.91	0.06	3.78	4.04
Content
				95%CI
クラスタ	n	M	SD	LO	HI
Low	14	3.00	0.00	3.00	3.00
Middle	43	3.74	0.44	3.61	3.88
High	22	4.09	0.29	3.96	4.22
Facilitation
				95%CI
クラスタ	n	M	SD	LO	HI
Low	14	2.64	0.63	2.28	3.01
Middle	43	3.51	0.51	3.36	3.67
High	22	4.18	0.39	4.01	4.36

また，各クラスタとEnglish, Content, Facilitationの関係を検証するために，分散分析を行った(表7，図2，3，4参照)。English, Content, Facilitationの成績がクラスタ間で有意差があることがわかった (English: (F(2,76) = 23.46, p = .000, η² = 0.38; Content: (F(2,76) = 39.12, p = .000, η²= 0.51; Facilitation: (F(2,76) = 23.46, p = .000, η² = 0.52)。その結果から，それぞれの項目の成績の推移について考察する。Englishは上昇率が低群から高群までほぼ変わらないことから，他の項目に比べて成長が予測しやすい項目と考えられる。しかし，高群の成績は高くないことから，運用能力を高いレベルまで成長させることは決して容易なものではないと想像できる。Contentは，上昇率が中群から高群において，やや緩やかになる。ある一定のレベルに達した後は，それ以上の高いレベルへ成長することが難しい項目であるのかもしれない。Facilitationにおいては，低群において，最も成績が低く，高群において，最も成績が高い。学習者の能力差が最も大きい項目と推測することができる。低群の生徒にとっては，他の項目に比べ，ファシリテーション使用の困難が顕著な課題であり，高群の生徒にとっては，他の項目に比べて，ファシリテーション使用に長けていることが強みと言える。よって，ファシリテーション能力は，低群の生徒及び高群の生徒の特徴を示す指標になり得ると考えられる。

表7 分散分析の結果（各セクション成績と各クラスタ）

		SS	df	MS	F	p	η²
English	グループ間	8.30	2	4.151	23.46	.000	0.38
	グループ内	13.44	76	0.177
	合計	21.74	78
Content	グループ間	10.30	2	5.150	39.12	.000	0.51
	グループ内	10.00	76	0.132
	合計	20.30	78
Facilitation	グループ間	20.36	2	10.182	40.23	.000	0.52
	グループ内	19.23	76	0.253
	合計	39.59	78

図2. 平均値のプロット (English).

図3. 平均値のプロット (Content).

図4. 平均値のプロット (Facilitation).

5.4 English, ContentとFacilitationとの関連

English，ContentとFacilitationとの関連を検証するために，相関分析を行った (表8参照)。EnglishはContent, Facilitationと共に弱い相関 (Content: r = .26, p = .023; Facilitation: r = .30, p = .007) を示したが，全体成績とは，相関があることがわかった (r = .67, p = .000)。Contentは，Englishとは弱い相関があり (r = .26, p = .023) ，Facilitationとは相関があり (r = .41, p = .000) ，全体成績とは強い相関があることがわかった (r = .72, p = .000) 。Facilitationは，Englishとは弱い相関があり (r = .30, p = .007) ，Contentとは，相関があり (r = .41, p = .000) ，全体成績とはかなり強い相関があることがわかった (r = .83, p = .000) 。このことから，Englishよりも，ContentとFacilitationが全体成績へ影響を与えている，特にFacilitationがもっとも大きな影響を与えていることがわかった。英語運用能力の高い生徒よりも，論理的に考えられる生徒の方が，議論の進行・深化について貢献できることがわかった。

以上のことから，本研究で用いたパフォーマンステストにおいて，成績上位者になるには，Facilitationを使用できるかどうかが最も重要なポイントであると思われる。つまり，Facilitationは，成績上位者における，明確な特徴の一つであると考えられる。

表8 相関分析の結果

		English	Content	Facilitation	Total
English	Pearson の相関係数	1	.26^*	.30^**	.67^**
	有意確率 (両側)		.023	.007	.000
	度数	79	79	79	79
Content	Pearson の相関係数	.26^*	1	.41^**	.72^**
	有意確率 (両側)	.023		.000	.000
	度数	79	79	79	79
Facilitation	Pearson の相関係数	.30^**	.41^**	1	.83^**
	有意確率 (両側)	.007	.000		.000
	度数	79	79	79	79
Total	Pearson の相関係数	.67^**	.72^**	.83^**	1
	有意確率 (両側)	.000	.000	.000
	度数	79	79	79	79

5.5 パフォーマンステスト全体評価，ファシリテーションスキル評価の信頼性　

表9は，本研究の調査対象である79人の高校生の全体成績をまとめたクロス集計表である。前述の通り，評価者Aは79名全員を評価したが，他の4名の教員 (B,C,D,E) が分担して79名を評価している。また，カッパ係数を計算するために，便宜上得点を3段階のカテゴリーに区分けして表示している。

全体評価の信頼性を検討するために，カッパ係数を求めた結果，k = .27という値が確認された。つまり，本研究における79名の学習者に対する全体評価は，一致度が乏しいと捉えることができることがわかった。

表9 パフォーマンステスト全体評価概況

		Other Raters
	評価	A	B	C	合計
Rater A	A	9	11	2	22
	B	5	22	16	43
	C	1	2	11	14
合計		15	35	29	79

＊A (12 -15点) / B (10-11点) / C (1-9点)

表10は，Facilitationの成績をまとめたクロス集計表である。便宜上，得点を3段階のカテゴリーに区分けして表示している。評価者Aと他の4名の評価者による評価の信頼性を検討するために，カッパ係数を求めた。その結果，k = .487いう値が得られた。このことから，79名に対するFacilitationの評価がある程度一致していることが明らかになった。

表10 Facilitation評価概況

	評価	Other Raters			合計
		A	B	C	合計
Rater A	A	33	11	0	44
	B	2	22	7	31
	C	1	2	1	4
合計		36	35	8	79

＊(1, 2点 → C / 3点 → B / 4, 5点 → A )

表11は，Englishの評価概況，表12はContentの評価概況をまとめたクロス集計表である。Facilitation同様に，3段階のカテゴリーに分類し，評価の信頼性を検討するためにカッパ係数を求めた。その結果English，Content共にk = .255という値を得た。つまり，Englishも，Contentも評価の一致度は乏しいと考えられることがわかった。

表11 English評価概況

	評価	Other raters			合計
		A	B	C	合計
Rater A	A	20	20	0	40
	B	2	23	13	38
	C	0	0	1	1
合計		22	43	14	79

表12 Content 評価概況

	評価	Other Raters		合計
		A	B	合計
Rater A	A	33	21	54
Rater A	B	8	17	25
合計		41	38	79

次に，評価者Aと他の各評価者間との全体成績，各項目における信頼性係数αを算出し，結果を表13に示した。評価者AとBにおいては，Facilitationと全体成績がある程度高い一致度が見られた (Facilitation: α = .817; Total: α = .773) 。AとCとでは，どの項目も一致度を得られなかった (English: α = .273; Content: α= .222; Facilitation : α = .449; Total : α = -.106 )。AとDでは，English, Facilitation, 全体成績で十分な一致度が見られた (English: α = .913; Facilitation : α = .791; Total : α = .900 )。AとEでは，Contentである程度高い一致度が見られた (Content: α = .748)。つまり，評価者Aと他の各評価者において，高い信頼性を示す項目は多くなく，評価者ごとに評価基準に対するずれが存在していることが推測される。

また，項目ごとにおいては，Englishでは1名の評価者だけが高い一致度を示したが (rater D: α = .913)，他の評価者との一致度は著しく低い値であった (rater B: α = .446; rater C: α = .273; rater E: α = .309)。Contentにおいても，1名だけある程度高い一致度を示したが (rater D: α = .748)，他の評価者との一致度は著しく低い値であった (rater B: α = .495; rater C: α = .222; rater D: α = .375)。Facilitationでは2名の評価者が高い一致度を示し (rater B: α = 817; rater D: α = .791) ，他に一致度が許容レベルに近い評価者も1名いた (rater E: α = .684)。全体成績においては，評価者2名が高い一致を示し (rater B: α = 773; rater D: α = .900 )，一致度が許容レベルに近い評価者が1名いたが (rater E: α = .684)，負の値も示す評価者も1名した (rater D: α = -.106)。つまり，Facilitationはある程度一致度が高いが，English, Contentは，一致度が高いとは言えないことがわかった。これはEnglish, Contentにおいて，各評価者間が評価基準に対する異なる認識を有していることを示している可能性があると考えられる。

表13 Rater Aと他の各Rater間の信頼性係数

	n	English	Content	Facilitation	Total
Rater B	40	.446	.495	.817	.773
Rater C	12	.273	.222	.449	-.106
Rater D	9	.913	.375	.791	.900
Rater E	18	.309	.748	.684	.684

カッパ係数を用いた2つの評価の一致度の分析（評価者Aと他の評価者B,C,D,E）及び，信頼性係数を用いた評価者Aと他の各評価者間の評価の一致度の分析の結果をまとめると，パフォーマンステスト全体成績，English, Contentの一致度が低いことがわかったが，Facilitationの成績に関しては良好な一致度を示している，という結果が得られたことになる。全体成績があまり一致していない理由としては，English及びContentの項目が，共に一致度が低いことが影響を与えていると考えられる。つまり，初めて使用するFacilitationではなく，これまで何度も経験している項目で十分な一致を得られなかったため，全体成績があまり一致しなかったということである。EnglishとContentがあまり一致しなかった原因としては，そもそも全体として評価者Aと他の各評価者間において一致度が高い評価者が少なかったこと，そしてEnglishとContentに関して一致度が高い評価者が少なかったという事実から，評価者間における，評価尺度及び評価基準に対する認識のずれがあったことが推測される。そして，それは事前打ち合わせ, 採点トレーニングを十分に行わなかったことが原因と考えられる。慣れ親しんでいるEnglishやContentに関しては，事前の確認が不十分であったため，評価が分かれたのではないか。一方，Facilitationは，他の二つの項目より良好な一致度を示した。今回新たに作成した評価尺度に対して，事前に行った採点トレーニング及び入念な打ち合わせが貢献している可能性が十分考えられる。

5.6 ファシリテーションスキルを測るパフォーマンステストの実施可能性

テスト終了後に，放課後等を利用して，評価者となった英語教師4名にインタビュー調査をした。評価及び運営面に対する影響について，考察していく。

5.6.1　3人によるディスカッションという形式について

3人でのディスカッションという形式に関して，以下のような回答があった (抜粋)。

・評価する人数が増えるので，注意する負担は増えた。
・項目が多い。
・忙しかったので，大体同じになった。細かいところまで目がいかなかった。
・時間的には余裕があったグループが少ない。
・メンツは非常に大事。メンバーを統制した方がいい。３人だと顕著にレベルの差が出た気がする。
・会話に入らないと評価されない。２人の時よりもそのハードルは上がっていないかと思った。
・顔をお互いが見えるようにした。
・より複雑になった。難しくなった。
・言っている内容二人分を理解しないといけない。
・何を焦点にするかなどを理解するのが難しい。
・話しやすかった割には，結論へのゴールへもっていけない。整理できない。楽しかった。で終わり。

インタビューの結果から，人数が増え，項目が多いことから，評価自体の負担が大きく，そのため細部まで注意を届かせることができないことで，評価に影響があったことが伺えた。また，運営上の問題としては，時間の少なさ，メンバーのマッチングの影響，生徒の配置などについての言及があった。　

生徒のパフォーマンスへの影響として，3人という形式を取ることで，レベルの差が顕著になった，他の2人の意見を理解しなければならず負担が増えた，議論を整理することが2人に比べ難しく，そのため，表面的な議論になるケースもしばしばみられた，会話へ参加することが難しい生徒もいた，という回答があった。

よって，3人によるディスカッションという形式は，教師に対して，評価の負担を増やし，時間等のテストにおける環境設定の改善の必要性を明らかにし，生徒にとって，これまで経験したことがない認知的処理や言語行動を強いる，難易度の高い課題であることがわかった。

5.6.2 意思決定というタスクについて

意思決定タスクについて，教師より，以下のような回答があった (抜粋)。

・前もって指示をしたほうがいい。どんな力が必要かとか。議論が終わった後のこととか。
・議論が飛んだのもあった。結論を出すまでの過程で深い議論がなかった。
・結論を言えた子が高い評価を得る傾向になった。
・結論がなくてもいい議論はあるので。評価基準が良い議論と一致していない。
・表面的な議論を生んだ。
・議論の進行に困難を持っていた。
・譲歩する生徒もいたし，主張を通す生徒もいた。

意思決定タスクについての教師インタビューの回答から，指示不足の指摘や，議論の未熟さに触れる回答はあったが，意思決定タスクが運営に大きな影響を与えたようには思われる意見はなかった。「結論を言えた子が高い評価を得る傾向になった」，「結論がなくてもいい議論はあるので。評価基準が良い議論と一致していない」という意見から，評価における問題の存在が明らかになった。生徒への影響に関しては，「表面的な議論を生んだ」，「議論の進行に困難を持っていた」，「譲歩する生徒もいたし，主張を通す生徒もいた」という回答から，意思決定に対する知識や経験のなさが推測された。

よって，意思決定タスクは，直接運営へ影響を与えるようなタスクではないが，評価を悩ませる評価項目を生んだと考えられる。さらなる改善と工夫が必要である。また，生徒たちも意思決定に対する知識や経験のなさを露呈しており，指導の必要性を示しているように思われる。

5.6.3 ファシリテーションという評価尺度について

最後に，ファシリテーションという評価尺度についての教師アンケートの回答を以下にまとめた (抜粋)。

・議論が止まった時に，自分を意見を言ったりして，ポーズを埋めてくれる人を評価すべき。
・M Cの子にプラスになるような評価基準があっても。役割ができてしまうのに，同じ評価基準はおかしい。
・誰かが譲らないとまとまらない。それを見れる評価基準を。
・発話量のバランス。どうやって付けたらいいのかわからない。待っているのはバランスを取っているから。解釈が難しい。
・みんな肯定的な反応をしている。あまりつけなかった。
・みんなできているので，つける意味がなかった。
・評価項目多かった。３人見るのは負担だった。
・「論点を整理している」の解釈が採点者でずれている。
・根拠とともに〜がコンテントとかぶっている。区別が難しい。
・必要な能力と思う。議論を進める上で重要なことなので。
・指導はできていない。ただ，したい。
・評価基準が印象点に任されていた。厳密にすり合わせをしてもよかったかも。

回答から，教師たちは，議論を続けられる力，自然と出来上がる役割分担における，MCのような役割，譲歩できる力を重要視していることがわかった。また，肯定的反応や発話量のバランスを必要ないと考える回答があった。評価項目の数は多いと考える教師がほとんどであった。論点の整理という項目は解釈が難しいようであった。根拠とともに賛成や反対を述べる，という項目とContentが示しているものが重複しているように思う意見もあった。ファシリテーションスキルを高度な言語活動において必要と考える教師が多かった。そして，ファシリテーションスキルの指導に関しては，全員が否定していた。評価の方法として，印象点として採点することを選択したが，それに対して疑問を感じる教師もいた。

以上のように，教師アンケートの回答から，評価項目の改善の必要性が明らかになった。特に解釈が難しい項目や他と重複している項目を整理することで適切な評価基準へと近づくと思われる。また，評価方法として，現実的な解決策として印象点という方法を用いたが，丁寧に項目をチェックする方式も試す意味があるように思われる。本研究で用いた評価基準と方法は，まだまだ発展途上であったように感じられる。

6. 結論

6.1 RQへの回答

RQ1で，「ファシリテーションという評価尺度は，advanced learnersとそれ以外を弁別することができるだろうか？」という問いを立てた。クラスタ分析により特定した，レベル別の3つのグループの特徴を考察したところ (5.3参照)，低群では，全ての項目が低い値ではあるが，特に，Facilitationが他の項目と比べ，最も低いことがわかった。中群では，また，Englishの成長と比べて，Content, Facilitationの成長が著しいことが明らかになった。高群では，Englishの得点上昇は順調ではあるが，それほど高いレベルではなかった。また，Contentは中群からの変化があまり大きくなく，最も高い得点と大きな得点上昇率を示したのは，Facilitationであった。Facilitationは，成績下位者にとっては，使用することに困難があることが特徴であるが，上位者においては，その十分な使用状況が推測される。成績下位者にとっても，成績上位者にとっても，顕著な特徴を示す項目であることがわかった。

また，相関分析の結果 (表8参照) から，Englishよりも，FacilitationはContentと相関 (English: r = .30, p = .007; Content: r = .41, p = .000) があり，またFacilitationは他の項目と比べて，全体成績と最も強い相関を示した (r = .83, p = .000) 。このことから，Facilitationは，英語運用能力の高い生徒よりも，論理的に考えられる生徒の方が使用に長けていること，そして，Facilitation使用が得意である方が，全体成績も上位であることがわかった。よって，Facilitationは，成績上位者を示す指標と考えられる。

以上の結果から，ファシリテーションスキルは，advanced learnersの特徴の一つと見なすことができる。よって，advanced learnersを弁別できる評価尺度と考えることができる。

RQ2として「ファシリテーションという評価尺度は十分な信頼性を有しているのだろうか？」という問いを立てた。評価者Aと他の4人の評価者の評価の信頼性を検討するために，カッパ係数を求めた。その結果，パフォーマンステスト全体成績においては，乏しい一致度を示した (k = .269) 。English (k = .255) 及びContent (k = .255) においても同様に，満足いく一致度を得ることはできなかった。一方，Facilitationはある程度の一致度を示した (k=.487)。また，評価者Aと他の各評価者 (B, C, D, E)との間で信頼性係数を算出した結果，評価者Aと他の各評価者において，高い信頼性を示す項目は多くなかった (Rater B Facilitation: α = .817; Total: α = .773; Rater D English: α = .913; Rater D Facilitation : α = .791; Rater D Total : α = .900; Rater E Content: α = .748)。項目ごとにおいては，Facilitationはある程度一致度が高い (Rater B: α = 817; Rater D: α = .791; Rater E: α = .684) が，English (Rater D: α = .913) , Content (Rater D: α = .748) は，一致度が高いとは言えないことがわかった。教師インタビューから，評価項目に関する問題が指摘されていることを考えると，評価項目が影響を与えた可能性は考えられる。しかし，信頼性係数において，評価者Aと各評価者との一致度が高い項目が多くなく，各評価者間において認識のずれが推測されるにもかかわらず，Facilitationはカッパ係数及び信頼性係数においてある程度の一致度を示したことから，初めて使用するFacilitationの評価に関しては，事前に十分な打ち合わせと採点トレーニングを行ったことがより大きな影響を与えたのではないかと考えられる。パフォーマンステスト開発段階から，数回にわたり，評価者が一緒に生徒たちのパフォーマンスを観察し，そして，自ら評価項目を作成した経緯がある。評価者たちが最も注意を向けていた項目であり，十分情報共有できる機会もあったことがこの結果をもたらしたように思われる。反面，Facilitationほど注意を向けられなく，十分な打ち合わせやトレーニングをしなかった項目 (English, Content) に関しては，一致度が低い。これは，もしかしたらFacilitationのような十分な事前準備をしない場合に，通常起こりうる結果と考えられるかもしれない。

以上により，本研究で用いたFacilitationという評価尺度は，入念な評価尺度に対する打ち合わせと採点トレーニングなどの事前準備のおかげで，信頼性を有する評価尺度となることができたと考えることができる。

RQ3として，「ファシリテーションスキルを測る評価尺度を用いるパフォーマンステストの実施可能性はどの程度であるか？」という問いを設定した。本研究では，ファシリテーションスキルを観察するのに有効だと思われる，3人によるディスカッションという形式，そして意思決定タスクを用いた。教師インタビューから，本研究で使用されたパフォーマンステストの実際の運用を振り返ると，運営面と評価に関する課題が見つかった。運営面に関する問題としては，時間配分等の環境設定に改善の余地があること，また，表面的な議論や議論の進行に困難のある生徒の存在から，意思決定に対する経験や知識不足が推測された。評価面に対する課題としては，評価人数と項目の多さから，評価の負担が増えたこと，評価項目に解釈が難しいもの，他と重複するものなど，適切ではないと思われる項目があったこと，印象点という評価方法の検証が必要なことなどが挙げられる。

上記の内容をまとめると，本研究で用いたパフォーマンステストは，運営面でいくつかの改善すべき点が見受けられ，評価面において，負担と混乱がある程度存在していることが想定される。しかし，パフォーマンステストを中断しなければならないほどの大きな問題は起きておらず，また，全く信頼できない評価が与えられているわけでもないことから，テストとして成り立っていると捉えられる。よって，本研究におけるパフォーマンステストは，ある程度の実施可能性を示していると考えられるのではないだろうか。

以上3つのRQへの考察から，ファシリテーションスキルは，advanced learnersを弁別することができる貴重な評価尺度であると捉えることができる。また，その評価は，必要な準備をすれば，良好な信頼性を示し，テストの環境設定に注意し，より評価項目を精選し, 整理すれば, 問題なく運用できる評価尺度であると考えることができる。つまり，高度な言語活動における学習者のパフォーマンス評価の評価尺度の一つとして十分機能すると考えることができる。

6.2 課題

本研究における課題として，以下の2点に触れたい。まずは，パフォーマンステスト運営のための環境設定に改善の余地が十分あったことである。教室によって，担当者によっての，運営の差異が見受けられた。また，時間設定にも無理があった。十分な議論をする機会を与えるためには，もう少し余裕のある時間配分をするべきであった。最も影響を与えたと考えられたのは，選択肢等の状況設定の等質性のなさが想定される。1日2種類のsituationを用意し，1つのsituationに各3つの選択肢が用意されていた。合計で6種類の状況と18類の選択肢を使用したが，数が多くなった分，その種類は広がり，同じ検査であるのに，難易度に違いを生じさせてしまった可能性があった。また，それぞれの選択肢がパラレルに表記されていなかった点も参加者の選択に影響を与えたのではないかと考えられる。次回以降の，より公平で，精査されたパフォーマンステストの運営のヒントとしたい。

次に，本研究においては，評価項目の検証がなされていない点を挙げたい。木村 (2021) を参考にしているとはいえ，評価項目の開発はかなり恣意的であった。観察可能という点に絞って選定をしたが，本当にそれが，ファシリテーションスキルに含まれるのか，また重要なものなのか，それらについての分析は本研究には含まれていない。今後の検証が必要である。

6.3 教育的示唆

最後に，本研究を通して，得られた知見から，教育的示唆を3点述べる。まず，1点目は，新しい評価尺度の開発は今後しばらく継続しなければならないと思われることである。本研究を通して，生徒たちの言語行動の，これまで明らかにされていなかった特徴の一部を明らかにできたが，まだまだ理解されていない部分も多いと考えられる。特に，中上級学習者の言語行動にはどのような特徴があるかについては，十分な研究の余地が残されていると感じられる。未だ知られていない，生徒たちの特徴を明らかにすることで，より効果的な支援が可能になると考えられる。

2点目として，より効果的な教育活動を実現するためにも，教師間でより共通理解が得られる工夫を考える必要がある，ということを訴えたい。本研究において，本校では初めてファシリテーションに焦点を当てた，新しい評価尺度を作成した。そして，パフォーマンステストを行った結果，ある程度の評価者間一致度 (k = .487) を得ることができた。それは十分な打ち合わせと数回に渡り動画を見ながらトレーニングをした結果と考えられる。しかし，反面，慣れ親しんでいるはずのEnglish (k = .255) や論理的な思考を問うContent (k = .255) の一致度が乏しいことが明らかになった。これは，ファシリテーションほどの十分な事前の打ち合わせや準備がなかったことから生じた，不十分な共通認識が原因ではないか。このような事態は学校現場では極めて頻繁に起きると思われる。自らの信念に従い，行動 (評価) してしまうことは，共通認識がなければ，必然と言えるかもしれない。しかし，ファシリテーションにおいては，高い評価の一致度を示すに足る，共通認識を確立できたという事実を忘れてはならない。このことは，必要な準備さえあれば，教師間できちんと認識を共有し，同じ価値観を持って評価できる，ということを意味している。チームで教師が行動することできれば，評価のみならず，さまざまな場面で，教育はその効果を発揮するのではないだろうか。

最後に，最も基本的で，最も大切な内容に触れたい。パフォーマンステストにおける指導と評価の一体化を実現するために，指導計画は十分に練られるべきである。テストにおいて，教えていないものを測ってはいけない。教師アンケートの結果，教師たちは，本研究で焦点をあてたファシリテーションについて，授業で指導していなかった。日々の授業では，たくさんの言語活動を行っており，3人以上のグループディスカッションも複数回経験をしている。しかし，グループディスカッションで必要となるであろう，ファシリテーションについて，授業において具体的に言及することがなかった。ここに今後の英語教育が発展していくための鍵があるように感じられる。実際に，教室ではさまざまな言語活動は行っている。しかし，それに関連するコミュニケーションスキルを指導していない。ということは，生徒たちはどこで，どうやってそのスキルを身につければいいのだろうか。英語学習において，言語知識に興味を奪われがちだが，より高度な言語活動を遂行するためには，必要なスキルの獲得が必要不可欠なように思われる。どのようにしたら，議論を進められるのか，議論を深められるのか，複数人で合意形成をすることができるのか，それらを知っていることが，本当の意味で言語を運用できるということを意味するのではないだろうか。英語教師たちは，目の前の生徒たちに何を教えるべきなのかを改めて考える必要があるように感じられる。

引用文献

市川ゆりえ. (2009). 会話を維持するためのコミュニケーション・ストラテジー--日本人英語学習者のスピーキング・テストにおける会話の分析. 言語情報科学, 7, 97–107. Retrieved from https://repository.dl.itc.u-tokyo.ac.jp/record/16600/files/lis00707.pdf
井上千尋. (2021). 大規模スピーキングテストにおける採点の運用と課題. 小泉科研プロジェクト第2回例会 / JLTA第52回研究例会口頭発表資料. Retrieved from http://jlta2016.sakura.ne.jp/wp-content/uploads/2021/02/PDF2_Lecture1_Inoue.pdf
木村一男. (2021). インタラクションにおける日本人高校生のパフォーマンス評価〜尺度としてのCommunication Strategiesの可能性〜. 英語授業研究学会紀要, 30, 71–83.
駒形憲彦・大塚裕子. (2014). ディスカッションにおける意思決定プロセスの分析. 人工知能学会研究会資料. 言語・音声理解と対話処理研究会, 72, 51–56.
春木茂宏. (2019). 英語による議論においてどのような要因が日本人の自発的発言を促進するのか.社会言語科学会. 第43回大会発表論文集, 10–13.
堀公俊. (2018).ファシリテーション入門. 東京: 日本経済新聞出版社.
文部科学省. (2014). 今後の英語教育の改善・充実方策について報告～グローバル化に対応した英語教育改革の五つの提言～. Retrieved from https://www.mext.go.jp/b_menu/shingi/chousa/shotou/102/houkoku/attach/1352464.htm
文部科学省. (2018). 平成29年度英語力調査結果 (高校3年生) の概要. Retrieved from https://www.mext.go.jp/a_menu/kokusai/gaikokugo/__icsFiles/afieldfile/2018/04/06/1403470_03_1.pdf
文部科学省. (2019). 新学習指導要領全面実施に向けた小学校外国語に関する取組について. Retrieved from https://www.mext.go.jp/b_menu/shingi/chukyo/chukyo3/004/siryo/__icsFiles/afieldfile/2019/09/11/1420968_2.pdf
安永悟・江島かおる・藤川真子. (2000). ディスカッション・スキル尺度の開発. 久留米大学文学部紀要人間科学科編, 12(13), 43–58.
Ellis, R. (1985). Teacher-pupil interaction in second language development. In S. M. Gass, & C. G. Madden (Eds.), Input in second language acquisition (pp. 69–85). Rowley, MA: Newbury House.
Gass, S. M., & Varonis, E. M. (1985). Task variation and nonnative/nonnative negotiation of meaning. In S. M. Gass, & C. G. Madden (Eds.), Input in second language acquisition (pp. 149–161). Rowley, MA: Newbury House.
Herbert A. Simon (1977). The new science of management decision. Englewood Cliffs, New Jersey: Pretice-Hall.
Lázaro-Ibarrola, A. & Azpilicueta-Martinez, R. (2015). Investigating negotiation of meaning in EFL children with very low levels of proficiency. International Journal of English Studies, 15, 1–21. Retrieved from https://revistas.um.es/ijes/article/view/203751/177101
Sato, T., Yujobo, J. Y., Okada, T., & Ogane, E. (2019). Communication strategies employed by low-proficiency users: Possibilities for ELF-informed pedagogy. Journal of English as a Lingua Franca, 8, 9–35. Retrieved from https://www.degruyter.com/document/doi/10.1515/jelf-2019-2003/html

付録

Situation cardの例

責任著者(Corresponding author)

訂正情報

J-STAGEへの登録はこちら（無料）