「研修デザイン評価スケール―院内教育用―」の開発

山澄 直美; 舟島 なをみ; 中山 登志子

doi:10.5630/jans.40.611

Abstract

目的：院内教育として提供される研修のデザインの質を評価する測定用具を開発する．

方法：質的帰納的に解明した研修の評価基準に基づき，質問項目を作成し尺度化した．内容の妥当性は専門家会議とパイロット・スタディにより確保した．看護職者に対する第1回調査の結果，得点分布の偏りを認めた．選択肢を修正したスケールを用いて第2回調査を実施し，尺度の信頼性と妥当性を検討した．

結果：第2回調査の回答385を分析した結果，クロンバックα信頼性係数は，内的整合性による信頼性の確保を示した．総得点と研修への満足度の有意な相関を認め，6回以上継続されている研修の参加者の得点は，2回以下の研修の参加者より有意に高かった．また，主成分分析の結果，スケールの1次元性を確認した．以上は，スケールの妥当性を示した．

結論：スケールは，信頼性と一定程度の妥当性を確保しており，研修企画担当者による研修デザインの質評価に活用可能である．

Translated Abstract

Aim: To develop and validate an instrument to evaluate the course design of in-service education for nurses.

Methods: The questionnaire items were generated based on the criteria used by nurses to evaluate in-service education courses as revealed by qualitative and inductive research. Content validity was established by a panel of experts and via a pilot study. The results of the first survey—which was administered to nurses who attended 22 in-service education courses at 16 hospitals—showed that the score distribution was biased. Thus, the response choice patterns were modified, and the second survey was conducted with 444 nurses who attended 22 in-service education courses at 11 hospitals.

Results: The analysis of data from 385 participants showed that the Cronbach’s alpha coefficient of the scale was .955, signifying that the scale has internal consistency. The scale scores were significantly correlated with the nurses’ satisfaction with the courses. The scores of the nurses who attended courses that had been conducted six or more times at their hospitals were significantly higher than those for nurses who attended courses that had been conducted two times or less. The one-dimensionality of the scale was confirmed via principal component analysis. These results indicate that the scale has validity.

Conclusion: The scale that was developed has both reliability and validity, and can be utilized for evaluating the quality of course designs by nurses in charge of planning courses.

Ⅰ．緒言

保健師助産師看護師法及び看護師等の人材確保の促進に関する法律が2009年に改正され，看護師の臨床研修等は，各医療機関及び看護職者自身の努力義務として定められた．これは，永年，看護職者の自律的な活動として継続されてきた院内教育が，医療の質保証に向けて不可欠であることが公的にも認められたことを意味する．

院内教育として提供される研修は，参加者である看護職者の視点に基づき評価する必要がある．それは，次の理由による．院内教育の学習者となる看護職者は，その多くが成人学習者としての特性を備えている．成人学習者は，自発的，自己決定的な自己概念を有する（Knowles, 1980）．そのため，学習の支援者はこの自発的，主体的であろうとする心理的要求に応える必要がある．また，研修に対する満足度は，学習成果に関連する（Kirkpatrick & Kirkpatrick, 2016）．これらは，看護職者が意向に沿った研修，よいと知覚できる研修が，研修の成果である目標達成度の向上につながる可能性が高いことを示す．

看護職者が研修を評価する基準を解明した研究は，看護職者が研修を企画，過程，成果の3側面から評価していることを明らかにした（山澄ら，2013）．3側面のうち研修の成果は，各研修が設定する目標の達成度による評価が必要である．一方，過程及び企画の側面は，研修参加者の視点を反映した測定用具を用いて評価し，その結果に基づき改善することが参加者の満足度を高め，研修の目標達成度の向上につながる可能性が高い．質的帰納的に解明された看護職者が研修を評価する基準を基盤に研修過程を評価するスケールがすでに開発されており，院内教育の講師によるスケールを用いた評価活動が研修の質向上につながることも実証されている（山澄ら，2014）．

本研究は，質的帰納的に解明された看護職者が研修を評価する基準を基盤にし，研修の企画担当者が研修参加者から企画の側面の評価を受けるために活用できるスケールを開発する．院内教育の企画・運営は，専任の教育担当者や委員会組織（中西ら，2013）が担当する．企画・運営を担当する看護職者は，自身が研修の講師を担当する場合もあれば，他者に講師を依頼する場合もある．これは，研修の企画・運営担当者と講師が異なる場合があるため，講師が研修の質向上を目指して実施する研修過程の評価と別に，研修の企画・運営担当者が企画すなわちデザインの側面を評価し，研修の質を改善するために活用できるスケールの必要性を示す．本研究は，院内教育として提供される研修を企画・運営する看護職者が評価活動を研修の質改善につなげることを可能にするスケールを開発することを目指す．

Ⅱ．目的

院内教育を企画・運営する看護職者が研修の改善に活用できる研修デザインの質を評価するための信頼性，妥当性を確保した測定用具を開発する．

Ⅲ．用語の概念規定

研修デザイン

研修は，デザイン，過程，成果の3側面から評価する必要がある．研修デザインとは，研修の企画段階に実施される研修の内容と目的の決定，講師，受講条件，時間及び環境の設定などであり，研修開始後には変更が不可能な研修の側面であり，研修の企画担当者が主に責任を持つ．なお，本研究において「デザイン」は「企画」と同義とする．

Ⅳ．理論的枠組み

文献検討に基づき，本研究の理論的枠組みを構築した（図1）．測定用具の構成概念は，「参加者の視点に基づく院内教育の研修デザインの質」である．質的帰納的に解明された看護職者が研修を評価する基準32カテゴリ（山澄ら，2013）から，本研究の「研修デザイン」の概念規定に基づき研修のデザインに関わる評価基準を導出し，これを基盤に質問項目を作成，尺度化する．看護職者が研修を評価する基準は，看護職者823名が「研修を評価する視点」として回答した記述を内容分析の手法を用いて意味内容の類似性に基づき分類し形成された．これは，基盤としたカテゴリが構成概念「参加者の視点に基づく院内教育の研修デザインの質」の領域を網羅しており，かつそれ以上に分類，統合できないことを示す．そのため，質問項目は，各々異なる内容を測定するものと考え，開発するスケールは，1次元性であると仮定する．質問項目の作成と尺度化を行い，専門家会議とパイロット・スタディにより内容の妥当性を検討する．これらを経て作成した「研修デザイン評価スケール―院内教育用―」を用いて研修に参加した看護職者を対象に調査を実施し，項目分析により項目を決定する．次にクロンバックα信頼性係数の算出により内的整合性を検討する．

図1

「研修デザイン評価スケール―院内教育用―」開発のための理論的枠組み

妥当性は次の3点により検討する．第1に，研修への満足度とスケール得点の相関を検討する．Abruzzese（1996）は，スタッフ・ディベロップメントの評価モデルとして4段階のモデルを提示した．評価モデルの第1段階である過程評価は，学習経験に対する学習者の満足度であり，具体的には，教授者，内容，目標，教授・学習方法，環境，運営などを含む．学習経験は，何らかの学習活動を通してもたらされ，この学習活動にはあらかじめ計画された側面が存在する．スケールの構成概念「参加者の視点に基づく院内教育の研修デザインの質」は，この計画の部分に該当する．先行研究は，参加者の研修への満足度と研修過程の質に正の相関関係を認めている（山澄ら，2013）．研修に対する満足度には，「研修過程の質」と共に「研修デザインの質」が関連している可能性が高い．第2に研修の継続性とスケール得点の関係を検討する．既知グループ技法は，構成概念に関する相違が既知あるいは期待されるグループ間を弁別する程度を検討する方法である（Polit & Beck, 2020）．院内教育として提供される研修は，公的に決められた教育プログラムが存在せず，各病院の教育を担当する看護職者によって開発され，継承されてきた．そのため，各組織が長く継続してきた研修は，洗練を繰り返し，研修デザインの質が向上している可能性が高い．そこで，仮説「院内研修として継続的に提供されている研修の参加者は，継続性のない研修の参加者よりも研修デザインの質を高いと評価する」を設定し検証する．第3に，主成分分析により尺度の1次元性を確認する．

完成したスケールは，研修の企画・運営担当者が評価結果に基づき研修のデザインを改善するために活用でき，参加者の視点を反映した企画・運営による研修の質向上，参加者の満足度や目標達成度の向上を可能にする．

Ⅴ．研究方法

1．研修デザインの評価基準の導出

看護職者が研修を評価する基準32カテゴリ（山澄ら，2013）を本研究の研修デザインの定義に照合し検討した．その結果，【研修内容と学習ニードの合致の程度】（【　】内はカテゴリ名）【研修内容の難易度と専門性の適否】【内容に対する受講経験の有無】【自由意志による参加の可否】【講師の知名度と新奇性の程度】【受講者数の適否】は，企画段階に設定され，研修開始後には変更が不可能な側面であると判断した．また，【看護実践の現状と研修内容の適合度】【研修内容の系統性の程度】【時間設定，配分，管理の適否】【明確な目的設定の有無】【受講環境の良否】は，過程とともに企画段階に決定される側面を含むと判断した．さらに，【学習成果獲得の有無】もデザインの評価基準に必要と判断した．研修成果の評価は，知識や技術の習得など参加者の行動の変化を筆記試験など客観的方法により確認する必要がある．しかし，看護職者が【学習成果獲得の有無】を研修評価の基準としていることは，実際の行動の変化が確認できない場合であっても，「成果を獲得できた」と知覚できたか否かが研修への満足度に強く関係する可能性を示す．以上の検討に基づき，12カテゴリを研修デザインの評価基準とした．

2．質問項目の作成・尺度化

導出した12の評価基準に基づき，17質問項目を作成した．複数の内容に分離した方が研修デザインの質改善に向けた方向性を検討しやすいと判断した場合には，1評価基準から複数の質問項目を作成した．次に，各質問項目を5段階リッカート法により尺度化した．選択肢には現実の程度量用語（織田，1970）を採用し，「かなりそう思う（5点）」「ややそう思う（4点）」「どちらとも言えない（3点）」「あまりそう思わない（2点）」「ほとんどそう思わない（1点）」とした．スケールの表紙には，尺度を用いた評価の目的と結果の活用方法を提示し，回答のしかたを説明する教示文を作成した．

3．内容の妥当性検討及びスケール案の修正

尺度の内容の妥当性検討，質問項目の洗練を目的とし専門家会議を実施した．構成員は，院内教育の研修に参加した経験がある看護職者2名，企画する立場にある教育担当師長3名の計5名であった．会議の結果に基づき質問項目と教示文の表現，質問項目の配列を一部修正した．修正したスケールの質問項目の表現の適切性に関し，研修参加者の立場にあるスタッフ看護師3名から意見を聴く機会を設けた．その結果，質問項目が理解可能であり，回答できる内容となっていることを確認した．

修正したスケールを用いて，便宜的に抽出し，研究協力への承諾が得られた6病院7研修の参加者を対象にパイロット・スタディを実施した．質問紙配布数は184部，回収数は179部（回収率97.3%）であった．170部（95.0%）が全質問項目に回答していた．無回答のあった9部のうち4部がスケールの全項目に回答していなかった．表紙の裏に質問項目を印刷していたため見落とした可能性が考えられ，表紙の内容を教示文の前に記載し，表紙は削除した．残る5部のうち4部は，各々異なる1項目に無回答であり，これら4項目は173名が回答できていたため，回答可能な内容であると判断した．また，残る1部は，8項目に無回答であり何らかの事情により，回答できないまたは回答する意思がなかったと判断した．以上に基づき17項目は，いずれも回答可能であると判断した．

4．調査

1）第1回調査

（1）対象者

便宜的に抽出し，研究協力への承諾が得られた16病院22研修の企画・運営担当者（以下，企画担当者とする）22名と研修参加者638名であった．

（2）測定用具

作成したスケール，研修参加者用特性調査紙，企画担当者用特性調査紙を用いた．参加者用特性調査紙は，参加者の特性と研修への満足度を問う質問項目から構成した．研修への満足度を測定するための信頼性と妥当性を確保したスケールは開発されていないため，5段階により満足の程度を問う質問項目を設定した．企画担当者用特性調査紙は，研修のテーマなど研修の特性を確認し，既知グループ技法に用いる病院における当該研修の継続年数を問う質問項目から構成した．特性調査紙の内容の妥当性は専門家会議とパイロット・スタディを通して確保した．

（3）調査方法

便宜的に抽出した病院の看護管理者または院内教育の責任者に対して研究協力を依頼した．承諾が得られた場合には，研修の企画を担当する教育委員などに対し，研究者が電話やEメールなどにより研究内容等を説明し協力を依頼した．質問紙の回収は留め置き法とし，研修企画担当者に，①研修参加者への説明及び質問紙の配布，②研修会場の出口付近に回収箱を設置し，回答者自身により投入する方法による質問紙の回収，③研究者が準備した返送用レターパックを用いた回収した質問紙の返送，を依頼した．調査期間は，2014年11月27日から2016年3月31日であった．

2）第1回調査結果に基づくスケールの修正

研究協力が得られた22研修の参加者に質問紙638部を配布し，603部が回収できた（回収率94.5%）．有効回答577部を分析した結果，スケール総得点は，40点から85点の範囲にあり，平均73.08点（SD = 8.69），得点分布は正規分布を示さなかった．全項目の中央値，最頻値はともに4点または5点であり「同意」の選択肢に偏っていた．また，17項目のうち11項目（64.7%）が天井効果を示した．得点分布の高得点への偏りは，院内教育として提供される研修が，企画担当者の検討を経て提供されているため，研修デザインが一定の質を担保できている状況を示していると解釈できる．一方，「3点」を中間とした同意2項目，反意2項目の選択肢は，一定の質が担保されている研修デザインの細かな質の差異を識別できない可能性を示す．丹野（2014）は，回答が一方向に偏ることを防ぐために，中間の選択肢を設定せず，回答が少ないと考えられる側の選択肢を減らし，他方を多くすると述べている．また，選択肢の表現と得点配置のレイアウトによる回答傾向の相違を明らかにした研究は，肯定的な表現と高い得点を左側に配置した場合に，回答者の得点が有意に高くなることを明らかにした（Hartley & Betts, 2010）．

以上に基づき，選択肢を「あまりそう思わない（1点）」「ややそう思う（2点）」「わりにそう思う（3点）」「かなりそう思う（4点）」「非常にそう思う（5点）」と修正し，最も左側を「あまりそう思わない（1点）」，右側を「非常にそう思う（5点）」となるよう配列した．

3）第2回調査

（1）対象者

便宜的に抽出し，研究協力への承諾が得られた11病院22研修の企画担当者22名と研修参加者444名であった．

（2）測定用具

第1回調査に基づき修正した研修デザイン評価スケールと第1回調査と同じ参加者用特性調査紙，企画担当者用特性調査紙を用いた．

（3）調査方法

第1回調査と同様の方法を用いた．調査期間は，2016年10月4日から2017年1月10日であった．

（4）分析方法

項目分析として，各質問項目の反応分布の確認，項目－全体相関分析，各質問項目を除外した場合のクロンバックα信頼性係数の変化を確認した．尺度の1次元性確認のため，主成分分析を実施した．内的整合性の検討に向けクロンバックα信頼性係数を算出した．研修への満足度とスケール総得点とのSpearmanの順位相関係数の算出，研修の継続回数によるスケール総得点の差をt検定を用いて分析した．検定の有意水準は5%とし，IBM SPSS statistics24を用いた．

5．倫理的配慮

研修企画担当者には，研究協力依頼書を送付するとともに，電話や電子メールにより目的，調査内容，倫理的配慮等を説明した．自由意思により協力の可否を決定することを説明し，間接的に意思表明できるよう電子メールアドレスを提示し，自己決定の権利を保障した．研修参加者には，質問紙とともに研究目的，内容，倫理的配慮等を記載した文書を配布した．回答は無記名とし，任意による協力の保証に向けて，回収用の袋を準備し質問紙とともに送付し，会場の出口付近に設置してもらうよう研修企画担当者に依頼した．データのコード化を通し，対象者の匿名性を保証した．長崎県立大学一般研究倫理委員会の承認を得た（承認番号240）．

Ⅵ．結果

第2回調査の回収数は408部であり（回収率91.9%），「研修デザイン評価スケール―院内教育用―」の全項目への回答があった385部を有効回答とし，分析対象とした．

1．研修実施病院及び研修の概要（表1）

対象者が参加した22研修のテーマは，看護倫理，看護研究，事故予防等であった．研修参加者数は，3名から51名，研修時間は45分から240分であった．実施病院は，すべて一般病院であり，設置主体，所在地，病床数は表1に示す通りであった．

表1 研修実施病院及び研修の概要　n = 22

項目	種類および度数（%）
研修テーマ	看護倫理	6（27.3%）	看護実践	6（27.3%）
	看護管理	4（18.2%）	事故防止	2（9.1%）
	教育	2（9.1%）	看護研究	2（9.1%）
参加条件	あり	16（72.7%）	なし	6（27.3%）
病院の所在地	九州	11（50.0%）	関東・甲信越	7（31.8%）
病院の所在地	東北	2（9.1%）	東海・北陸	2（9.1%）
病院の設置主体	社会福祉法人	4（18.2%）	医療法人	3（13.6%）
	会社	3（13.6%）	国	2（9.1%）
	市町村	2（9.1%）	都道府県	2（9.1%）
	学校法人	2（9.1%）	その他	4（18.2%）
病院の病床数	20～199床	3（13.6%）	200～399床	6（27.3%）
病院の病床数	400～599床	13（59.1%）

2．研修参加者の特性（表2）

研修参加者の年齢は平均33.2歳（SD = 10.49），臨床経験年数は平均9.9年（SD = 10.26）であり，女性が351名（91.2%）であった．

表2 研修参加者の特性　n = 385

項目	範囲・種類および度数（%）
年齢	21歳～64歳	平均33.2歳（SD = 10.49）
臨床経験年数	1年未満～47年	平均9.9年（SD = 10.26）
性別	女性351名（91.2%）	男性30名（7.8%）	不明4名（1.0%）
職位	スタッフ	320名（83.1%）	副看護師長・主任	36名（9.4%）
職位	看護師長	18名（4.7%）	その他・不明	11名（2.8%）
卒業した看護基礎教育課程	3年課程専門学校	245名（63.6%）	大学	52名（13.5%）
	2年課程専門学校	51名（13.2%）	3年課程短期大学	18名（4.7%）
	2年課程短期大学	2名（0.5%）	その他・不明	17名（4.5%）

3．「研修デザイン評価スケール―院内教育用―」の得点分布

スケール総得点は，31点から85点の範囲にあり，平均65.5点（SD = 12.86）であった．中央値67.0，歪度–0.435（SE = .124），尖度–0.457（SE = .248）であり，ヒストグラムは単峰性の分布を示した．また，正規Q-Qプロットの点がほぼ直線上に重なることを確認した．

4．項目分析（表3）

1）反応分布

17質問項目全ての回答が1点から5点までの範囲に分布していた．項目7「研修内容に対して適切な講師であった」は，天井効果を示した．項目7の得点分布は，5点が385名中180名（46.8%），4点が128名（33.2%），3点が61名（15.8%）であり，高得点への偏りが認められた．天井効果が認められる項目は，尺度項目として適切とはいえないが，削除するか否かの判断時には質問項目が本来測定したい内容を反映しているかを留意する必要がある（小塩，2018）．項目7が示す研修の講師は，通常，研修内容に応じて十分に検討され決定される．そのため，高得点への偏りは，その状況を反映していると考えられる．研修の講師の決定は，研修の企画において重要な要素であり，尺度全体の得点分布が，正規分布とみなせる分布を示し，研修デザインの質を測定する尺度として機能しているため項目を削除しないこととした．

表3 「研修デザイン評価スケール―院内教育用―」の得点状況・項目が削除された場合のクロンバックα信頼性係数・項目－全体相関

質問項目		mean（SD）	mean + SD	項目が削除された場合のCronbach α信頼性係数	修正済み項目合計相関
1	研修の目的と内容は十分周知されていた	3.69（1.04）	4.73	.953	.670
2	開催日時の設定は適切であった	3.67（1.08）	4.75	.953	.672
3	1回あたりの研修時間は適切であった	3.79（1.02）	4.81	.952	.713
4	会場の広さは適切であった	3.98（0.96）	4.94	.953	.685
5	受講者数は適切であった	3.96（0.94）	4.90	.952	.747
6	研修スタッフの数は適切であった	4.03（0.93）	4.96	.951	.775
7	研修内容に対して適切な講師であった	4.22（0.87）	5.09	.951	.799
8	スクリーンに表示された内容は十分に読み取ることができた	3.93（1.01）	4.94	.952	.715
9	内容に対して研修回数の設定は適切であった	3.80（0.99）	4.79	.951	.761
10	学習ニードに合致した内容であった	3.86（0.96）	4.82	.950	.819
11	研修内容の専門性の高さは私にとって適切であった	3.80（0.96）	4.76	.950	.827
12	研修内容の難易度の高さは私にとって適切であった	3.73（0.93）	4.66	.951	.802
13	受講経験があったとしても繰り返し学ぶ必要のある内容であった	3.90（1.03）	4.93	.953	.646
14	業務の遂行に役立つ研修であった	4.06（0.93）	4.99	.951	.784
15	これまで受けてきた研修とのつながりがわかる研修であった	3.78（1.00）	4.78	.951	.780
16	成果の獲得を実感できた研修であった	3.67（1.00）	4.67	.952	.746
17	自分の意志により参加できた	3.64（1.20）	4.84	.957	.514
総得点		65.5（12.86）

2）項目－全体相関及び項目間相関

スケール総得点と各質問項目の相関係数は，.514から.827の範囲にあり，項目－全体相関が低い項目は存在せず，スケール全体が測定している内容と関係が乏しい項目（畑中，2014）が含まれていないことを確認した．項目間の相関係数は，.327から.854の範囲にあり，項目間相関の平均値は.564であった．

3）各質問項目を除外した場合のクロンバックα信頼性係数の変化

スケール全体のクロンバックα信頼性係数は，.955であった．項目17「自分の意志により参加できた」が削除された場合のクロンバックα信頼性係数は，.957であり，17項目のうち，唯一削除による上昇が認められた．しかし，クロンバックα信頼性係数は，.8以上を信頼性の基準とする場合が多く（村上，2006；Polit & Beck, 2020），項目17を含めた場合も十分に高い値であるため削除する必要はないと判断した．

5．「研修デザイン評価スケール―院内教育用―」の信頼性と妥当性

1）信頼性及びスケールの構造

スケール全体のクロンバックα信頼性係数は，.955であった．17項目に関し主成分分析を実施した結果，17質問項目すべての第1主成分に対する負荷量は，絶対値.40以上，寄与率は59.44%であり，1次元性が確認できた（畑中，2014）（表4）．

表4 「研修デザイン評価スケール―院内教育用―」の主成分分析の結果

質問項目		負荷量
1	研修の目的と内容は十分周知されていた	.705
2	開催日時の設定は適切であった	.705
3	1回あたりの研修時間は適切であった	.743
4	会場の広さは適切であった	.725
5	受講者数は適切であった	.781
6	研修スタッフの数は適切であった	.809
7	研修内容に対して適切な講師であった	.829
8	スクリーンに表示された内容は十分に読み取ることができた	.753
9	内容に対して研修回数の設定は適切であった	.799
10	学習ニードに合致した内容であった	.852
11	研修内容の専門性の高さは私にとって適切であった	.860
12	研修内容の難易度の高さは私にとって適切であった	.835
13	受講経験があったとしての繰り返し学ぶ必要のある内容であった	.687
14	業務の遂行に役立つ研修であった	.818
15	これまで受けてきた研修とのつながりがわかる研修であった	.814
16	成果の獲得を実感できた研修であった	.778
17	自分の意志により参加できた	.551
	固有値	10.11
	寄与率（%）	59.44

2）研修への満足度との相関

参加者の研修への満足度は「非常に満足している（5点）」「かなり満足している（4点）」「わりに満足している（3点）」「あまり満足していない（2点）」「全く満足していない（1点）」と得点化した．スケール総得点と研修への満足度の相関係数は，.676（p < .001）であった．

3）研修の継続性による得点の比較

6回以上継続されている研修参加者の得点は，継続が2回以下の研修参加者の得点よりも有意に高かった（t = –2.791，p = .006）（表5）．仮説「院内研修として継続的に提供されている研修の参加者は，継続性のない研修の参加者よりも研修デザインの質を高いと評価する」は支持された．

表5 研修の継続性と「研修デザイン評価スケール―院内教育用―」総得点

研修の継続性	n	mean（SD）
2回まで	49	62.57（11.34）
6回以上	77	68.86（12.91）

t検定　t = –2.791　df = 124　p = .006

Ⅶ．考察

1．データの適切性

総得点分布は，ヒストグラムが単峰性を示し，正規Q-Qプロットがほぼ直線上に重なり，歪度–0.435がほぼ正規分布と見なせる±0.5未満（折笠，2017）であった．以上に基づき，本研究のデータは総得点分布が正規分布とみなすことができ，信頼性及び妥当性の検証に用いるための適切性を備えていると判断した．

2．「研修デザイン評価スケール―院内教育用―」の信頼性及び妥当性

クロンバックα信頼性係数は，.955であった．クロンバックα信頼性係数は，.8以上が望ましいとされており（村上，2006；Polit & Beck, 2020），スケールが内的整合性による信頼性を確保していることを示す．

尺度の妥当性は，尺度得点が測定しようとしている内容をどの程度反映し，得点をどのように解釈し利用するのが適切かを実証的・理論的証拠に照らして総合的に評価される価値を含んだ判断である（平井，2006）．妥当性の証拠の1つは内容的側面からの証拠であり，測定したい構成概念に含まれる要素，含まれない要素を明確に線引きしたドメインを定義し，尺度内容がドメインに対応しているか，十分に代表しているかを示す（平井，2006）．本スケールの質問項目は，看護職者823名が「研修を評価する視点」として回答した記述を質的帰納的に分析し形成された研修を評価する基準を基盤に作成された．質的帰納的分析の結果は，看護職者が研修を評価する基準を網羅的に解明している．そのため，この基準を基盤にした本スケールの質問項目は構成概念「参加者の視点に基づく院内教育の研修デザインの質」の領域を網羅している可能性が高い．また，院内教育の参加者，研修を企画・運営する立場にある看護職者をメンバーとする専門家会議による内容の検討を行ったことも内容的証拠となる．

研修の質と関連が予測された研修への満足度とスケール総得点の相関係数は，.676であり，有意な中程度の相関を示した．他の変数との間に理論的に想定される相関パターンが実際に示されることは，妥当性の外的側面からの証拠である（平井，2006）．これは，スケールが妥当性の外的側面からの証拠を有することを示す．しかし，研修への満足度を一項目のみの5段階評定尺度により測定しており，測定尺度としてのレベルが低い点に限界を持つ．また，6回以上継続されている研修参加者の得点は，継続が2回以下の研修参加者の得点よりも有意に高く，仮説「院内研修として継続的に提供されている研修の参加者は，継続性のない研修の参加者よりも研修デザインの質を高いと評価する」が支持された．群間の大きな平均差が得られるはずのところで実際に大きな平均差が得られた場合，それは妥当性の収束的証拠となる（村上，2003）．

さらに，1次元性を仮定し作成したスケールは主成分分析の結果1次元性が確認できた．スケール全体のクロンバックα信頼性係数は内的整合性を示す．これらは，得点の内的構造が構成概念の下位領域や次元性などの理論的構造に一致していることを示す構造的証拠（平井，2006）である．

以上は，スケールが内容的側面，外的側面，構造的側面からの証拠が存在し一定の妥当性を有することを示す．

3．「研修デザイン評価スケール―院内教育用―」の意義と活用方法

日本看護協会（2013）発行の「『継続教育の基準ver. 2』活用のためのガイド」は，教育プログラムの評価項目として①講師，学習者，教材，環境などの構成の評価，②学習者の目的・目標の達成に関する評価，③教育プログラムの進め方や展開方法などのプロセスの評価，④目標，学習形態，開催時期などのデザインの評価の4側面と具体的な評価項目を提示している．一方，「研修デザイン評価スケール―院内教育用―」は，研修を成果，過程，デザインの3側面から評価する必要があるという前提に基づき開発された．「『継続教育の基準ver. 2』活用のためのガイド」が示す評価項目のうち，②は研修の成果の評価に該当し，①のうち講師，教材など主に研修の講師が責任を持つべき側面と③は，研修の過程の評価に該当する．一方，①の環境や④に含まれる開催時期などは，研修の企画段階に設定され，研修開始後には変更が不可能な研修の側面であり，主に研修の企画担当者が責任を持つデザインの評価に該当する．「研修デザイン評価スケール―院内教育用―」は，質的帰納的研究を通して解明された看護職者の研修評価基準（山澄ら，2013）に基づき開発された．その質問項目は，前述の「『継続教育の基準ver. 2』活用のためのガイド」が提示している経験的に提唱されてきた評価項目とも一致している．また，スケールは信頼性と一定の妥当性が確認されたことから，研修デザインの適切な評価を可能にする．さらに，本スケールは，評価の目的と評価結果の活用者を明確に提示しているため，実際の院内教育における具体的な評価方法として活用できる．

さらに，「研修デザイン評価スケール―院内教育用―」の質問項目は，質的帰納的に解明した研修参加者の評価基準を反映しているため，研修の企画担当者は，得点が低かった質問項目が示す内容を改善することにより，参加者の満足度が高い研修に近づけることができる．加えて，本スケールは，先行して開発された「研修過程評価スケール―院内教育用―」を併用することにより，研修をデザイン，過程の側面から総合的に評価することを可能にする．また，個々の研修に応じて決定される目標の達成度である成果の評価を含めた3側面からの研修評価は，研修の質の確実な改善につながることが期待できる．

Ⅷ．結論

1．質的帰納的に解明した12基準に基づき開発した「研修デザイン評価スケール―院内教育用―」は，17質問項目から構成された．

2．「研修デザイン評価スケール―院内教育用―」は，内的整合性による信頼性を確保している．

3．「研修デザイン評価スケール―院内教育用―」は，質的帰納的に解明された研修評価の基準に基づき質問項目を作成し，専門家による検討を経たことによる内容的側面，研修の満足度との相関及び研修の継続性による平均差の確認による外的側面，1次元性と内的整合性の確認による構造的側面の証拠により一定の妥当性が示された．

謝辞：本研究にご協力いただいた全国の看護職者の皆様に心より感謝申し上げます．なお，本研究は，JSPS科研費26463249，18K10159の助成を受け実施した．

利益相反：本研究における利益相反は存在しない．

著者資格：NYは，研究の着想およびデータ収集と分析，原稿作成のプロセス全体に貢献した．NFおよびTNは，研究の着想，デザインおよび草稿の作成に貢献した．すべての著者は最終原稿を読み，承認した．

文献

Abruzzese, R. S. (1996): Nursing Staff Development: Strategies for Success, 245–250, Mosby-Year Book, Inc., St. Louis.
畑中美穂（2014）：心理測定尺度の尺度構成，宮本聡介，宇井美代子（編），質問紙調査と心理測定尺度　計画から実施・解析まで，151–154，サイエンス社，東京．
Hartley, J., Betts, L. R. (2010): Four layouts and a finding: The effects of changes in the order of the verbal labels and numerical values on Likert-type scales, Int. J. Soc. Res. Methodol., 13(1), 17–27.
平井洋子（2006）：測定の妥当性からみた尺度構成―得点の解釈を保証できますか，吉田寿夫，心理学の新しいかたち第3巻　心理学研究法の新しいかたち，29–31，誠信書房，東京．
Kirkpatrick, D. L., Kirkpatrick, W. D. (2016): Kirkpatrick’s Four Level of Training Evaluation, 17, ATD Press, Alexandria.
Knowles, M. S. (1980): The Modern Practice of Adult Education: From Pedagogy to Andragogy, 43–45, Cambridge Adult Education, Englewood.
村上宣寛（2006）：心理尺度の作り方，35，北大路書房，京都．
村上隆（2003）：測定の妥当性，日本教育心理学会，教育心理学ハンドブック，162，有斐閣，東京．
中西睦子，小池智子，松浦正子，他（2013）：看護サービス管理（第4版），226，医学書院，東京．
日本看護協会（2013）：「継続教育の基準ver. 2」活用のためのガイド，Retrieved from: https://www.nurse.or.jp/nursing/education/keizoku/pdf/ver2-guide-2-all-0805.pdf.（検索日：2020年9月29日）
織田揮準（1970）：日本語の程度量表現用語に関する研究，教育心理学研究，18(3), 166–176．
折笠秀樹（2017）：正規性の確認法について，薬理と治療，45(12), 1993–1995.
小塩信司（2018）：SPSSとAmosによる心理・調査データ解析　第3版，162，東京図書，東京．
Polit, D. F., Beck, C. B. (2020): Nursing Research: Generating and Assessing Evidence for Nursing Practice 11th ed., 320–329, Wolters Kluwer, Philadelphia.
丹野宏昭（2014）：心理測定尺度の探し方・使い方，宮本聡介，宇井美代子（編），質問紙調査と心理測定尺度　計画から実施・解析まで，89–90，サイエンス社，東京．
山澄直美，舟島なをみ，中山登志子（2013）：「研修過程評価スケール―院内教育用―」の開発，看護教育学研究，22(1), 25–40.
山澄直美，舟島なをみ，中山登志子（2014）：「研修過程評価スケール―院内教育用―」を用いた評価活動の有効性検証，看護教育学研究，23(1), 1–16.

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）