2016 Volume 17 Issue 1 Pages 69-91
This report examines inter-rater reliability of recruiting interviews for new graduates based on existing data of the Japanese software development company A. Data of five components are used in this analysis.
Inter-rater reliability of Spearman's correlation coefficient ranged from 0.04 to 0.41, revealing that reliability differs between components. Analysis through other coefficients demonstrates differing results according to the selected correlation coefficient. Construct of each component does not be seemed dependent.
企業において,採用は人員調達の手段として必要不可欠である。新規学卒者の採用選考試験は,就職支援サイトへの登録に始まり,企業への資料請求,説明会への出席,エントリーシートの提出,面接という順序が一般的であるとされる(小杉,2007;筒井,2010)。これらの過程のうち,中心的な位置を占めているのは面接とされ,採否に決定的な意味を有することが多い(大沢・芝・二村,2010)。大沢(1989)によれば,米国の調査で採用試験に面接を実施している企業は全企業の99パーセントにのぼり,わが国の企業の実態とほとんど等しいとされており,就業希望者の数,面接回数,面接時間等を勘案すると企業が動員している面接者の延べ人数は国内全企業で年間約2000万人という試算を述べている。小山(2010)による日本国内大手企業への調査でも,面接が採用選考上重要な位置付けにあることが報告されている。面接は被面接者に関する情報を多面的に収集できる(上林・厨子・森田,2010)ため,選考過程における重要性が指摘されている(Guion,1992)。
面接の方式は,応募者1名に面接者1名(複数名)の個人面接と,応募者と面接者の両方が複数名のグループ面接(集団討論含む)があるとされるが,いずれの場合も面接者の主観的な判断に影響を受けてしまうため,面接のプロセスを定式化することが必要と指摘されている(上林ら,2010)。そこで構造化面接法という手法が提案されている。構造化面接法とは,面接における評定内容や質問を標準化し,面接者に予め付与する方法である(Latham, Saari, Pursell,Campion,1980;Janz,1982)。
面接者が評定している被面接者の特性は様々であり,一般知的能力(Huffcutt, Roth, McDaniel,1996)やBig5の誠実性(Conscientiousness)(Cortina,Goldstein, ayne, Davisonm,Gilliland,2000)などがある。Baron(1987)は,面接者の感情状態が評定値に与える影響を報告し,また面接者の評定に関する誤差を生み出す要因として性別や人種といった先天的な類似点に関する研究(Graves & Powell,1996;Prewett-Livingston,Field,Veres,Lewis,1996)や,態度(Howard & Ferris,1996),自分との類似性(Pothuma, Morgeson, Campion,2002;Garcia,Posthuma,Colella,2008;Chen,Lee,Yeh,2008)が指摘されている。
面接にはこのように様々な測定特性が存在することや,面接者による個人的な属性・嗜好などによる影響が生じることが示されている中で,面接者間の評定値の一致性を可能な限り担保すべく,評定内容や質問を予め標準化し,面接者の個人的な基準でなく,組織として求める基準を満たしているかについて測定可能な方法が求められ,その方法論が構造化面接法として提唱・実践されてきたとまとめられる。なお,面接者によって評定が異なることにより,多面的な人物評価に繋がるという指摘が想起されるかもしれないが,採用選考面接における最終的な測定値と解釈は,総合的な人間理解ではなく,採否という2値である。面接者によって評定値が全く異なる場合には,値が採否判定において意味を持たない。例えば,管理職級の面接者による評定で,入社後に際立った活躍を期待できるとされた学生について,取締役による評定では全く活躍しないとされることは例外的にはあり得ようが,平均的に生じてしまうと,どの面接者の評定を真値とすべきかという問題になる。仮に,取締役の評定を真値とする場合には,管理職による面接の意義が失われ,取締役が応募者全ての面接を実施しなければならなくなる。そこで,程度の議論は残るものの,複数の面接者によって合否の2値を判断する採用選考面接においては,面接者間の評定値の一致性は求められると解するのが適当であろう。
1.2 面接の信頼性複数の面接者の個人的な基準による評定のブレを検証する方法がある。信頼性研究においてそれは評価者間信頼性(inter-rater reliability)と規定される。採用選考面接における評価者間信頼性研究では,大きく2つの視点が存在する。1つは,面接の「総合評定値」に着目するもの,もう1つは総合評定値を細分化した「面接評定要素」に着目するものである。
まず,1つ目の総合評定値に着目した研究は,一次面接や二次面接などの各次における面接の総合評定値,または各面接者による同一被面接者(学生)に対する総合評定値を分析対象として,それら値間の関連を検討する方法である。この方法では,総括的に採用選考面接の評価者間信頼性を検証できる利点がある。
この総合評定値に着目した評価者間信頼性について,わが国の研究例は数少なく,二村(2003)が0.32~0.73を,鈴木(2013)が-0.09~0.46の評価者間信頼性を報告しているが,その値域について一定の解釈はいまだ得られておらず,実証分析例の蓄積がそもそもあまりなされていない,ほぼ手つかずの研究分野と言える。また,級内相関係数や順位相関係数といった単一の係数のみにより評価者間信頼性が研究されており,複数の係数によって分析がなされた研究例は国内外で報告されていない。わが国においては,総合評定値を用いた評価者間信頼性研究について,実企業事例を元に,複数の係数を用いた上で今後蓄積していく必要性が高い。
総合評定値を用いた分析は,企業における採用選考面接の総括的な検証が可能である一方で,結果を生み出した背景について,分析というよりも考察を行うに留まり,評価者間信頼性を改善するための方略を得るには限定的である。望ましくは総合的な評定を構成要素に分解し,各要素の評定における差異を分析することで,評価者間信頼性についてのより詳細な示唆を得ることができればよい。
そこで,もう1つの「面接評定要素」に着目した研究の必要性が高まる。構造化面接では,評定内容をいくつかの細分化された要素(面接評定要素)に分けて予め設定し,面接者に付与している。求める人材像の評定にあたって,ただ単に合致するか否かという単一の総合的尺度で測定するのでなく,例えば論理的思考力や志望動機の適切さ,その他様々な個別の性格特性などに分けて評定値を付す方法である。
企業がどのような個別具体的な評定要素に着目して採用選考試験を実施しているのかは,政策,企業実務,学生にとって大きな関心事である。厚生労働省の「就職基礎能力」などの政策や,経済産業省の「社会人基礎力に関する調査」(2005)において「採用基準が明確でない」と回答した学生が61%に対して,同様の回答をした企業は15%となり,大きな乖離が生じているという調査結果がある。また,行動特性を具体化し,面接に用いる「行動結果面接(Behavioral Event Interview)」といった理論と実務例(上林ら,2010)を併せて見るに,どのような個別の評定要素によって面接が構成されているのか,またその適切性はどの程度担保されているのか,といった事項については,研究上の関心として持つべき分野であろう。
しかしながら,面接評定要素別の評定値に着目した研究例は極めて少なく,特にわが国においては数例を除いて見当たらない。面接評定要素について,米国よりもわが国のほうが抽象的な項目を含むという指摘がある(水井,1997;二村,2005)が,抽象化に伴う面接者の主観的・恣意的判断を防ぐ意味で,要素の細分化とその適切性の検証は,わが国における課題として認識すべき事項である。
二村(2003),鈴木(2014a,2014b)は数少ない面接評定要素に着目した国内の研究例である。二村は構造化面接を行っている国内企業1社を対象に,面接評定要素別の評価者間信頼性につき,級内相関係数を用いて検証した。面接評定要素は,「自立的・自律的」,「知的香り」などの5つである。その結果,総合評定値による評価者間信頼性が0.44~0.73であったのに対して,面接評定要素別のそれは0.20~0.59と,相対的に低い値が示された。鈴木は,採用面接評定が順序尺度であることを踏まえて,構造化面接を行っている国内企業2社(甲社,乙社)を対象に,甲社では「仕事への姿勢」,「困難への対応力」,「職業人としての信頼性」など5つ,乙社では「対人関係構築」,「論理性」など5つを面接評定要素として,評価者間信頼性を順位相関係数(Spearman)で検証した。その結果,甲社では-0.18〜0.43,乙社では-0.07〜0.41の値が示された。総合評定値による分析と同様,面接評定要素別による分析においても一定の解釈はいまだ得られていない。面接評定要素別の評価者間信頼性分析は総合評定値の分析と並び,ほぼ手つかずの研究分野であると同時に,今後の研究上の重要性が高いと言える。
1.3 課題これまでの研究を踏まえると,以下の観点での検証が必要と考える。まず,個別企業の事例を蓄積した上で,メタ分析を行い,わが国の採用基準としての面接の有効性と課題について検討することが必要である。総合評定値よりも評定要素別の値に着目することは,面接の有効性と課題をより詳細に検討する上で重要であり,実企業内のデータを利用した面接評定要素別分析例の数多くの報告が望まれる。発展的な事項,例えば面接評定要素としてどのような要素を含めれば入職後の早期離職や業績と関連があるのか,または採用選考面接において面接評定要素につき,面接者の理解がどの程度で足りるのかなどといった事項については,面接評定要素について実在する企業例をデータとして用いた上で,面接者による評定のブレが生じていないか,すなわち評価者間信頼性が担保されているかどうかについての研究例の蓄積を待たなければ,定性的な議論に終始し,再現性を得ない。
面接評定要素は測定論としては尺度構成理論に関連するが,あるべき面接評定要素を検討する上で,複数の専門家が定性的に検討することで内容的妥当性(content validity)を得ることはできようが,基準関連妥当性(criterion-related validity)を得ることはできにくい。面接評定要素についての評定が面接者によってブレているかどうかを検証する(評価者間信頼性を検証する)ことを行わない,すなわち信頼性が不明なデータ(予測変数)については,基準関連妥当性という入職後業績評価などの他の変数(基準変数)との比較検証の前段階として,採用選考面接評定値の側に問題がある。このような場合に,基準関連妥当性研究を行っても意味がなく,まず信頼性研究が必要である。信頼性が低い場合,妥当性が得られることはない(村上,2006)。したがって,個別の実事例を通して信頼性(評価者間信頼性)についての実証分析例を一つひとつ蓄積し,課題を明らかにすることが必要である。
次に,これまでの国内外における採用選考面接の評価者間信頼性研究では級内相関係数,順位相関係数しか用いられていない。級内相関係数は分散分析で得られた分散成分を利用して計算するため,平均や分散が有効な情報となる比率尺度,間隔尺度のデータに適用される一方,順序尺度のデータに対しては理論的に不適切であるとの指摘がなされている(対馬,2002)。対馬は,正規分布に従う母集団からのデータで,かつ階級数が多い場合は順序尺度でも妥当な結果を得られるが,その階級数の大きさについては何も言えないとも指摘している。
構造化面接法が採用されていても,被面接者のある特性に対して,面接者評定が影響を受けることは十分に考え得る。例えば,面接者の評定は,一般知的能力が高い被面接者で高くなること(Huffcutt et al,1996)やBig5の誠実性(Conscientiousness)が高い被面接者で高くなること(Cortina et al,2000),そして外向性(Extraversion)や達成意欲(Need for Achievement)が高い被面接者の場合に高くなること(Posthuma et al, 2002)などが既に知られている。だとすると,このような特性を有する被面接者の場合に,複数の面接者の評定について偶然誤差(random error)のみならず,系統誤差(systematic bias)が発生する可能性が考えられる。もちろん,上記の外向性などに対する評定が,構造化面接法に示された評定基準と一致する場合,その評定の方向性は誤差ではないが,個社単位での構造化面接法に示された評定基準との一致性が低い場合には誤差として捉えられるかもしれない。具体的には,例えば,ある企業や職種では外向性を高く評価するかもしれないが,工場における生産管理者などでは,外向性よりもどちらかといえば緻密な作業の遂行に直接つながる性格特性を高く評価し,それは外向性とある程度独立した構成概念かもしれない。このように,採用選考面接においては系統誤差における固定誤差(fixed bias)が発生する可能性がある。系統誤差について,級内相関係数や相関係数は無力である(下井,2010)。
採用選考面接評定は,一般的に数段階程度の順序尺度である。これまでの研究においては順序尺度でも平均や分散の手法がしばしば用いられてきた。順序尺度を間隔尺度にみなして分析上の利便性を獲得したわけである。1:全く採用を検討できない~5:積極的に採用したいというような評定表は評定尺度法に基づく順序尺度である。この場合,例えば1(全く採用を検討できない)と2(あまり採用を検討できない)の間隔と,4(採用を検討してもよい)と5(積極的に採用したい)の間隔が等しいと仮定することは,田中・山際(1992)によれば理論的根拠が薄弱であり,ほとんど信念に近いと指摘されている。平均や分散はデータ間が等間隔であることから,その計算結果が適切と認められるもので,間隔尺度または比率尺度で用いられる計算法である。その等間隔性の概念に評定尺度法を含む順序尺度は整合しない。順序尺度は,大小関係を保証するものの,等間隔性については保証しない。また,順序尺度のデータに級内相関係数を適用すると,値の変化が大きく,データによって極端に判定されるリスクも対馬(2002)により指摘されている。採用選考面接の評定値に,級内相関係数を適用してよいと考えるかどうか,緻密な議論が求められる。
そして,被面接者の標本サイズをより大きく確保した上での分析が必要である。これまで述べたわが国の研究では,23~114名の大きさの標本が用いられてきた。例えば,相関係数については100名,できれば200名以上の標本サイズで分析することが提案されている(村上,2006)。
1.4 本研究の目的以上を纏めると,採用選考面接の信頼性を示す概念である評価者間信頼性について,面接の総合評定値を用いた分析は海外において蓄積され,概括的な現状把握と評価が可能である一方で,詳細な示唆が得られる面接評定要素別のデータを用いた分析は,特にわが国において非常に数少なく,分析例を蓄積する必要があること,その際にはこれまでの研究例のように単一係数のみによらず,複数の係数による結果を提示し,多面的な解釈を行う必要があること,また標本サイズをこれまでの研究例よりも大きく確保して分析を行う必要があること,といった課題がある。
そこで本研究では,わが国の実在する企業1社を題材に,新規学卒者の採用選考面接の面接評定要素別の評定データを得た上で,総合評定値によらず,面接評定要素別の評定値の評価者間信頼性につき,複数の信頼性係数により検証することを主たる目的とする。また,面接評定要素別の評価者間信頼性の高低を生み出す要因について,要素間の関係性に着目した分析を基に検討を行うことを従たる目的とする。
個人消費者向けのソフトウェア開発業を営む連結従業員2000名程度,単体従業員1000名程度の企業(以下,A社)からデータを取得する。
採用選考試験は書類選考,適性検査,一次面接,二次面接,最終面接の5段階の過程により実施される。職種別採用を行っており,大きくは事務系と技術系に分類され,事務系はさらに企画,法務などに,技術系はさらにプログラマー,デザイナーなどに細かく分かれている。一次面接は職種別の面接者が主に当該職種に求められる特定技能を評定する。二次面接は,企画系職種を希望する者だけに課され,グループディスカッションが行われる。最終面接は職種を問わず,同社に必要とされる人物像への合致度を評定する。一次面接及び二次面接と異なり,最終面接は面接基準が職種間で共通である。そのため,本研究では最終面接のデータを得た。
最終面接は,1「社会人の態度」,2「対人関係力」,3「性格の適合度」,4「誠実さ」,5「業績創出可能性」の5つの面接評定要素により評定される。各面接評定要素は0〜8の9段階により評定される。面接評定を順序尺度として捉え,面接者別・面接評定要素別に各評定値の度数を表1に示す。面接者による記載が不明瞭な箇所は除いて集計した。
2.2 評価者本研究で収集したデータは,2名の面接者のそれぞれの面接評定要素別の評定値である。面接者は面接者1に取締役が,面接者2に事業部長が任命されることが標準的である。面接者別の評定データを取得したところ,面接者1には9名の取締役a~iから1名任命され,中でも取締役aとbによる面接が多く,各71回と80回であった。取締役c~iは,それぞれ5回,5回,4回,4回,2回,3回,3回であった。面接者2には,10名の事業部長aa~ajから1名任命され,中でも事業部長aaとabによる面接が多く,各85回と70回であった。事業部長ac~ajは,それぞれ4回,4回,3回,3回,3回,2回,1回,2回であった。取締役a,b及び事業部長aa,abはA社の主要事業を担う部門の管掌取締役および事業部長であることから,面接担当回数が増えており,その他の取締役及び事業部長は管理部門管掌や,事業部門であっても規模が大きくないことや,新卒入社社員の配属が予定されていない部署であることから,面接担当回数が少ない。取締役a,bと事業部長aa,abの組み合わせは,a-aaが48回,a-abが23回,b-aaが32回,b-abが42回である。
面接評定値について総合評定値でなく,面接評定要素別のデータを取得し,且つ面接者の固有名詞別のデータも加えて取得し,採用選考面接の評価者間信頼性を複数の信頼性係数で分析を行った研究例は,筆者の調査した限り国内外で見られず,本研究で新たに分析を行うものである。
面接は採用選考試験不合格者や内定辞退者を含めて実施されている。本研究では合格者(入社者)のみのデータを取り扱ったため,範囲制限による選抜効果が分析結果に影響を与える可能性がある。すなわち,Gullickson & Hopkins(1976),Glass & Hopkins(1996),村上(2006)などが指摘するように,不合格者が存在するデータにおいて,合格者のみを取得した場合,分布が上位のみで切り取られてしまい,相関係数等が低い水準になる恐れがある。そのため,可能であれば不合格者等入社していない学生も含めたデータを取得することが望ましいが,不合格者はA社に雇用されている社員でなく,採用選考試験時のデータ取扱いに関する規定から,採否決定以外の目的に面接データを用いることができなかった。Gulliksen(1950)や池田(1973)で範囲制限の修正公式が用意されているが,不合格者データを取得できない場合,適用ができない。
但し,実際には,学歴やエントリーシートの内容,適性検査結果といった他の測定指標を勘案して,面接評定値が低い学生も入社している。また,面接で高い評定を得た学生が内定または次の面接の辞退をすることを見越して面接を通過させることがある。A社人事部によると,9段階評定の評定値6以上が合格基準であるが,表1に示す通り,面接評定値5以下の学生でも,上述の背景から面接以外の測定指標の成績と辞退者見込みによって,内定を得て入社している。評定値5以下の学生は,面接評定要素別に「社会人の態度」で346件中263件(面接者1及び2の合計。以下同様),「対人関係力」で247件,「性格の適合度」で235件,「誠実さ」で252件,「業績創出可能性」で234件である。そこで,本研究では不合格者のデータを取得できないという制約がありながらも,取得された合格者のデータが面接成績においては評定値6以上の学生のみに範囲制限されたデータでなく,評定値5以下の学生が全体の約72%存在することを踏まえて,分析を行う意義を捉え,評価者間信頼性分析を行うこととした。
不合格者を含めた範囲制限への対応については,採用選考面接前から被験者である学生に採否決定以外での目的におけるデータ活用に関する同意を得る必要があり,今後の研究課題として捉える。
評価者間信頼性は,信頼性の下位概念の一つである。採用選考面接の信頼性としてそれが用いられることの位置付けについて,他の下位概念との比較を通して予め整理する。
信頼性の下位概念には,以下3つがあるとされる(高橋,2010)。再検査信頼性(test retest reliability),内的一貫信頼性(internal consistency reliability),評価者間信頼性である。再検査信頼性は同一の学生につき,異なる時期に同一の面接者が評価した値が同じ値になることを指すが,採用選考において異なる時期に同一の面接者が評価することはほぼ無く,一次面接,二次面接,最終面接のそれぞれで面接者は異なるため,適用ができない。内的一貫信頼性は,同一の構成概念につき,複数項目で評定した値が一貫することを指す。質問紙法など多数の項目を質問する際に適用可能な概念であり,面接にはあまり馴染まない。評価者間信頼性は異なる面接者からの同一被評価者に対する評定値が同じ値になることを指す。採否を複数の面接者によって判定する採用選考面接において適用可能な下位概念である。採用選考面接の信頼性は,評価者間信頼性により一般的に検証され(Conway, Jako, Goodman,1995),国内研究例においては面接研究例自体が極めて少ないが,評価者間信頼性を基にした分析がなされている。
構造化面接法は上述の通り,面接者個々人の属性などによる面接評定のブレを防ぎ,組織が求める基準の評定を目指すものであるため,評価者間信頼性の検証が不可欠である。Conway et al(1995)は構造化面接に関する111の研究をまとめて分析し,非構造化面接における評価者間信頼性を0.69,基本的な質問が構造化された面接におけるそれを0.75と報告した。構造化面接の167の研究を総括したMcDaniel, Whetzel, Schmidt, Maurer(1994)は,0.68(非構造化面接)及び0.84(構造化面接)の評価者間信頼性を報告し,構造化面接の効果を確認した。Latham et al(1980)も過去の研究を総括して構造化面接で高い評価者間信頼性(0.81~0.96)が得られることを報告している。わが国の企業における構造化面接に関する研究は二村(2003)など数少ないが,非構造化面接に比して構造化によって評価者間信頼性が向上することがわずかながら報告されている。
3.2 信頼性係数本研究では,採用選考面接評定値を順序尺度として捉える。順位相関係数(Spearman),κ係数,W係数の3つの係数により,評価者間信頼性を分析する。
順位相関係数については,順序尺度に適している。しかし,データの大小関係によって係数値が左右されてしまい,データ自体の一致性を検証できないことから,絶対的な指標としての意義への懸念がRankin & Stokes(1998)により指摘されている。評価者間の評定値の一致性を示す係数としてはCohenの一致係数(Cohen’s coefficient of agreement : Cohenのκ係数。以下,κ係数),Kendallの一致係数(Kendall’s coefficient of concordance : KendallのW係数。以下,W係数)が用意されており,いずれも順序尺度に適用可能な係数である。これらは採用選考面接のn段階評定などの順序尺度に適用可能である。このような係数群の中から適切な係数を検討し,それぞれの長所と短所を踏まえながら,単一の係数に拠らない多面的な判断を行うことが,わが国における評価者間信頼性研究を蓄積する際に必要となろう。複数の信頼性係数により,採用選考面接の評価者間信頼性を分析した研究例は国内外で見られない。
順位相関係数は,一般的な基準を用いて,0~0.20:ほぼ相関無し,0.21~0.40:弱い相関あり,0.41~0.70:中程度の相関あり,0.71~強い相関ありと解釈する。
κ係数は,2名の評価者が,2名以上の被評価者の測定を行ったとき,その評価の一致率を表す係数であり(Altman,1999),評価者間信頼性の係数として用いることができる。実際に観察された見かけ上の一致率(observed degree of agreement)から理論的な偶然の一致率を引いて,偶然によらない一致率を算出する。なお,κ係数は不一致の人数・度数には反応するが,その不一致の人数内に存在する不一致の程度については反応しない。例えば,2名の評価者甲と乙が2名の被評価者AとBを評価した結果,Aに対する評定値が一致し,Bに対する評定値が一致しないという例を考える。甲がBに対して5と評定して乙が4と評定した場合と,甲がBに5と評定して乙が1と評定した場合と,不一致の程度は異なるが,不一致が生じている被評価者数という点では同一である。この場合,κ係数は同一になってしまうという欠点がある。
κ係数には重み付きκ係数(Weighted kappa)も用意されている。重み付けの方法にはいくつかあるが,一般的な重み付けの方法である二次の重み付きκ係数(乖離度の二乗に比例する重みを用いたκ係数)を本研究では算出する。重みのないκ係数はそれと区別する意味でUnweighted κと,重み付きκ係数はWeighted κと呼称する。偶然のみの一致だと0,完全な一致だと1をκ係数は示す。κ係数の目安として0.40未満はpoor agreement(低い一致),0.40~0.75はfair to good(かなりの一致),0.75超はstrong agreement(高い一致)とされている(Kline,2005。括弧内和訳は筆者記載)が,より細分化すると,下井(2010)により,0~0.40を低い一致,0.41~0.60 を中程度の一致,0.61~0.80をかなりの一致,0.81~を高い一致としていることから,今回は同解釈を用いることとする。
W係数は,2名以上の評価者が2名以上の被評価者の測定を行ったときの評価の一致率を示す係数であり,評価者間信頼性の係数として用いることができる。W係数は,κ係数と異なり,不一致の程度についても値に反映することができる。W係数は,評価段階が連続的に順序だっているときには不一致の程度に反応するが,著しく飛び離れた評定値がある場合にはそれが無視されるという欠点がある。但し,採用選考面接の9段階の評定段階内に値が収束する場合には問題にならないであろう。W係数はSchmidt(1997)によれば(括弧内和訳は筆者記載),0~0.1:Very weak agreement(非常に弱い一致),0.1~0.3:Weak agreement(弱い一致),0.3~0.5:Moderate agreement(中程度の一致),0.5~0.7:Strong agreement(強い一致),0.7~0.9:Unusually strong agreement(非常に強い一致)と解釈がなされており,本研究では同解釈を用いる。
3.3 尺度の独立性「総合評定値」による評価者間信頼性研究と異なり,「面接評定要素」別の評定値の場合は,複数の尺度で分析がなされるため,尺度間の関係性の検証を通して評価者間信頼性の高低の要因を探ることが可能である。本研究は面接評定要素を用いた評価者間信頼性を検証することが主たる目的ではあるが,当信頼性の高低を生み出す要因について検討するべく,尺度間の独立性に着目した分析もあわせて行う。
採用選考の面接評定要素の内容について,これまでの研究例を見ると,「知的香り」,「仕事への姿勢」,「困難への対応力」,「職業人としての信頼性」などが挙げられている。既知の概念と比して例えば,「知的香り」とは一般知的能力を指すのか,あるいはそれとは異なった概念を指すのかわかりづらく,また香りという表現は測定に適しているとは考えにくい。また,「困難へ対応」することは「仕事への姿勢」という広範囲な概念を示す尺度の一部であるとも捉えられるし,「仕事への姿勢」や「困難への対応力」は,さらに広範囲な概念を示す「職業人としての信頼性」の構成要素の一部であるとも考えられる。面接評定要素の内容は,構造化面接法に基づいて設計された面接シートに記載があるが,それらを見てもなお各面接評定要素の指す内容や,要素間の関係性について理解が難しい例が散見される。そこで,面接評定要素の内容と独立性について分析を行い,具体的には順位相関係数(Spearman),κ係数,W係数による係数の行列を作成し,要素間の概念の関係性を検討する。
3.4 多特性多評価者行列(MTMR)面接者について主な面接者となるa,b,aa,abの4名に着目して,面接者別に各面接評定要素で,他の面接者とどの程度の評定値の一致が見られるかについて分析を行う。
評価者と評定要素の両方が複数存在することから,多特性多評価者行列(multitrait -multirater matrix; MTMR:Conway,1996)を構築する。MTMRは構成概念妥当性,より具体的には収束的妥当性及び弁別的妥当性の検証に用いられる。すなわち,Ⅰ)同一の面接者が下した同一項目の評価結果が相関していること,Ⅱ)異なる面接者が下した同一領域の項目の評価結果が相関していること,Ⅲ)同一の面接者が下した異なる項目の評価結果が相関していないこと,Ⅳ)異なる面接者が下した異なる項目の評価結果が相関していないことの検証に適しており(金井・高橋,2004),本研究の主たる目的とする面接評定要素別の評価者間信頼性のみならず,従たる目的とする要素間の独立性の分析にも資する。なお,Ⅰ)及びⅡ)は収束的妥当性と呼ばれ,評価者が誰であっても同じものを評価していれば評価結果も合う(収束する)ことを意味し,一方でⅢ)及びⅣ)は弁別的妥当性と呼ばれ,評価者の立場の違いや評価の癖の影響がなく,評価者が誰であっても違うものを評価していれば当然評価結果も一致しない(違いを弁別できる)ことを意味している。
MTMRの分析の手続きは高橋(2010)に則った上で,採用選考面接への適用を検討する。上述のⅠ)は同一評価者内対角行列(単一特性単一評価者行列:monotrait – monorater matrices)により検証されるが,本研究の面接評定要素は5個のみであり,同一構成概念に複数の測定項目が存在する(例えば,「社会人の態度」内に複数個の測定値が存在する)わけでないため,検討対象外とし,Ⅱ)以降を検討する。上述のⅡ)は異評価者間対角行列(単一特性異評価者行列:monotrait - heterorater matrices)に示される相関係数等により検証され,異なる面接者間での同一面接評定要素に対する評定値の一致性を分析することで,収束的妥当性と同時に面接者別に着目した評価者間信頼性を検証する。異なる面接者に着目して,上述のⅣ)について,異評価者間非対角行列(異特性異評価者行列:heterotrait - heterorater matrices)により検証される相関係数等が,Ⅱ)の相関係数等よりも小さければ,異なる面接者間で同一の面接評定要素に対する評定値同士が,異なる面接評定要素に対するそれよりも高く関連していると捉えられ,収束的妥当性が担保されているという解釈になる。また,上述のⅢ)は同一評価者内非対角行列(異特性単一評価者行列:heterotrait - monorater matrices)に示される相関係数等により検証される。相関係数等の値の高低によって,弁別的妥当性を検証し,面接者が面接評定要素別に学生を評価できているのか,または全体的な印象評価(ハロー評価)に基づいているのかを検討する。
本研究においてMTMRは,主な面接者4名別の各面接評定要素の評定値から成る行列とする。
3.5 研究目的との関連本研究の主たる目的は,上述の通り,総合評定値によらない面接評定要素別の評価者間信頼性の検証を複数の信頼性係数により行うことにある。本目的に対応する分析方法は,3.2節によるものである。3.2節では,面接者1と面接者2のそれぞれの評定値を「取締役による評定傾向」と「事業部長による評定傾向」として捉え,両者の評定値の一致すなわち評価者間信頼性を面接評定要素別に検証し,以下4.1節の結果としてまとめる。
本研究の従たる目的は,上述の通り,面接評定要素別の評価者間信頼性の高低を生み出す要因について,要素間の関係性に着目した分析を基に検討を行うことにある。本目的に対応する分析方法は2つある。1つは,3.3節によるものであり,3.2節と同様に面接者1と面接者2のそれぞれの評定値を「取締役による評定傾向」と「事業部長による評定傾向」として捉えて分析を行う。それにより,尺度の独立性を検証し,ハロー効果が生じていないか,すなわち面接評定要素が存在することによる効用が享受されているのかを検証し,以下4.2節の結果としてまとめる。
もう1つは3.4節によるものである。3.2節及び3.3節による方法で,異なる面接者間の面接評定要素別の評価者間信頼性を概括的に把握できる利点があるが,評価者の要因考慮が厳密になされていないという課題がある。そこで,主な面接者についての固有名詞のデータを活用して,各面接者の要因も考慮した評価者間信頼性の検証と,面接評定要素間の独立性の分析を行い,以下4.3節の結果としてまとめる。
なお,わが国における数少ない先行研究は,企業における採用選考面接の実態を調査するために,実際の採用選考面接評定値を用いている。評価者間信頼性を検証するための調査デザインを行わず,企業内データを取得することで,実態を明らかにしようとするものであり,本研究でも同様の立場から実証例を蓄積すべく,研究用に改めて調査・収集したデータでなく,A社の実際の面接データを用いる。
面接評定要素別の面接者1及び面接者2の間の評価者間信頼性について,順位相関係数,Unweighted κ,Weighted κ,W係数を算出した結果を表2に示す。
面接評定要素1「社会人の態度」について,順位相関係数によると0.25(p < 0.001)と弱い相関が示された。Unweighted κ及びWeighted κ は0.14(p < 0.01),0.26(p < 0.001)と低い一致が示された。W係数は0.63(p < 0.05)と強い一致が示された。係数の差異によって,評価者間信頼性の解釈が異なることがわかる。面接評定要素2「対人関係力」は,Unweighted κが非有意な値を示し,それ以外の係数は有意な値を示すという係数による差異が見られた。面接評定要素3「性格の適合度」は,5つの面接評定要素のうち,全ての係数で最も高い値が得られた。順位相関係数は0.41(p < 0.001),Unweighted κ0.19(p < 0.001),Weighted κ0.43(p < 0.001),W係数0.71(p < 0.001)を示した。面接評定要素4「誠実さ」は全ての係数で有意な値を示したが,その水準は高いものではない。面接評定要素5「業績創出可能性」は,他の面接評定要素と異なり,全ての係数で非有意だった。入職後の業績創出は,採用選考面接で最も着目すべき要素であると考えられるが,その予測を行う位置づけたる面接評定要素においては,面接者によって評定の一致性が全く無いことがわかった。
最終面接は上述の通り,職種別の選考ではないが,事務系と技術系で評定の視点が異なっている可能性を考慮し,表2における分析をそれら職種別に行った結果を表3に示す。
事務系と技術系の間での差異について着目することとする。面接評定要素1「社会人の態度」において,事務系では全ての係数が有意傾向または非有意だったが,技術系では全ての係数が有意な値を示した。2「対人関係力」において,事務系では全ての係数が非有意であったが,技術系ではUnweighted κを除き有意な値を示した。3「性格の適合度」においては,事務系と技術系で類似した傾向を示した。4「誠実さ」では,面接評定要素1及び2とは逆に,事務系において全ての係数が有意または有意傾向であったのに対して,技術系では有意がWeighted κ,有意傾向が順位相関係数及びW係数,Unweighted κは非有意であった。5「業績創出可能性」は,事務系ではほぼ非有意なのに対して,技術系ではUnweighted κを除いて有意な係数が得られた。
事務系と技術系という職種によって,評価者間信頼性が異なることがわかる。中でも,「対人関係力」,「業績創出可能性」の2つの面接評定要素については,事務系では評価者間信頼性がほぼ見られないのに対して,技術系では評価者間信頼性を認めることができ,総合評定値による分析に比した面接評定要素別の分析による意義があることがわかる。なお,「業績創出可能性」について,事務系では唯一有意傾向を示した係数Weighted κを見ると,-0.20(p < 0.10)を示しており,面接者が互いに逆の傾向を持って評定値を付していることがわかり,信頼性が著しく不足していると捉えられる。
面接者間及び面接評定要素間の相関(順位相関)行列を表4に示す。表4から表6までの行は面接者1を,列は面接者2を示す。全職種を対象にした表において,面接評定要素1「社会人の態度」につき,面接者間の順位相関係数は0.25であり,同一要素間の値であることから,本要素と他要素との間の値よりも高い一致性を本来期待するところであるが,「社会人の態度」と「対人関係力」の順位相関係数はそれを上回る0.30であった。「社会人の態度」と他要素の順位相関係数は,0.08~0.38を示した。面接評定要素2「対人関係力」につき,同一要素間の順位相関係数が0.23に対して,他要素とのそれは0.12~0.30を示した。面接評定要素3「性格の適合度」については,同一要素間の順位相関係数が0.41と,他要素との間のそれよりも高い値が示された。面接評定要素4「誠実さ」は,同一要素間で0.23の順位相関係数を示したが,他要素(「社会人の態度」)との間で0.25を示した。面接評定要素5「業績創出可能性」は同一要素間で0.04(非有意)であったが,「社会人の態度」,「対人関係力」,「性格の適合度」との各対で0.16~0.38(有意)を示した。
「性格の適合度」を除いて,他の4つの面接評定要素については,同一要素間よりも他要素との対のほうが高い順位相関係数が示され,それぞれの要素が独立していないことがわかる。この傾向は,事務系及び技術系のそれぞれに限定した場合も概ね変わらないことが同表からわかる。例えば,事務系において「対人関係力」は同一要素間の順位相関係数が非有意(0.14)であるのに対し,「社会人の態度」との対で0.25(p < 0.05)を示しており,また「業績創出可能性」も同様に同一要素間では非有意(-0.18)であるのに対し,「社会人の態度」との対で0.23(p < 0.05)を示している。
表5に,Unweighted κ係数を用いた場合の,面接者間及び面接評定要素間の係数行列を示す。なお,Weighted κ係数は一致性の判断が前記の通り緩和されているため,ここではUnweighted κの表で検討する。全職種を対象にした表において,概ね表4と類似した傾向が読み取れる。例えば,「対人関係力」は同一要素間で非有意(0.08)であるのに対し,「社会人の態度」との対では有意なκ係数(0.17,p < 0.01)を示した。「性格の適合度」について,同一要素間が最も高い値を示した表4と異なり,「業績創出可能性」との対が0.21(p < 0.001)と最も高い値を示した。また,事務系採用と技術系採用のそれぞれに限定した場合も,概ね傾向は変わらない。
表6に,W係数を用いた場合の面接者間及び面接評定要素間の係数行列を示す。傾向は表4及び表5と概ね変わらないことがわかる。以上から,面接評定要素の独立性が十分担保されていないことがわかった。
取締役aとb,事業部長aaとabの4名の面接者と,5個の面接評定要素を対象としたMTMRにつき,順位相関係数,Unweighted κ,W係数を算出した結果を表7に示す。面接者によって標本を分けることから,標本サイズを考慮して,事務系と技術系に分けずに全学生を対象にMTMRを作成した。
まず,異特性単一評価者行列について着目し,面接者a内の異なる面接評定要素間の順位相関係数の平均を表7から算出すると0.45であり,面接者b,aa,abでそれぞれ0.30,0.40,0.40であった。Unweighted κの同平均は,面接者ごとにa0.29,b0.18,aa0.29,ab0.19であり,W係数の同平均はa0.73,b0.65,aa0.70,ab0.70を示した。全ての係数で計40対のうち,2対を除いた38対が有意または有意傾向を示した。異なる領域の評価は,違っていて当然であるが,相互に相違するというよりは関連し合っていることがわかる。係数による値の高低はあるが,同一の面接者が評価した結果に関して,面接評定要素の弁別的妥当性について疑問が持たれる。すなわち,各面接者は,被面接者について,面接評定要素別というよりも,全体的な印象による評価(ハロー効果による評価)を行っていると捉えられる。4.2節における分析結果と同様の傾向が得られた。
次に,異評価者間相関行列に着目し,単一特性異評価者行列を分析する。順位相関係数,Unweighted κ,W係数の順に平均を表7より算出すると,面接a-aaの対で0.32,0.16,0.66,a-abの対で-0.06,0.10,0.47,b-aaの対で0.22,0.07,0.64,b-abの対で0.20,0.09,0.60であり,それら全ての平均は順位相関係数0.17,Unweighted κ0.11,W係数0.59であった。単一特性異評価者行列では,同一の面接評定要素について異なる面接者の評定値が一致する(収束する)程度を見るが,順位相関係数ではほぼ相関なし,Unweighted κは低い一致,W係数は強い一致を示した。単一特性異評価者行列と異特性単一評価者行列を比較すると,順位相関係数では単一特性異評価者行列で0.17と異特性単一評価者行列で0.39(4名の面接者の係数の平均。以下同様),Unweighted κでは0.11(単一特性異評価者行列)と0.24(異特性単一評価者行列),W係数では0.59(単一特性異評価者行列)と0.69(異特性単一評価者行列)と,いずれも同一の面接評定要素に対する異なる面接者による評定値の一致性よりも,異なる面接評定要素に対する同一の面接者による評定値の一致性のほうが高いことがわかる。測定される構成概念は同一の面接評定要素であれば同一であることから,単一特性については異評価者であってもある程度の係数の高さが得られるはずであり,それは異なる特性を同一評価者が評価した場合,すなわち測定される構成概念が異なる場合よりも高くなるはずである。しかし,それとは逆の傾向が示された。評定が同一面接評定要素内で十分に収束していないこと,つまり収束的妥当性が確保されていないことがわかる。
異特性異評価者行列について順位相関係数,Unweighted κ,W係数の順に平均を表7より算出すると,面接a-aaの対で0.26,0.12,0.63,a-abの対で0.10,0.05,0.55,b-aaの対で0.16,0.05,0.58,b-abの対で0.14,0.03,0.54であり,それら全ての平均は順位相関係数0.16,Unweighted κ0.06,W係数0.57であった。単一特性異評価者行列に比して,異特性異評価者行列については,測定される構成概念が異なるため低い値が得られるはずであるが,順位相関係数では0.17(単一特性異評価者行列)と0.16(異特性異評価者行列),Unweighted κでは0.11(単一特性異評価者行列)と0.06(異特性異評価者行列),W係数では0.59(単一特性異評価者行列)と0.57(異特性異評価者行列)とほぼ変わらなかった。評定が同一面接評定要素内で十分に収束しておらず,収束的妥当性が不足していると同時に,異なる面接評定要素間で測定対象となる構成概念が独立しておらず,弁別的妥当性も不足していると言える。
評価者別に表7を見ると,全体の傾向と離れた特異な値はなく,評価者の要因によらず,上述の傾向が得られたと解釈することができる。
面接評定要素によっては,「業績創出可能性」のように,異なる面接者間での評定値の一致性が全く見られないものがあった。採用選考面接の評価者間信頼性が担保されない原因について,面接評定要素別に傾向の差異が生じることがわかり,要素別に分解することの意義が本研究により示された。この「業績創出可能性」は概念として広範囲なものに見え,その広範囲性すなわち解釈の多義性が面接者の評定を迷わせた可能性がある。
「性格の適合度」という面接評定要素も概念の広範囲性が認められるが,面接時点でのA社に対する適合度を測定する「性格の適合度」に比して,入職してある程度の時間を経過してはじめて業績創出有無の検証がなされる「業績創出可能性」は面接者によって大きく評定値に差異が生じている。面接者の評定値の差異を生む要因として概念の広範囲性(解釈の多義性)というより,測定時と検証時との時間的差異が存在する可能性が示された。つまり,現在の適合度を測定するよりも,将来を予測するほうが難しいということを意味しているものと捉えられる。
また,係数によって評価者間信頼性の解釈が異なることもわかった。例えば,順位相関係数ではほぼ相関無しまたは弱い相関を示し,κ係数では低い一致を示し,W係数で強い一致を示すという結果がしばしば見られた。採用選考面接の評価者間信頼性研究において,単一係数のみによる検証では不十分であることが示された。
そして,海外の構造化面接法についての評価者間信頼性に比べると,本研究で示した値は相対的に低く,また負の係数も得られ,A社の評価者間信頼性には大きな課題があると考えられよう。
なお,本研究データは最終面接の合格者のみを含み,不合格者のそれは含んでいない。2.3節に記載の通り,不合格者の個人別データを取得することはできなかったが,A社人事部門への聞き取り調査によれば,最終面接の不合格者であっても面接評定要素別の面接評定値で著しく低い者(評定値0,1,2に属する者)はほぼ存在しないということであった。これは,2.1節で記述した採用選考試験過程のうち,書類選考と適性検査によって明らかに自社に合致しないと思われる学生を面接対象外にしていること,また本研究で取り扱った最終面接の前工程として一次面接及び二次面接によって選抜がなされていることが背景にある。
評価者間信頼性について最終面接を対象とせず,一次面接など初次過程の面接を対象とした場合,初次過程では合格者と不合格者の評定差が相対的に大きくなる可能性があることから,本研究とは異なる結果になるかもしれない。本章内の以下各節における考察でも同様の可能性が挙げられ,本研究の解釈において留意点となる。
5.2 面接評定要素間の関係性表4~表7に示した面接評定要素間の関係性を示す係数の行列から,評定値としての独立性が各要素で十分担保されていないことがわかった。
採用選考面接の面接者は,構造化面接法に基づいて各要素の内容とそれに応じた質問内容が予め付与されているが,実際は各要素の内容に基づいた評定を行っているというよりも,それとはほぼ無関係に評定を行っている可能性が示された。例えば,人物の総合的な印象を基に評定値を決め,その後に辻褄を合わせる程度に面接シートにおける要素別の評定結果記入欄に評定値を記入しているなどの可能性が想起できる。総合評定値を用いた評価者間信頼性研究はわが国においてそもそも少ないが,そこにおいて十分な信頼性が得られない場合の原因の1つに,面接評定要素が独立しておらず,要素別の測定がなされていないことがある,というのが本研究における成果の一つである。構造化面接法について,総合評定値によらず面接評定要素別の分析によって,評価者間信頼性の課題が一段深いレベルで明らかになったと考える。
5.3 評価者要因評価者の別によらず,全体の傾向と同様の結果が表7により得られた。特定の評価者に限定した個人的な嗜好や判断の癖による面接評定というよりも,多くの評価者がそれぞれの嗜好や判断の癖で面接評定を付していることが示唆される。
但し,2.2節で記述した通り,面接者の多くを取締役a,b,事業部長aa,abが占めている点には留意が必要である。面接者は全部で取締役9名,事業部長10名であるが,計19名の面接者のうち,それら4名の面接者の傾向が表2から表6に主に示され,また表7のMTMRに関しては4名に限定した結果である。個人的嗜好などによる評定を原因とした評価者間信頼性の低さは,A社全体というよりもこれら4名に内在する問題としても捉えられるため,評価者の要因に必ずしも拠らないと断言することは本研究では難しい。面接者間の信頼性を論じる上では,より多数に評価役割が分散した中で検証を行う必要がある。
5.4 採用面接及び労務管理の課題と今後の方向性本研究の結果を踏まえると,求める人材像とは何かという課題に直面する。企業が採用選考面接を行うにあたっては,求める人材像を要素還元して面接評定要素として定義する。この面接評定要素は,労務管理における人事考課,特に行動評価と密接な関連があり,行動評価が社員に対して求める行動を規定するのに対して,採用選考試験時の面接評定要素はその学生版と言うこともできる。未入職段階でありながらも,入職後に企業が求める行動すなわち行動評価に規定された行動を発揮できるかどうかの可能性を測定する場として,採用選考面接を位置付けることができる。しかし,面接では取締役と事業部長といった企業の中核を担う人物からの評定値に一致性が見られず,また面接評定要素の弁別的妥当性や収束的妥当性も見られない結果が示されたことから,面接の場に限らず,社内人事評価においても,企業として求める人材像の理解や浸透,またはそもそも構成概念の抽出が十分になされていない可能性が示唆される。
本研究で取り扱った企業は一社のみであり,汎用的な議論を行うことはできないが,二村(2003)の面接評定要素別の評価者間信頼性0.20~0.59や鈴木(2014a,2014b)のそれにおける-0.18〜0.43を踏まえると,面接評定要素別の評価者間信頼性の不足は,ある程度わが国の採用選考面接に蔓延している課題であると予想できなくもない。それは人事行動評価の課題としても捉えられる。
これらの労務管理及び採用選考面接における課題を想起すると,根幹は求める人材像の不確かさにあると考える。金井・高橋(2004)や,高橋(2010)が指摘するように,わが国の行動評価基準については他社の事例集を参考に作成するのみであり,次元の適切性などが定量的に検証されたものではない。すなわち,行動評価の項目について,あるべき人材像についての定性的な議論はなされるが,それを定量的に裏付ける作業を日本企業はほぼ行っていないということである。これは採用選考面接の面接評定要素についても同様と言えよう。したがって,上述した先行研究に加えて,本研究の発見に基づき,採用選考基準の検討以前に,社内の人事行動評価基準の定量的検証を行うべきであろう。評価者間信頼性や弁別的・収束的妥当性を確保し,その上で学生版として採用選考の面接評定要素を構成して,さらにパイロット検証によって評価者間信頼性等を担保するという過程をわが国の人事部門は,新規学卒者採用選考試験の準備として整えるべきと考える。
わが国の実在するソフトウェア開発企業A社を対象に,新規学卒者の採用選考面接の面接評定要素別の評価者間信頼性を順位相関係数,Unweighted κ,Weighted κ,W係数により検証した。その結果,高い評価者間信頼性は得られなかった。また,面接評定要素によって結果に差異が生じ,総合評定値のみによらない分析の意義を示した。そして,信頼性係数による解釈の差異が生じることも示し,単一係数のみによらない分析の必要性も示した。
面接評定要素別の評価者間信頼性が十分でないことから,その要因について要素間の関係性の観点から検証した。その結果,各要素の独立性が担保されておらず,概念が重複した上で測定がなされている課題を示した。面接者が各要素を独立した内容として捉え,また要素間の関係性を考慮して被面接者への評定を付しているのではなく,面接者個々人による全体的な印象評価を下している可能性を示唆した。
他業界や他の内容の面接評定要素を用いた分析の蓄積,不合格者も含めた分析と選抜効果への配慮,より多数の面接者間の傾向把握,メタ分析は今後の課題である。
(筆者=wealth share株式会社 代表取締役)