少人数の異なる領域の専門家による企業の人的資源管理評価の一貫性と関連指標

高原 龍二

doi:10.14966/jssp.2023-007

抄録

In this study, using data from evaluations of 20 companies by seven raters in a corporate award on the theme of human resource management, I examined the consistency of company evaluations by a small number of experts in different fields and the criterion-related validity of the mean evaluations per company. The evaluation was conducted in the order of documents and interviews, and each was rated on five items. The intraclass correlations showed that the evaluations of “philosophy,” “innovation,” “leadership,” and “motivation” were consistent across raters and that the interview evaluations were more consistent than the document evaluations. Regarding “personnel” evaluations, significant consistency was found only for document evaluations. The correlations between the mean evaluations and indices of application documents showed that companies with more text in their application documents tended to be evaluated more highly. It was confirmed that the few experts’ evaluations of the companies had a moderate degree of consistency and validity; however, it was also suggested that some combinations of evaluation items and evaluation materials may not have resulted in appropriate evaluations.

問題

本稿は、実際の企業表彰の評価データを用いて、いわゆる「識者」と呼ばれる専門家らによる企業評価について検討したものである。第一に、少人数の異なる領域の専門家による企業評価の一貫性を、第二に、企業評価に関連する客観的指標は何かを検討した。

優良な企業を評価し、その優良性を生み出している経営手法を特定し、他の企業の役に立てようという取り組みは、多くの企業表彰やビジネス書などで展開されている。こうした取り組みにおける評価は多くの場合、研究者、コンサルタント、企業経営者など複数の専門家によって行われ、それによって権威づけられる。こうした企業評価の代表的なものとされるFortuneの“World’s Most Admired Companies”では、経営者、役員、アナリストなど3,700人（第25回）が投票を行っている（Fortune, 2023）。一方で、より小人数の専門家による企業評価も行われている。国内の公的な表彰制度の例を挙げると、経済産業省の製品安全対策優良企業表彰（令和4年度）では研究者、コンサルタント、報道機関職員など14名が審査委員会を構成している（経済産業省，2023）。厚生労働省のグッドキャリア企業アワード2022では研究者と厚生労働省職員で構成された6名の委員が審査を行っている（厚生労働省，2023）。こうした評価の妥当性や信頼性に関する研究領域としてコーポレート・レピュテーション研究を挙げることができる。コーポレート・レピュテーションの定義はFombrun （1996）による「他の有力な競争相手と比較して、主要な構成員のすべてに対する企業の総合的な魅力を表す、会社の過去の行為と将来の期待の知覚的な表象」が広く知られているが、他にもさまざまな定義がある。文献レビューよりその特性を5つに整理したWalker （2010）によれば、（1）知覚に基づいた構成概念であり、（2）すべてのステークホルダーの知覚の集計であり、（3）本質的に相対的なものであり、（4）ポジティブにもネガティブにもなり得るものであり、（5）安定して長続きするものである。これらに基づけば、外部の専門家による企業評価はすべてのステークホルダーを代表しているとはいえないため厳密にはコーポレート・レピュテーションとはいえないが、その構成要素の一部であると考えられる。そこで、コーポレート・レピュテーション研究を中心に企業評価の妥当性や信頼性に関する知見を整理する。

妥当性に関しては、コーポレート・レピュテーションと財務状況や企業特性などに関する客観的指標や将来の成長性などとの関連から基準関連妥当性が検討されている。しかし、先述のFortuneによる評価を中心に、コーポレート・レピュテーションが高い企業の収益性が長期的には維持されないことが多くの研究から指摘されている（Anginer et al., 2007; Anginer & Statman, 2010; Kahneman, 2011 村井訳 2014; Rosenzweig, 2007 桃井訳 2008）。このことは財務パフォーマンスによるハロー効果によって生じていると解釈される。すなわち、財務状況が良い企業は将来的な収益性に関わる他の側面も高く評価されてしまうため、コーポレート・レピュテーションが将来的な収益性を十分に説明できないと考えられている。一方で、コーポレート・レピュテーションから財務パフォーマンスのハロー効果を除去したスコアが企業の社会的責任に関する客観的尺度と関連することが明らかにされている。例えば、Fortuneのコーポレート・レピュテーションにおけるハローを除去した「地域社会と環境への責任」は、Kinder, Lydenberg, Domini & Co., Inc.のsocial screenデータベースの29項目から構成された「地域社会と環境」と.34の相関を示したことが報告されている（Brown & Perry, 1994）。また、メタアナリシスより、財務パフォーマンス以外にも企業年齢や社会的業績などコーポレート・レピュテーションの先行要因となる指標があることが明らかにされている（Ali et al., 2015）。以上のように、企業に対する評価はハロー効果を含みつつもそれのみで構成されるものではなく、一定の基準関連妥当性を持っていると考えることができる。しかし、コーポレート・レピュテーションと先行要因との関係は国、ステークホルダー、尺度によって異なることも示されている。例えば、経営トップとアナリストによるコーポレート・レピュテーションは、それ以外のステークホルダーのものと比較して企業規模や社会的業績との相関が高いことが報告されている（Ali et al., 2015）。専門家による航空企業の戦略評定を用いた研究においても研究者、証券アナリスト、コンサルタント、業界関係者（industry stakeholder）それぞれのグループの評定と企業内部者の評定の相関は評定項目によっては有意な差が見られている。例えば、新サービス導入や増便などの戦略の実行にあたっての外部機関からの支援の程度、必要な部門間調整の程度などの評定で、証券アナリストと内部者の相関が最も高いと報告されている（Chen et al., 1993）。

次に、信頼性に関しては一貫性を表す評価者間信頼性に関する研究が見受けられる。先述の航空企業の戦略評定を用いた研究からは、それぞれの専門家グループ内において高い評価者間信頼性が示されている（Chen et al., 1993）。大学教員86名が2週間の間隔を空けて会社の優良性についての3項目に回答したデータを用いた一般化可能性理論に基づく推定からは、コーポレート・レピュテーションは会社による分散が大きく評価者による分散が小さいことが明らかとなっており、評価者を5人にした場合でも十分な評価者間信頼性が得られることが示されている（Highhouse et al., 2009）。以上の研究から、一定の等質性を持つ集団による企業の評価には一貫性があることが推察される。

本研究では以上の先行研究を踏まえて、少人数の異なる領域の専門家による評価の一貫性を検討し、一貫性がある場合はその評価と関連する指標を明らかにすることを試みた。検討には、動機づけやリーダーシップなどの人的資源管理に関する側面を評価項目とする企業表彰のデータを用いた。このような検討による意義は以下のような点にあると考えられる。まず、企業評価の評価項目は財務、戦略、製品やサービス、社会的責任、人材など多岐にわたるが（Chun, 2005）、人的資源管理に関連する項目は多く見られない。既存のコーポレート・レピュテーション調査に基づいて開発されたReputation Quotient（Fombrun et al., 2000）も、“Vision and Leadership”や“Workplace Environment”の尺度を持つが、動機づけや人事施策に関する項目は含まれていない。コーポレート・レピュテーションと先行要因との関連は尺度によって異なるという指摘（Ali et al., 2015）に基づき、本研究では動機づけや人事施策に関する項目を含む人的資源管理の評価のデータを用いることで、既存のコーポレート・レピュテーション項目と同様の一貫した評価と、財務指標や企業年齢などの先行要因との関連が得られるのかを確認した。次に、企業の評価は少人数でも一貫していることが先行研究から示されているものの、Chen et al. （1993）は専門家それぞれのグループ、Highhouse et al. （2009）は大学教員という等質性を持つ集団での評価者間信頼性を検討しており、小規模の異なる専門性を持つメンバー間の評価の一貫性については検討されておらず、実証的検証の必要性も指摘されている（Walker, 2010）。そこで、本研究では研究者、コンサルタント、行政関係者など異なる業務や背景を持つ少人数の評価の一貫性を検討した。最後に、本研究は現実に行われた小規模な企業評価のデータを用いており、統制は不足しているものの、現場実践に関する示唆を得ることができる。現実場面においては全評価対象への全評価者による完全データが得られないこともあるため、本研究では不完全データの評価者間信頼性についても検討した。

方法

一般社団法人大阪府経営合理化協会が主催した第5回「学生に教えたい“働きがいのある企業”大賞」（以下、働きがい大賞）の評価データを、審査完了後に協会、応募企業、審査委員会の許可を得て分析した。

働きがい大賞は、中堅・中小企業が従業員にとって働きがいを感じられるような企業体質を築く一助となることを目的として行われており、大阪府下および周辺に本社を置く企業が応募資格を持つ。応募企業は応募書類を提出した上でインタビューを受け、それぞれについて審査委員会が行った評価に基づいて受賞企業が決定される。本稿ではこの審査プロセスにおける書類評価とインタビュー評価のデータの評価者間信頼性および、評価の企業別平均と書類内の情報との関連性を検討した。以下に評価の概要および分析方法をまとめる。

評価対象

第5回働きがい大賞には21企業が応募し、書類評価前に1社が辞退、インタビュー前に1社が辞退した。本稿では20企業の応募書類に対する評価と、19企業のインタビューに対する評価を用いた。

評価者

研究者（経営学、産業・組織心理学）、経営コンサルタント、行政の産業振興部門職員、報道機関職員など7名が評価を行った。筆者はこの内の1名として評価に携わった。

評価方法

評価者は各応募企業について、人的資源管理に関する5項目それぞれの数値による評価を書類とインタビューのそれぞれに対して行った。評価項目をTable 1に示す。「理念」「変革」はそれぞれ単独の説明が設定され、「リーダーシップ」「人事」「動機づけ」は一文にまとめられた説明が設定されていたが、各評価者によりそれぞれの項目が独立して評価された。評価は1から5までの得点をつける形で行われ、小数を用いた評価も妨げられなかった。評価の目安として1に「賞を与えるには厳しい」、3に「そこそこ良い」、5に「大賞にふさわしい」という説明が設定されていたが、2と4には設定されていなかった。賞の審査においてはこれらの得点の企業別平均値が用いられたこと、また小数の使用が妨げられなかったのは連続性が仮定されていると考えられることから、間隔尺度と見なした場合の分析を行った。

Table 1 評価項目

評価項目	説明
理念	経営理念を社員と共有化し、浸透させているか。経営理念を各種施策、意思決定に反映しているか。
変革	外部環境や市場の変化に対応し、チャレンジする組織としてイノベーションを実現してきたか。または取り組んでいるか。
リーダーシップ	経営者・管理者のリーダーシップにより、働きがいのある企業を実現すべく人事の施策や制度に反映し、社員の動機づけなどを行っているか。
人事
動機づけ

書類評価

応募企業が記入した所定の書類に基づいて評価が行われた。応募書類の企業名や連絡先などの基本情報以外の主な項目は、創業年、資本金、売上高、営業利益、従業員数（正社員、非正規）、新規採用数（新卒、中途）、新卒採用退職者数、月平均労働時間、年間休日数、有給休暇取得率、企業アピール（評価基準に関連する自由記述項目）などであった。本稿ではこれらの項目の回答やそこから算出できる値を関連指標として扱った。評価者はインタビューが行われる前にすべての書類について評価を行った。

インタビュー評価

各応募企業の経営者60分、従業員30分のインタビューに基づいて評価が行われた。インタビューは対象者、評価者、事務局が同席する対面の場で行われたが、スケジュール調整上の都合によって対象者や評価者の一部がビデオ会議で参加する場合や評価者の一部が欠席する場合があった。経営者インタビューは最初に会社概要と応募動機についての質問が行われ、その後は評価者が応募書類に基づいて自由に質問する非構造化面接の形で進められた。従業員インタビューは応募企業が選んだ従業員を対象として、評価者が応募書類に基づいて自由に質問する非構造化面接の形で進められた。2つのインタビューは原則として連続して行われたが、従業員は経営者インタビューに、経営者は従業員インタビューに同席しなかった。評価者は参加したインタビューについて、経営者と従業員のインタビューを総合し、評価を行った。1社につき平均3.8名（SD＝1.1, 最大値＝6, 最小値＝2）からの評価が得られた。

評価手続き

評価者は事務局より書類を受け取り、独立して書類評価を行い、事務局に結果を送付した。すべての書類評価が完了した時点で全評価者の評価結果が共有されたが、この評価単独に基づく審査や話し合いは行われていない。続いて、インタビューが順次実施された。インタビュー終了後に評価者間で言葉が交わされることもあったが、評価項目に関連するような会話は行われておらず、評価は各評価者が独立して行い、結果を事務局に送付した。

分析

書類評価からは7（評価者）×20（企業）×5（項目）の完全データが、インタビュー評価からは7（評価者）×19（企業）×5（項目）の不完全データが得られた。また、応募書類から関連指標として扱う20企業の企業情報データが得られた。これらのデータを用いて、以下の分析を行った。

書類評価およびインタビュー評価のそれぞれの項目について、級内相関係数によって評価者間信頼性を求めた。評価データの各項目は企業と評価者の2要因モデルで表すことができ、項目ごとに企業別平均値を求めて審査資料として用いられることから、平均値の信頼性を表すICC（C, k）を求めた（McGraw & Wong, 1996）。次に、20社に対する完全データである書類評価と19社に対する不完全データであるインタビュー評価の条件を揃えて比較するために、インタビュー評価件数と同数の評価を書類評価データからサンプリングし級内相関係数を求めた。具体的には、項目ごとに書類評価の20企業から1企業をランダムに削除し、各企業2件以上、各評価者2件以上の評価が残るようにインタビュー評価と同件数の評価を無作為に抽出する手続きを1,000回繰り返し、それぞれのデータの級内相関係数から平均値を求めてインタビュー評価の同項目の級内相関係数と比較した。最後に、有意な級内相関係数が得られた評価項目について企業別の平均値を求め、応募書類の定量化できる指標との積率相関係数を求めた。

なお、評価者には筆者が含まれているため、その意図が結果に影響することが懸念されるため、それぞれの分析において可能な場合には筆者を除いた結果も確認した。

倫理的配慮

本研究は大阪経済大学経営学部研究倫理審査委員会の承認を受けて行われた（2022-B04）。

結果

Table 2に書類およびインタビューそれぞれにおける評価の記述統計を示す。完全データである書類評価は20企業に対する7評価者からの140件、不完全データであるインタビュー評価は19企業に対する7評価者からの72件の評価が得られた。平均が4を超える項目も見られたが、各項目の最頻値が最小値あるいは最大値と一致する項目はなかった。

Table 2 評価の記述統計

評価項目	書類評価（n＝140）		インタビュー評価（n＝72）
評価項目	M	SD	M	SD
理念	3.33	0.75	3.69	0.93
変革	3.49	0.65	3.94	0.70
リーダーシップ	3.50	0.65	4.02	0.86
人事	3.28	0.72	3.66	0.71
動機づけ	3.15	0.73	3.68	0.74

Table 3に書類およびインタビューそれぞれにおける評価の級内相関係数を示す。インタビュー評価は欠損値推定を行わず、不完全データの級内相関係数を求めた（Brueckl & Heuer, 2022）。書類評価ではすべての項目が有意、インタビュー評価では「人事」以外の項目が有意であった。なお、書類評価の「動機づけ」は有意であるにもかかわらず95％信頼区間に0が含まれているが、これは片側検定（H1: r＞0）が行われており（Gamer et al., 2022）、棄却域の境界が下側5％点であるのに対し、信頼区間の下限が2.5％点であるためである。

Table 3 評価の級内相関

評価項目	書類評価			インタビュー評価
評価項目	ICC（C, 7）	p	95％CI	ICC（C, 7）	p	95％CI
理念	.489	.016*	.055, .769	.670	.001**	.329, .859
変革	.731	＜.001***	.503, .878	.776	＜.001***	.544, .904
リーダーシップ	.620	＜.001***	.296, .828	.739	＜.001***	.471, .889
人事	.719	＜.001***	.480, .873	.429	.061	−.160, .757
動機づけ	.418	.043*	−.077, .736	.544	.015*	.074, .806

* p＜.05, ** p＜.01, *** p＜.001

なお、書類評価に関しては、各評価者を除いた場合の級内相関係数を求めて相互に比較を行ったところ、筆者を除いた場合に特有の傾向は見られなかった。インタビュー評価については各評価者が評価した企業数が異なるため、比較を行わなかった。

Table 4に書類評価から無作為抽出した不完全データを用いて求めた級内相関係数の記述統計とパーセンタイル信頼区間を示す。95％信頼区間に0が含まれていない項目は「変革」「人事」であった。得られた級内相関係数は完全データの書類評価のものと比較してすべての項目で低く、同じ評価件数のインタビュー評価のものと比較しても「人事」以外は低い値であった。

Table 4 不完全データ化した書類評価の級内相関

評価項目	M	SD	95％CI
理念	.275	.237	−.285, .626
変革	.556	.128	.252, .750
リーダーシップ	.412	.188	−.071, .695
人事	.539	.130	.233, .739
動機づけ	.212	.266	−.488, .591

Table 5にすべての評価の企業別平均値間の相関、Table 6に級内相関係数が有意であった書類評価5項目、インタビュー評価4項目の企業別平均値と応募書類の定量化できる指標との相関を示す。有意な結果を確認すると、書類評価とインタビュー評価それぞれにおける項目間では一部を除いて正の相関が示された。書類評価とインタビュー評価の間では「理念」「変革」「リーダーシップ」「人事」で同項目との正の相関が示されたほか、書類評価の「リーダーシップ」「動機づけ」とインタビューの「理念」および書類評価の「リーダーシップ」とインタビューの「人事」との正の相関が示された。ただし、筆者の評価を除いた場合の相関では「変革」同士および「人事」同士の相関が非有意であったほか、書類評価とインタビュー評価の異なる項目間での有意な相関が多かった。

Table 5 企業別評価平均値の相関

評価項目	書類評価（n＝20）					インタビュー評価（n＝19）
評価項目	理念	変革	リーダーシップ	人事	動機づけ	理念	変革	リーダーシップ	人事
書類評価
変革	.403^a
リーダーシップ	.699***	.497*
人事	.672**	.393	.497*
動機づけ	.630**	.526*	.515*	.699***
インタビュー評価
理念	.508*	.379	.596**	.365^a	.490*
変革	.224^a	.468*^,b	.454^a	.344	.404	.616**
リーダーシップ	.258	.412^a	.506*	.206	.384	.785***	.702***
人事	.455	.117	.485*	.456*^,b	.341	.429	.680**	.563*
動機づけ	.222	.318	.374	.341	.315	.472*	.729***	.575*	.708**

* p＜.05, ** p＜.01, *** p＜.001　

^a筆者による評価を除いた場合有意となった係数　

^b筆者による評価を除いた場合非有意となった係数

Table 6 企業別評価平均値と応募書類指標との相関

指標	M	SD	書類評価（n＝20）					インタビュー評価（n＝19）
指標	M	SD	理念	変革	リーダーシップ	人事	動機づけ	理念	変革	リーダーシップ	動機づけ
資本金（百万円）	42.4	30.4	−.020	.676**	.059	.034	.272	.206	.313	.209	.274
従業員1人当たり売上高（百万円）	28.9	19.8	−.423	−.168	−.092	−.233	−.235^a	.012	.149	−.172	−.128
売上高営業利益率^c	6.5	6.7	−.088	.280	.150	.013	.034	−.002	.350	.189	.564*
外国人雇用率	5.5	11.6	−.314	−.524*	−.346	−.390	−.396	−.319	−.389	−.124	−.202
平均年齢（正社員）	37.7	4.8	−.284	−.025	−.247	−.018	.022	−.284	−.229	−.474*	−.249
新卒採用率（正社員比）	4.7	4.7	.208	.479*	.092	.227	.205	.158	.348	.364	.372
中途採用率（正社員比）	8.0	10.8	.280	.139	.439^a	.143	−.065	.345	.228	.280	.408
字数：理念浸透・ビジョン	281.8	110.7	.340	−.051	.468*^,b	.007	.118	.079	−.007	.125	.028
字数：リーダーシップ	358.3	166.8	.408	.155	.274	.483*	.521*	.380	.333	.370	.122
字数：人事施策	401.1	208.4	.558*^,b	.498*^,b	.481*	.707***	.306^a	.123	.188	.001	.258
字数：その他（働きがい）	213.3	146.5	.497*	.437^a	.607**	.511*	.525*	.301	.119	.323	.288
字数：自社の強み	279.3	209.5	.181	.128	.018	.464*	.302	.156	.389	.186	.262
字数：求める学生像	157.2	68.7	.275	.289	.319	.324	.480*^,b	.361	.108	.290	.039
字数：その他（学生に伝えたいこと）	129.4	90.2	.414^a	.553*	.559*	.527*	.545*	.600**	.416	.550*	.611**

* p ＜ .05, ** p ＜ .01, *** p ＜.001　

^a筆者による評価を除いた場合有意となる係数　

^b筆者による評価を除いた場合非有意となる係数　

^c 1企業の営業利益が非公開であったため、n（書類評価）＝19、n（インタビュー評価）＝18　

全評価が非有意であった指標：業種（サービス業ダミー）、企業年齢、売上高成長率（2019–2021年度）、従業員1人当たり営業利益、正社員数、女性率（正社員）、非正規率、障害者雇用率、平均勤続年数（正社員）、新卒退職率（2019–2021年度）、月平均労働時間、年間休日数、有給休暇取得率、テレワーク実施、平均出社率（1–3月）、字数：代表者プロフィール、字数：チャレンジ・変革　

時期によって変動する指標は特に断りがない限りは2021年度のものを用いた。

企業別平均値と応募書類指標との間では、書類評価で20の組み合わせが有意、インタビュー評価では5つの組み合わせが有意であった。有意な相関が多かった応募書類指標は、「字数：その他（学生に伝えたいこと）」「字数：人事施策」「字数：その他（働きがい）」で、すべて正の相関を示した。筆者の評価を除いた場合の相関では、いくつかの有意な組み合わせが異なった。

考察

評価者間の一貫性は、評価の資料（書類、インタビュー）や評価項目によって異なることが明らかとなった。級内相関はインタビュー評価の「人事」を除いて有意で、Koo & Li （2016）のガイドラインにおける“moderate” （.50–.75）や“good” （.75–.90）に相当するのは書類評価の「変革」「リーダーシップ」「人事」、インタビュー評価の「理念」「変革」「リーダーシップ」「動機づけ」であった。書類評価とインタビュー評価の両方で十分な一貫性を示した項目はなかったが、いずれの項目も書類評価かインタビューの評価のどちらかにおいては少なくとも“moderate”以上の一貫性を示していることから、評価項目として用いることは許容されうると思われる。中でも、両方の評価の一貫性が比較的高く、書類評価とインタビュー評価の企業別平均値間に正の相関が見られた「変革」「リーダーシップ」が相対的に適切であると考えられる。

インタビュー評価は不完全データであるにもかかわらず、「人事」を除いて書類評価より高い級内相関を示した。また、不完全データ化した書類評価の級内相関は、すべて元の級内相関よりも低い値を示しており、信頼区間が0を含まないのは「変革」「人事」の2項目であった。これらの結果から、書類評価とインタビュー評価では全般的に後者の評価が一致する傾向があると考えられる。書類評価においては書類上の多様な情報の取得順序や取得にかける時間が評価者に委ねられるのに対して、インタビューにおいてはどの評価者にも同一の順序や時間で情報が提示されるため、評価の一貫性が高くなるものと考えられる。また、インタビュー評価は書類評価の後に行われているため、応募書類から得られた情報がインタビューによって補足されることによって明確化し、一貫性が高くなることも考えられる。それ以外にも、対面であることで伝わるノンバーバルな情報や、インタビューの構造化レベルの低さによる質問の偏りなどが影響している可能性がある。一方「人事」に対する評価は例外であり、書類評価がインタビュー評価より高い一貫性を示しただけでなく、インタビュー評価の級内相関は非有意となった。これは、「理念」「リーダーシップ」などの評価には評価者の解釈が含まれるのに対して、人事制度や施策は定義が明確で書類上の他の情報と区別しやすく、解釈をほとんど要しないからであると考えられる。逆に時間の制限されているインタビューにおいては制度そのものについての詳細な情報は提示されにくく運用面が話題に上がりやすいため、評価に解釈が含まれることになり一貫性が低下するものと考えられる。

評価の企業別平均値の相関からは、書類評価とインタビュー評価それぞれにおいて評価項目が相互に相関していることが示され、書類評価とインタビュー評価の間では、「理念」「変革」「リーダーシップ」「人事」のそれぞれで有意な相関が示された。同じ評価資料に基づいた異なる項目間で正の相関が得られたことから、評価項目が十分に弁別されていないか、いずれかの側面で優良企業と認知された企業が全般的に高い評価を受けるハロー効果が働いている可能性が推察される。このことには評価項目の説明不足が関係しているものと思われる。Table 1に示す通り、評価項目は抽象的で曖昧な表現で説明されており、複数項目が1文で説明されている部分もある。このことによって項目の弁別が妨げられたり、ハロー効果が強化された可能性がある。一方で、書類評価とインタビュー評価の同項目でおおむね有意な相関が確認されたことは、評価項目の一定の収束的妥当性を示していると考えられる。ただし、書類評価における「リーダーシップ」「動機づけ」はインタビュー評価の「理念」とも有意な相関を示した。インタビューで経営理念の浸透について語る経営者の言葉からリーダーシップや動機づけの要素が読み取られることは自然なことではあるが、これらの評価項目が弁別的妥当性の面においては課題を有していることも示されたといえよう。また、筆者の評価を除いた相関では書類評価とインタビュー評価の同項目間の有意な相関が減り、別項目間の有意な相関が増えた。Lievens （2009）はアセスメント・センターにおける評価に心理学者を用いることで弁別的妥当性が高まることを指摘している。妥当性に関する筆者の知識が評価に影響した可能性も考えられる。なお、インタビュー評価の「人事」は評価者間の一貫性が有意ではなかったが、その平均値はいくつかの評価と有意な相関を示した。ただし、相関係数の値は相対的に低く、有意な組み合わせも多くはなかった。このことは一貫性の薄い評価の平均値が妥当ではないことを示唆していると考えられる。

評価の企業別平均値と応募書類指標との相関は、書類評価で20, インタビュー評価で5つの組み合わせが有意であった。検定の多重性も踏まえると、インタビュー評価と応募書類指標との関連は薄いといえよう。これは、評価の資料が異なるため自然なことであると考えられる。書類評価と応募書類指標では、自由記述欄の文字数を中心に有意な相関が確認され、筆者の評価を除いた相関でも同様の傾向が示された。自由記述欄には文字数に関する注記などは付されておらず、文章量は応募企業の裁量に委ねられている。そのため、文章量の多い企業が多くの有効な取り組みを行っていると認知されたものと思われる。なお、文字数と評価項目との相関は必ずしも対応する自由記述との組み合わせで有意になっているわけではなかった。これは、自由記述欄が完全に評価項目と対応していないことも関係しているが、審査委員がそれぞれの評価項目に関連する情報を単一の自由記述から読み取るのではなく、複数の記述から抽出する形で判断しているためであると考えられる。ただし、その中でも「字数：人事施策」と書類評価「人事」との相関は最も高い値であった。これは書類評価の「人事」の一貫性が高かった理由として、人事制度や施策が書類上の他の情報と区別しやすいという先の考察を裏付けるものと思われる。

字数以外の指標と企業別平均値との有意な相関は、書類評価における「変革」と「新卒採用率（正社員比）」との正の関係のように解釈が可能なものもあったが、同じ「変革」と「外国人雇用率」との負の関係のように、解釈が困難で疑似相関の可能性が疑われるものもあり、筆者の評価を除いた相関で検定結果が変わるものもあったことから、個別の考察は差し控える。なお、インタビュー評価における「動機づけ」と「売上高営業利益率」の間で正の相関が確認されているものの、コーポレート・レピュテーション研究の多くから報告されている財務ハロー（Brown & Perry, 1994; Rosenzweig, 2007 桃井訳 2008）を裏付けるような結果は示されなかった。これは財務ハローを示唆する研究が依拠しているFortuneの“World’s Most Admired Companies”においては財務に関連する項目が含まれており、企業の財務能力に興味を持つ経営者やアナリストが評価を行っている（Lewellyn, 2002; Wartick, 2000）のに対して、働きがい大賞の評価項目には財務に関連するものが含まれておらず、審査員の興味が人的資源管理の側面に向いているためであると考えられる。

以上をまとめると、7人という少人数の異なる専門性を持つ評価者による人的資源管理に関する企業評価は、許容可能な評価者間信頼性と、一定の収束的妥当性を示した。また、インタビュー評価は書類評価より一貫しており、平均3.8名が評価した不完全データであっても許容可能な評価者間信頼性を示した。ただし、人事制度・施策に関する評価項目のみは例外であり、評価項目によっては評価資料が適さない可能性が示された。また、書類評価は財務指標や組織の人員構成より自由記述の文字数と関連しており、評価が主に自由記述に基づいて行われていることが明らかとなった。これらの結果から得られる実践への示唆を検討する。まず、少人数の評価者による企業表彰などの企画においてはある程度の一貫性が仮定できるものの、評価項目によっては一貫性が低い場合があるため、可能であれば評価者間信頼性を検証することが望ましい。なお、制度的な側面についてはインタビューにおいて十分に話題に上がっていない可能性があるため、構造化のレベルを高めることが有益である可能性がある。次に、評価の欠損は一貫性を低下させるため、書類評価においては望ましくないが、インタビュー評価において一定程度許容される。そして、書類における自由記述の文字数は評価に関わることから、字数制限や目安を設けることが望ましいと考えられる。

最後に、本研究の限界について検討する。本研究は実際に行われた企業表彰のデータを用いており、サンプルサイズも小さい。しかし、冒頭で述べたようにこのような小規模の企業表彰は他にも行われており、本研究はそうした表彰における企業評価にどの程度の一貫性があるのかを推測する基礎資料になると考えられる。次に、本研究では書類評価とインタビュー評価を比較しているが、インタビュー評価は書類評価の後に行われているため独立していない。そのため、独立した評価を行った場合にはインタビュー評価の一貫性がより低い値になる可能性がある。このことを明らかにするために、書類評価とインタビュー評価の順序を操作する実験的検討が必要であると考えられる。一方で、企業表彰において書類審査に続いてインタビューやプレゼンテーション審査が行われることは一般的であり（e.g., 経済産業省，2023; 厚生労働省，2023）、その逆は見受けられない。そのため、評価者の参照枠トレーニング（Lievens, 2009; Roch et al., 2012）などで評価者間信頼性や妥当性を向上させることが、このような独立していない評価に有効であるかも検討する必要があろう。

引用文献

Ali, R., Lynch, R., Melewar, T. C., & Jin, Z. (2015). The moderating influences on the relationship of corporate reputation with its antecedents and consequences: A meta-analytic review. Journal of Business Research, 68(5), 1105–1117. https://doi.org/10.1016/j.jbusres.2014.10.013
Anginer, D., Fisher, K. L., & Statman, M. (2007). Stocks of admired companies and despised ones. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.962168
Anginer, D. & Statman, M. (2010). Stocks of admired and spurned companies. The Journal of Portfolio Management, 36(3), 71–77. https://doi.org/10.3905/jpm.2010.36.3.071
Brown, B. & Perry, S. (1994). Removing the financial performance halo from Fortune’s “most admired” companies. Academy of Management Journal, 37(5), 1347–1359. https://doi.org/10.5465/256676
Brueckl, M. & Heuer, F. (2022). Package ‘irrNA’ (Version 0.2.3). The Comprehensive R Archive Network. https://cran.r-project.org/web/packages/irrNA/irrNA.pdf （2023年5月1日）
Chen, M.-J., Farh, J.-L., & MacMillan, I. C. (1993). An exploration of the expertness of outside informants. Academy of Management Journal, 36(6), 1614–1632. https://doi.org/10.5465/256823
Chun, R. (2005). Corporate reputation: Meaning and measurement. International Journal of Management Reviews, 7(2), 91–109. https://doi.org/10.1111/j.1468-2370.2005.00109.x
Fombrun, C. J. (1996). Reputation: Realizing value from the corporate image. Harvard Business School Press.
Fombrun, C. J., Gardberg, N. A., & Sever, J. M. (2000). The reputation quotient^SM: A multi-stakeholder measure of corporate reputation. Journal of Brand Management, 7(4), 241–255. https://doi.org/10.1057/bm.2000.10
Fortune (2023). World’s most admired companies. https://fortune.com/ranking/worlds-most-admired-companies/（2023年5月1日）
Gamer, M., Lemon, J., Fellows, I., & Singh, P. (2022). Package ‘irr’ (Version 0.84.1). The Comprehensive R Archive Network. https://cran.r-project.org/web/packages/irr/irr.pdf（2023年5月1日）
Highhouse, S., Broadfoot, A., Yugo, J. E., & Devendorf, S. A. (2009). Examining corporate reputation judgments with generalizability theory. The Journal of Applied Psychology, 94(3), 782–789. https://doi.org/10.1037/a0013934
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.（村井章子（訳）（2014）．ファスト&スロー：あなたの意思はどのように決まるか？（上・下）　早川書房）
経済産業省（2023）．製品安全対策優良企業表彰　https://www.meti.go.jp/product_safety/ps-award/（2023年5月1日）
Koo, T. K. & Li, M. Y. (2016). A guideline of selecting and reporting intraclass correlation coefficients for reliability research. Journal of Chiropractic Medicine, 15(2), 155–163. https://doi.org/10.1016/j.jcm.2016.02.012
厚生労働省(2023). 「グッドキャリア企業アワード」好事例集　https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/c_award_jirei.html（2023年5月1日）
Lewellyn, P. G. (2002). Corporate reputation: Focusing the zeitgeist. Business & Society, 41(4), 446–455. https://doi.org/10.1177/0007650302238777
Lievens, F. (2009). Assessment centres: A tale about dimensions, exercises, and dancing bears. European Journal of Work and Organizational Psychology, 18(1), 102–121. https://doi.org/10.1080/13594320802058997
McGraw, K. O. & Wong, S. P. (1996). Forming inferences about some intraclass correlation coefficients. Psychological Methods, 1(1), 30–46. https://doi.org/10.1037/1082-989X.1.1.30
Roch, S. G., Woehr, D. J., Mishra, V., & Kieszczynska, U. (2012). Rater training revisited: An updated meta-analytic review of frame-of-reference training. Journal of Occupational and Organizational Psychology, 85(2), 370–395. https://doi.org/10.1111/j.2044-8325.2011.02045.x
Rosenzweig, P. (2007). The halo effect: . . . And the eight other business delusions that deceive managers. Free Press.（桃井緑美子（訳）（2008）．なぜビジネス書は間違うのか日経BP）
Walker, K. (2010). A systematic review of the corporate reputation literature: Definition, measurement, and theory. Corporate Reputation Review, 12(4), 357–387. https://doi.org/10.1057/crr.2009.26
Wartick, S. L. (2000). The problem of inter-rater group differences in the Fortune “most admired companies” survey. Proceedings of the International Association for Business and Society, 11, 109–120. https://doi.org/10.5840/iabsproc20001112

Corresponding author

Register with J-STAGE for free!