情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
未来のデータサイエンティストを探せ! 研究分野遷移から見た人材マッチング
釋 宏介中井 洋平笹谷 俊徳
著者情報
ジャーナル フリー HTML

2015 年 57 巻 10 号 p. 734-740

詳細
著者抄録

大学と企業の人材のミスマッチは大きな課題であり,特に近年データサイエンティストの不足が問題となっている。一方で,データサイエンティストの潜在的な素養をもった人材はさまざまな分野に存在すると考えられ,そうした未来のデータサイエンティスト候補の発掘こそがデータ分析の発展の鍵と言える。そこで,体系化されたコードにより分野が定義されており,名寄せにより個人の研究キャリアの推移を追うことができるというJST文献データの特性に着目し,データサイエンティストの素養をもった人材の探索を行った。具体的には,個人ごとの専門分野の変遷を学生時代と企業時代に分類して分析することで,学生時代から企業時代の専門分野遷移を求め,企業でデータサイエンティストとして活躍しうる学生時代の専門分野を特定した。また,エネルギー会社向けデータサイエンティストの探索を行い,個別の企業のニーズに合致する人材探索の可能性を示した。本アプローチは,任意の分野における学生と企業のマッチングを支援する仕組みとして広く活用できる。

1. はじめに

企業にとって,求める専門性をもった人材をいかに確保するかは大きな課題である。日々変化する事業環境の中で企業が必要とする専門性も変化しており,それに合った人材を新卒採用などで獲得することは容易ではない。企業側が求める専門性と,大学で学ばれる専攻との間には少なからずギャップがあり,企業側の求める専門分野が刻々と変化していくのに対して,大学側からの人材供給は必ずしも対応しているとは言えないだろう。

昨今急速に企業での活用が進展しているデータサイエンスの世界でも,このような人材のミスマッチの問題が顕著であるといえる。近年の「ビッグデータ」の台頭を受け,各企業でデータ分析・データ活用への意識は急速に高まりつつあるが,このようなデータ分析を実現するいわゆる「データサイエンティスト」の数は限られており,企業間での熾烈な争奪戦が行われているという。特に日本では,データサイエンティストの養成教育は発展途上であり,統計・数理系の専門課程の卒業者が多くないこともあって,人材不足は深刻であり,企業のデータ活用の大きな妨げとなりうる状況であると考えられる1)

一方で,企業にとって求める専門性を確保する方法は,必ずしも直接的にその専攻を卒業した学生を採用することだけではない。学生時代の専攻と企業入社後の専門分野が異なることは珍しくなく,直接的に求める専攻を卒業していなくとも,それに類する素養をもった学生を発見し,企業内で育成することで,人材の確保は可能になると考えられる。データサイエンティストの場合も,現在活躍するデータサイエンティストの中には,もともと別分野で活躍していた人材も多い。たとえば,筆者らの所属する企業は,およそ40年前から経営意思決定支援や業務改革のためのデータ分析・数理技術活用の専門部署をもっているが,学生時代に統計・数理系に限らないさまざまな分野を専攻した人材を集め,育成することで専門部隊として機能させている。つまり,データサイエンティストそのものを新卒採用で獲得することには限界があるが,学生時代は異なる専攻であっても統計分析とそのビジネス活用に対する素養をもち,将来的に活躍が期待されるデータサイエンティストの「卵」を効果的に見いだすことは可能である。このことこそが,人材のミスマッチを解消するうえで大きな可能性を秘めていると考えられる。

そこで,本取り組みでは,学生と企業の人材マッチングの一例として,技術者・研究者の専門分野の遷移を追うことで企業のデータサイエンティスト発掘を促進することを目的とした。具体的には論文データベースのデータから技術者・研究者の専門分野の遷移を可視化する。これを利用して,学生時代の専門分野から企業で活躍できる専門分野を特定することで,未来のデータサイエンティストの効果的な発掘を図るとともに,学生と企業の人材マッチングへの幅広い活用を提案する。

本稿では,用いたデータについて2章で説明し,続く3章では分析のコンセプトについて簡潔に述べる。4章ではより詳細な分析手順について説明し,5章ではデータサイエンティストについて得られた分析結果について述べる。さらに6章で人材探索に関する活用の可能性について触れたうえで,7章でまとめを述べる。

2. 使用データ

本取り組みでは,科学技術振興機構(JST)より提供されたJST科学技術データの中から,科学技術文献データ(書誌情報):約1,000万件,人名名寄せデータ:約4,000万件,分野分類データ:約4,000件,の3つを使用した。

これらのデータを組み合わせて,個人の紐(ひも)付けが可能な人名名寄せデータを活用することで,個別の文献情報のみでは把握困難な個人ごとの研究キャリアの流れ(専門分野の遷移)を分析することができる。さらに,体系化されたJST分類コードが文献ごとに付与されていることを生かし,個人の専門分野を定義する。

3. 分析コンセプト

個人の文献情報から特定した専門分野に学生時代・企業時代という概念を導入することで,専門分野の遷移を把握することが可能になる。

たとえば,Aさんは学生時代と企業時代を比較した場合似たような分野で活躍している,一方でBさんは学生時代とはまったく異なる分野で活躍している,というように,学生時代から企業時代への専門分野の遷移を把握することが可能となる(1)。

図1 分析コンセプト

4. 分析プロセスの全体概要

分析プロセスの全体概要を2に示す。まずStep1として,生データを加工し人物単位のデータセットを作成する。次にStep2として,所属機関名と発行年をもとに,そのデータに学生時代のものか,企業時代のものか,という概念を導入する。さらに,Step3としてそれをもとに求める人材の探索を行う。

図2 分析プロセス概要

4.1 Step 1 データ加工

ユニークな著者単位で紐付けることが可能である人名名寄せデータを活用し科学技術文献データの各種項目を紐付けることで,次のような個人の研究分野の遷移を追うことのできる「Author ID×論文番号×JST分類」のデータセットを作成する(1)。

表1 Step1 データ加工

4.2 Step 2 学生・企業時代判定

次に,機関名と発行年をもとに,各レコードの論文が学生時代のものか,企業時代のものかを判定し,フラグを立てる。具体的な手順は下記のとおり。

  • (1)まず機関名がブランクでないものの判定を行う。

  • •   機関名の文字列に「大学」または「Univ.」(大文字・小文字は問わない)を含む場合,大学判定とし,機関名がブランクではないが大学判定を満たさない場合を企業判定とする。

  • (2)判定結果を時系列で並べ,下記処理を順に行う。

  • •   以降に大学判定のあるものは大学判定とする。
  • •   以前に企業判定のあるものは企業判定とする。

ただし,処理(2)において大学との共同研究や社会人大学院等で論文を書いているケース等では,入社後であっても大学判定となることがある。一方,今回の分析目的である,入社後の各専門分野へのポテンシャルを,学生時代の専門分野から測ることに鑑みると,入社後の業績を学生時代の業績と見なすリスクは極力避けたい。そのため,一度でも企業所属での論文があった場合は,それ以降の論文を企業判定としている(2)。

表2 Step 2 学生・企業時代判定

4.3 Step 3-1 学生→企業時代の遷移

学生時代と企業時代の両方について1件以上のデータをもつ著者について,JST分類を専門分野として,著者ごとの学生時代の専門分野と企業時代の専門分野にフラグを立てることで,著者ごとのテーブルを作成する。本分析中では,専門分野はJST分類の第2階層(4桁)をメインに使用した。

学生時代にある専門分野をもつ著者のうち,企業時代にある専門分野をもつ著者の数を集計し,学生時代の専門分野から企業時代の専門分野への遷移を表すテーブルを作成する。1人の著者は複数の専門分野をもつことがあるが,それらは専門分野ごとにカウントする(33)。

表3 Step 3-1 学生→企業時代の遷移
図3 学生から企業時代の専門分野遷移イメージ

4.4 Step 3-2 データサイエンティスト探索

人材探索の事例として,データサイエンティストに着目する。本来,「データサイエンティスト」とはどのような人物か,絶対的な定義は難しい。また,企業の求めるデータサイエンティストは,企業がどのような分野で活躍を期待しているかなどによって,さまざまな人材像がありうる。あくまでその一例として,本取り組みでは,データサイエンティストを,企業時代に「J情報工学」または「K経営工学」の専門分野をもつ著者と定義した。ただし,この定義は自由に変えることができる(4)。

次に,学生時代の各専門分野をもつ著者が,データサイエンティストになる確率を学生時代の専門分野別に求める。併せて,確率以外に重要な要素であるそもそもの人材規模(技術職・研究職としての人材の絶対数)などを加味してマッピングし,将来のデータサイエンティストを探索するうえで有望な学生時代の専門分野を導く。

表4 Step 3-2 データサイエンティスト探索

4.5 Step 3-3 特定データサイエンティスト探索

さらに,データサイエンティストと一口に言っても,その求める人材像はさまざまであることに着目し,特定企業のニーズに合わせて求める人材を細かく設定して探索を行う。ここでは,事例として当社の事情(エネルギー業界の事業会社)を加味して,データ分析の活用側に強く,エネルギーにも精通する人材を育てたいとのニーズを定め,「K経営工学」かつ「Lエネルギー工学」の条件を満たす人を求める人材と定義し,以降Step3-2と同様の探索を行う(5)。

表5 Step 3-3 特定データサイエンティスト探索

5. 分析結果

4に,Step3-1の結果として,学生時代にある専門分野をもつ人が,企業時代にある専門分野をもつ確率を求めたものを示した。図において,濃い色のマス目ほど遷移の確率が高いことを示している。本稿では個別の確率についての紹介は省くが,学生時代と企業時代の専門分野が重なるケースが多いため,対角線上に濃い色をした領域が広がるが,それ以外の分野にも親和性が高い分野が存在することがわかる。かくして,学生時代と企業時代の専門分野の遷移がとらえられる枠組みを構築した。

図4 Step 3-1 学生→企業時代の遷移の可視化

次に,Step3-2の結果を示す。5に,学生時代の専門分野ごとのデータサイエンティストになった確率(データサイエンティスト確率)を縦軸にとり,分野の人材規模を横軸にとったグラフを示した(誌面の都合上,ごく一部を示している)。通信工学,制御工学などの分野がデータサイエンティストへの親和性が高いことが読み取れる。このグラフでマッピングされている点の面積は,データサイエンティスト確率と分野の人材規模の積,すなわちデータサイエンティスト人材の数に比例するように描いている。データサイエンティスト人材がもっとも多い分野は,グラフ上右上の領域になるが,必ずしもそのような分野は多くない。一方,分野の人材規模はそれほど大きくないがデータサイエンティスト確率は高い分野(ドキュメンテーション,システム工学,心理学など,グラフ中左上の分野)や,データサイエンティスト確率はそれほど高くないが人材規模が大きい分野(電磁気学,光学,電子工学など,グラフ中右下の分野)が,有力なデータサイエンティスト人材の供給源となっていることがわかる。

図5 Step 3-2 データサイエンティスト探索のための専門分野マッピング

最後に,特定分野に精通したデータサイエンティストを探索するStep3-3の結果を示す。6に,4.5で定義したエネルギー分野に精通するデータサイエンティストになる確率を示した。図の見方は,5と同様である。もともと関連性の深い経営工学や情報工学以外でも,環境工学や電気工学,建設工学などが比較的有望な分野として抽出されている。

図6 Step 3-3 特定データサイエンティスト探索のための専門分野(エネルギー会社向け)マッピング

6. 結果の活用

5章では,今回の主眼である「データサイエンティストを探す」ことに注目したが,本研究の結果はデータサイエンティストに限らず拡張することにより,任意の分野における学生と企業のマッチングを支援する仕組みとしての活用が可能である。

まず,人材を求める企業側の視野に立った場合の活用方法について述べる。自社の求める人材の活躍分野を定義し,それと関連の深い分野を定める。次に,本取り組みの結果を用いて,その分野で企業時代に活躍している人材が,学生時代にどのような分野で活躍したかを調べることができる。すると,データサイエンティストの探索の場合と同様に,どの分野に自らの求める人材が潜在的に存在しているかがわかる。このように,企業にとっては,求める人材の卵がどの分野に潜在的に存在しているかを探索するツールとして本取り組みを活用できる。

一方,本取り組みの結果は,自らの進路を探す学生側の視点でも活用することができる。自らが属している分野において過去学生時代に活躍していた人材が,企業時代にどのような分野で活躍しているかが,本研究により明らかになる。すなわち,学生にとっては,自らの専門性を生かした進路を探索できるツールとして本取り組みを活用できる。

7. まとめ

本取り組みでは,体系化されたコードにより分野が定義されており,名寄せにより個人の研究キャリアの推移を追うことができるというJST文献データの特性に着目し,個人の専門分野の遷移をたどり,学生時代と企業時代の専門分野の遷移を分析するモデルを構築した。

特に,人材不足が叫ばれるデータサイエンティストを題材に,学生時代の専門分野からデータサイエンティストとしての可能性が見込まれる人材を探索した。また,エネルギー会社向けデータサイエンティストの探索を行い,個別の企業のニーズに合致する人材探索の可能性を示した。さらに,本取り組みを拡張することにより,任意の分野における学生と企業のマッチングを支援する仕組みとして活用可能である。

謝辞

本取り組みの成果は第1回データサイエンス・アドベンチャー杯2014(主催:SAS Institute Japan株式会社,独立行政法人科学技術振興機構)で得られたものです。

ツールを貸与していただいたSAS Institute Japan株式会社,データを提供いただいた科学技術振興機構をはじめとする関係者の皆さま,業務が多忙な時期にもかかわらずコンペティションへの参加を認めていただいた同僚の皆さま,そしてともにアドベンチャー杯に取り組んだチームメンバー(篠﨑英孝,藤本剛志,宇田川美穂,倉都翔平)の皆さまに御礼申し上げます。

参考文献
 
© 2015 Japan Science and Technology Agency
feedback
Top