2016 Volume 58 Issue 11 Pages 836-843
本稿では,政府統計に関するデータシェアリングに焦点を当て,わが国における政府統計のデータシェアリングの現状と今後の方向性について述べた。政府統計データにおいては,統計表の公表だけでなく,匿名化ミクロデータの提供,個票データの提供,オーダーメード集計,オンデマンド型の提供サービス,オープンデータ化といったように,データの秘匿性と利用者のニーズに合わせた形で,さまざまな形態による提供が行われてきた。他方,政府統計に関するデータシェアリングをさらに展開するうえでは,異種の統計調査のデータリンケージ,ビッグデータとしての政府統計の利用可能性,メタデータの整備といった課題についてさらなる検討が必要だと考える。
社会学や政治学の分野では,主として,社会調査データに関する2次分析(secondary analysis)を可能にするために調査データのデータシェアリング(データアーカイブ)が行われてきた。米国におけるデータシェアリングについては,1962年にミシガン大学に設立されたICPSR(Inter-university Consortium for Political and Social Research)というデータアーカイブ組織にさかのぼることができる。一方,英国では,1967年に,エセックス大学にUKデータアーカイブ(UK Data Archive: UKDA)1)が設置され,社会科学と人文科学に関するデジタルデータ(digital data)の収集・保管・提供を行うデータアーカイブ機関として発展してきた注1)。わが国でも,東京大学のSSJデータアーカイブ(Social Science Japan Data Archive)が創設され,社会調査やアンケート調査の個票データの提供が1998年4月に開始された。
このように社会科学の分野では,主として社会調査データに関するデータシェアリングが展開されてきた。その一方で,わが国においては,政府統計(公的統計)に関するデータシェアリングが検討されてきた。第II期「公的統計の整備に関する基本的な計画」(平成26年3月25日閣議決定)においても,「『統計データ・アーカイブ(仮称)』については,調査票情報等の提供及び活用の促進の基礎として,引き続き具体化に向けた検討」を行うことの必要性が指摘されている。本稿では,政府統計に関するデータシェアリングに焦点を当て,その現状と課題について論じることにしたい。
政府統計データにおいては,秘匿性と利用者のニーズを踏まえた形で,多様な提供形態が存在する。政府統計は,統計表およびミクロデータ注2)という形で利用可能であるが,特に,政府統計のミクロデータにおいては,①匿名化ミクロデータ(個票データに匿名化処理が施されたデータ)の提供,②個票データの提供,③オーダーメード集計,④オンデマンド型の提供サービス(リモート集計)といったさまざまな形態による提供が進められてきた。一方,個別具体的にみると,欧米諸国における政府統計データの提供状況は,各国によって異なる様相を呈している。
米国では,人口センサス(Population Census)や経常人口調査(Current Population Survey)といったさまざまな政府統計を一般公開型ミクロデータ(Public Use Microdata Sample)として無料でダウンロードすることができる。その一方で,センサス局の経済研究センター(Center for Economic Study)を拠点として,全国20か所の大学等に連邦統計研究データセンター(Federal Statistical Research Data Centers: RDCs)が設置されている。RDCsにおいては,世帯・人口系の統計調査だけでなく,事業所・企業系の統計調査の個票データのアクセスが可能になっている。他方,オンデマンド型の集計システムとしては,米国センサス局におけるAmerican FactFinderとDataFerrettが利用可能であることが知られているが,近年では,回帰分析の実行も可能なMicrodata Analysis Systemというリモート集計システムの開発が進められている2),3)。
カナダでは,カナダ統計局が,人口センサスや労働力調査等,数多くの政府統計に関する一般公開型ミクロデータファイル(Public Use Microdata Files: PUMFs)を作成・提供している。たとえば,2006年の人口センサスに関しては,個人ファイル(Individual File)と階層ファイル(Hierarchical File)の2種類のPUMFsを作成している。それに対して,オンサイト施設注3)を有するリサーチデータセンター(Research Data Centres)内部において世帯・人口系のデータの個票データや行政記録データの利用が可能になっている。さらに,カナダ統計局は,セキュアな場所に保管されているミクロデータに対して,利用者がインターネットを通じてリモートでアクセスすることが可能なリアルタイム・リモートアクセス(Real Time Remote Access)の提供サービスを行っている4)。
英国では,UKDA内の組織の1つであるUK Data Serviceが,政府統計のライセンス型ミクロデータ(End User Licence Data)に関する提供サービスを行っている。ライセンスを取得することによって,研究者や学生は,学術研究目的のために,労働力調査等のサーベイミクロデータ,人口センサスの匿名化標本データ(Samples of Anonymised Records)といったライセンス型ミクロデータをUK Data ServiceのWebサイト上でダウンロードして利用することが可能になっている。また,2011年人口センサスについては,人口センサスの教育用ミクロデータがpublic use fileとして公開されている。その一方で,英国国家統計局(The Office for National Statistics: ONS)のVirtual Microdata Laboratory(VML)のようなオンサイト施設においては,政府統計の個票データ注4)が利用可能となっており,人口センサスの個票データや,1971~2011年の人口センサスの個票データを対象に縦断的なリンケージを施したLSデータ(ONS Longitudinal Study of England and Wales)等に,VML内部でアクセスすることができる。他方,UK Data Service内部に位置するSecure Labはリモートアクセス施設を備えており,研究者が個票データに24時間リモートでアクセスすることが可能になっている1),5),6)。このようなイギリスにおけるミクロデータの提供形態に関する概略図を示したものが図1である。なお,英国では,2014年にAdministrative Data Research Networkが創設され,学術研究や政策評価のための行政記録データのさらなる提供が進められるだけでなく,複数の行政記録データ間のマッチングの検討とマッチングされたデータの提供,さらには統計調査の個票データと行政記録データとのマッチングの可能性が追究されている。
近年,EU諸国では,国家間の比較分析を行うために,国内のミクロデータだけでなく,国外のミクロデータへのアクセスに対する研究者のニーズが高まっている。そこで,ヨーロッパ各国で実施されている統計調査の個票データ(非匿名化データ(confidential data))と,ヨーロッパ各国で実施されている統計調査の個票データについて,実施国以外のEU域内の諸国でもアクセスが可能になることを目指した「国境なきデータアクセス(Data without Boundaries)」プロジェクト,さらにはヨーロッパ統計システム(European Statistical System: ESS)が行う統計調査の個票データに関するリモートアクセスの法的技術的な整備を指向した「ヨーロッパ統計システムにおける個票データの分散型リモートアクセス(Decentralised and Remote Access to Confidential Data in the ESS)」プロジェクトが展開されてきた7)。
わが国においても,政府統計データは,統計表(オープンデータ)とミクロデータの両面から,さまざまな形態での提供が行われている。わが国では,政府統計ミクロデータのさらなる利用促進を図るために,統計法制度が整備されてきた。
わが国においては,統計法(平成19年法律第53号)の全面施行によって,2009年4月より,政府統計のミクロデータの提供が進められてきた。それまでの旧統計法では,わが国の政府統計データは,主として集計結果表(統計表)として公表され,ミクロデータの提供は,旧統計法第15条2項における目的外使用という形で例外的に認められていた。現行の統計法では,第2条第11項と第12項で,それぞれ「調査票情報」と「匿名データ」の定義がなされるだけでなく,調査票情報(個票データ)や匿名データの提供が統計法上で規定されたことによって,個票データの提供,および匿名データの作成・提供が可能になった(統計の作成ないしは統計的研究のための調査票情報の提供(第33条),匿名データの作成(第35条),および匿名データの提供(第36条))。なお,統計法では,委託による統計の作成等(第34条)が条文化されていることから,さまざまな統計調査を対象に有料でオーダーメード集計を行うことが可能である。
統計法第35条で明記されている,基幹統計調査の匿名データの作成に関しては,以下のような法制度的な手続きが行われる。最初に,基幹統計調査の匿名データの作成に関して,統計委員会に諮問がなされる。つぎに,統計委員会の匿名データ部会で基幹統計調査の匿名データに関する匿名性の検討を行い,匿名データ部会における審議内容が統計委員会に報告される。そして,匿名データの作成方法が妥当かどうかについて,統計委員会から答申が出された後に,統計作成部局の責任の下で,匿名データが作成・提供される。わが国では,現在,国勢調査等の7調査の匿名データが提供されている。
統計法では,調査票情報や匿名データに含まれる個人情報の漏えいを回避するために,調査票情報や匿名データの適正管理(第42条),守秘義務(第43条),さらには罰則規定(第61条)に関する条項を明記している。さらに,調査票情報や匿名データの作成・提供に関する手続き上のルールを詳細に記載した「調査票情報等の管理及び情報漏えい等の対策に関するガイドライン(総務省政策統括官(統計基準担当)決定)」および「匿名データの作成・提供に係るガイドライン(総務省政策統括官(統計基準担当)決定)」が制定されている。「匿名データの作成・提供に係るガイドライン」の場合,主として学術研究目的や教育目的を指向した匿名データの利用に関して,利用者の範囲が規定されている。さらに,匿名データの利用申請において,匿名データの利用期間,利用場所・保管場所を明示することの必要性も明記されている。
一方,わが国の政府統計の集計結果表(統計表)は,政府統計の総合窓口であるe-Statでも公表されることによって,インターネット上で集計結果表をダウンロードすることが可能になっている。これによって,公表された統計表の利便性が高まっているが,統計データの有効活用の推進のために,政府統計におけるオープンデータの高度化が進められている。具体的には,(1)API(Application Programming Interface)機能による利用環境の整備や,(2)統計GIS機能の整備が図られることによって,オープンデータとしての利用可能性のさらなる向上が見込まれる。こうしたわが国における政府統計データの提供形態に関する概略図を,図2で示す。
他方,オンデマンド型の集計機能サービスについても,その実用化に向けた議論が展開されているが,これに関しては,データキューブ(超高次元クロス集計表8))といった保管用データの構築可能性およびオンデマンドで作成された集計表の秘匿性に関する検討が必要であると思われる。
なお,個票データについては,先述の第II期「公的統計の整備に関する基本的な計画」において,調査票情報の提供におけるリモートアクセスを含むオンサイト利用やプログラム送付型集計・分析の実現に向けた整理・検討が明記された。こうしたことから,わが国でも,諸外国で広範に展開されているオンサイト施設による個票データの利用と,リモートアクセスによる個票データの提供サービスの可能性について,現在検討が進められている。
政府統計データにおいては,学術研究目的のためにデータシェアリングが進められてきた。その意味では,政府統計のデータシェアリングは,公共の利益(あるいは社会的な利益)に資することを目指してきたといえる。また,データシェアリングにおいては,利用者のニーズに合わせた形でのデータ提供が行われてきた。したがって,特定の利用者に限定したデータのシェアリング(オンサイト施設やリモートアクセスによる利用等)とオープンな形で利用可能なデータ(オープンデータ,public use file等)に関するシェアリングとは,明確に区別されているということができる。今後も,そのような方向で,利用者のニーズを踏まえた形で,政府統計データに関するさまざまな提供形態が検討されると考えられる。
最後に,わが国において政府統計のデータシェアリングを展開するうえで,以下の課題を指摘することで結びとしたい。
第1の課題は,異種の統計調査の個票データにおけるデータリンケージの可能性の追究についてである。わが国の統計調査は,主に,世帯・人口系の統計調査と事業所・企業系の統計調査に類別できるが,一方では個人や世帯,他方では企業や事業所が調査対象であることから,世帯・人口系の個票データと事業所・企業系の個票データのリンケージは極めて困難である。世帯・人口系のデータ同士のリンケージについても,リンケージの対象となる統計調査の個票データにおいて共通の直接的な識別子が存在しなければ,データリンケージは容易でないのが現状である。将来的には,政府統計データと行政記録データのリンケージや,行政記録データ同士のリンケージの可能性も考えられるが,リンケージを行うための識別子(名前,住所,個体識別番号等)をどういった形で保管するかは,今後の検討課題だといえる。
第2の課題は,オープンデータとしての統計の公表可能性についてである。公表された政府統計の統計表は,一般的に基本的と考えられる調査項目をクロスさせた集計表であり,低次元の集計表として調査票情報から作成される9)。統計技術的にみれば,こういった公表された統計表は,その秘匿性を確保するために,統計表の集計事項の数と種類と分類区分,さらには,セルに含まれる結果数値(度数,平均値,比率,重みつきの度数等)の制約を受けている。このことから,公表可能な統計表を作成するための汎用的な秘匿性の基準を示すのは困難である。他方で,統計法制度的な観点からみれば,わが国では,統計表の作成・公表の過程で,統計委員会といった第三者機関において,公表される統計表の秘匿性に関する審査は行われていない。そのため,統計作成部局の責任の下で,個体情報の特定化が事実上極めて困難な形で,統計表が公表されている10)。こうした点を踏まえると,政府統計がオープンデータという形で展開していくうえでは,データ特性を考慮しつつ,政府統計データの公表可能性に関する議論が今後必要になると思われる。
第3の課題は,いわゆるビッグデータの観点からみた政府統計の利用可能性である。現行のガイドラインの下で政府統計の個票データの利用申請を行う場合,実証分析を行ううえで最低限必要な調査事項(変数)のみの利用が想定されている。一方,ビッグデータという形で政府統計ミクロデータを利用するのであれば,ミクロデータに含まれる変数群の探索的な利用も含まれているように思われる。したがって,ビッグデータとして政府統計データを位置付けようとすれば,オンサイト施設における事後チェック型調査票情報利用方式11)の検討等,統計法制度における探索的な実証研究のさらなる可能性についての議論が必要かと考える。
第4の課題は,メタデータの整備についてである。諸外国では,匿名化ミクロデータの提供において,統計作成部局やデータアーカイブ機関が,対象となる統計調査の特徴や,符号表(レイアウト)や匿名化の対象になった変数に関するデータの分布特性等を,メタデータとして広範にわたって公開している。わが国の政府統計データについても,メタデータの標準化も含めた形で,メタデータに関するさらなる整備が求められよう。
福岡県出身。九州大学大学院経済学府博士後期課程単位修得退学。博士(経済学)。2007年明海大学経済学部専任講師。その後,同准教授を経て,2014年4月より中央大学経済学部准教授に就任し,現在に至る。内閣官房IT総合戦略本部「パーソナルデータに関する検討会」技術検討ワーキンググループ構成員,内閣府統計委員会専門委員,国立研究開発法人科学技術振興機構「データシェアリングを利用した科学技術」に関する勉強会アドバイザー等を歴任。