2016 Volume 58 Issue 11 Pages 828-835
ビッグデータの発展により,個人に関する情報が大量に集積・利用できるようになった。新たな利活用が生まれる一方で,プライバシー侵害に関する不安も大きくなっている。科学技術分野においては,オープンサイエンスを念頭に,複数の研究機関で研究データのシェアリングが期待されているが,そのデータにパーソナルデータが含まれる場合は,法制度およびプライバシー上の配慮が必要となる。本稿ではパーソナルデータがシェアリング対象に含まれる場合の留意点を解説するとともに,個人情報保護法の改正の動向についてまとめる。
ビッグデータがブームになった結果,データが生み出す価値に注目が集まっている。ダボス会議で有名な世界経済フォーラムがまとめたレポート「パーソナルデータ:新たな資産カテゴリーの出現」(2011年1月)1)では,「パーソナルデータは新しいオイル,つまり21世紀の価値ある石油」と指摘し注1),ビッグデータの発展とともにパーソナルデータを活用した利便性の高い新たなサービスが誕生する可能性が高くなると予見している。
一方でパーソナルデータは個人に関する情報であり,その利用によっては個人本人の権利利益の侵害も起こりうる。特にビッグデータにより,個人に関する情報が大量に集積・利用されることによって,プライバシー侵害に関する不安も大きくなっている。国内でパーソナルデータの保護を扱うのは2003年に成立した個人情報保護法(以降,現行法)注2)となるが,その後のITの進歩などに鑑み,個人情報保護法の改正作業が進み注3),2015年に個人情報保護法の改正(以降,改正法)が国会で成立した。本稿は科学技術分野を中心にパーソナルデータの動向に加えて,改正法がデータシェアリングに与える影響について概説する。
ビッグデータはさまざまな目的に利用されるが,最有力な用途の1つはマーケティングである2)。従来のマーケティングは均質なマス市場を前提に,その中で典型的な消費者を少数サンプリングして,消費者の関心や行動を分析していた。しかし,消費者は多様化が進んでいる。また消費者と企業の関係も変わってきている。インターネット普及以前と違い,消費者は企業の宣伝よりも,インターネット上の他の消費者の言動を重視する。たとえば家電製品を購入するとき,メーカーのカタログや店員の説明よりも,その製品をすでに買っている人がインターネット上に書き込んだ口コミを重視する。この結果,消費者の関心・購買行動を把握するには,消費者一人ひとりのパーソナルデータ,特に関心や購買行動を調べる必要がある。
また,Amazonに代表されるように,ネット通販では,他の顧客の行動を販売促進に積極的に利用する。たとえば,ある商品に関心をもつ人に対して,その商品を購入または関心をもつ別の消費者の購入商品を紹介する。これも各消費者の購買履歴を記録して,それを利用することから,大量のパーソナルデータに対する分析が必須となる。マーケティングを中心とする,大量のパーソナルデータの蓄積・利活用に対する要求が,今のビッグデータを生み出した背景の1つとなっている。しかし,同時に詳細なパーソナルデータの蓄積・分析はプライバシー侵害を含む新たな問題を生み出しうる。
さてパーソナルデータとは個人にかかわる情報全般となるが,3種類に分けることができる3)。
①個人が主体的に提供した(provided)データ
②観測された(observed)データ
③推論された(inferred)データ
このうち,①はユーザー登録などが相当して,個人本人も提供したことがわかる。②はカメラやセンサーなどが対象になり,大量のデータを生み出すことになる。また,位置情報や購買履歴,Webサイトの閲覧履歴なども本人は主体的に関与していない場合が多いことから,観測されたデータとして区分されるかもしれない。
個人の権利利益の観点からみたとき,②のデータの問題は,そのデータの取得に個人本人が気付いているとは限らないことである。③はプロファイルとも呼ばれ,個人にかかわる断片的な情報と他の情報を組み合わせ,その個人の行動や特性などを推定したデータである。ビッグデータにおけるデータ利活用では③は大きな位置を占めるが,③のデータについては個人本人がその存在を知らないことが多いという問題がある。さらに推定が常に正しいとは限らず,間違った推定により個人の権利利益の侵害が起こりうる。しかし,推定データの存在を知らなければ,その間違った推定がされていることにも気付く可能性は低い。
データシェアリングとパーソナルデータに関する議論の前に用語の整理をしておきたい。個人情報は,パーソナルデータの中でも,個人が誰なのかがわかりうる情報となる。現行法の定義によると,
①生存する個人に関する情報であり
②当該情報に含まれる氏名,生年月日その他の記述などにより,特定の個人を識別することができるものをいう(「識別性」)
③他の情報と容易に照合することができ,それにより特定の個人を容易に識別できる情報も含まれる(「容易照合性」)
行政機関や独立行政法人においては,③は「他の情報と照合することができ,それにより特定の個人を容易に識別できる情報も含まれる」に書き換えられている(つまり「容易に」がないことから,個人が特定されうる情報は,個人情報になることに注意)。なお,名前がわかることは個人情報の要件ではなく,仮に名前がわからなくても,個人を特定できれば個人情報となることに注意されたい。現行法では個人情報を第三者に提供する場合や,取得時とは違う目的で利用する場合は,個人本人の同意を取ることが原則となる。
なお,パーソナルデータが個人情報であるか否かは情報の種類により決められるわけではない。たとえば電子メールアドレスの場合,「個人名@組織のドメイン名」の組み合わせであれば,メールアドレスから個人を特定できるので,個人情報となるが,「ランダムな番号@フリーメール」などはメールアドレス自体から個人を特定できないので,個人情報として扱われることはないだろう。同様に個人の位置情報もすべて個人情報とはいえないとしても,深夜の位置情報は自宅住所となることが多く,個人情報として扱うことが適切となる。
プライバシー情報とは,個人の私生活の事柄などみだりに公開されるべきではない情報である。ただし,プライバシー情報には明確な定義がない。個人本人がプライバシー情報だと思えばプライバシー情報となる。また,同じ個人でも状況によってプライバシー情報の範囲が変わることがある。プライバシーの侵害も,侵害された個人本人でなければ侵害の程度はわからない。このため,プライバシーそのものを守る法律は立法が難しく,日本ではプライバシーを直接守る法制度はない注4)。
そこで,プライバシー情報ではなく,定義が比較的に明確な個人情報を保護対象とすることにより,間接的にプライバシーを保護している。しかし,個人情報でも本人がプライバシー情報と思わないケースや,逆に個人情報でなくても本人がプライバシー情報だと思う場合もあり,個人情報とプライバシー情報が一致しているわけではない。このため,個人情報を対象とする法制度を遵守(じゅんしゅ)することに加えて,プライバシーの観点からも,パーソナルデータとして取り扱いが適切かは常に見直すべきである。
パーソナルデータを扱う分野は,医療や,アンケート調査などを行う一部の社会学や教育学など少なかったが,最近,多様な分野がパーソナルデータを取得・利用するようになっている。さらにビデオ画像やセンサーによる行動分析など,従来はなかった新しい技術を利用し,さらにソーシャルネットワークなどの新しいデータ形式も増えている。
科学技術分野では,研究データを複数の研究機関で共有(シェアリング)することを前提にしたオープンサイエンスが注目されている。しかし,シェアリングされるデータの中にパーソナルデータ,特に個人情報が含まれる場合は,ある研究機関Aで取得した個人情報を,別の研究機関Bでも利用することになる。科学技術分野のデータシェアリングを法律的な観点から整理すると,研究機関Aの監督の下,研究機関Bは当該個人情報を利用したその結果を研究機関Aのみに渡し,さらに内部利用がなければ,研究機関Aから研究機関Bへの委託業務として整理することはできる。
しかし,一般にデータシェアリングは,研究機関Aが取得した情報を,研究機関Bがそれ自身の研究のために利用したり第三者へ提供したりする場合は,研究機関Aから研究機関Bへの個人情報の第三者提供として整理されるべきだろう。その結果,研究機関Aは特定または不特定の研究機関に渡すことに関して,事前に個人本人の同意を取得するか,オプトアウトと呼ばれる手法,つまり個人本人に第三者提供を適切に通知するとともに,第三者提供後に個人本人の申し入れに従って,提供を速やかに停止する措置が必要となる。データ取得時に,第三者提供を認める規約に同意してもらう方法もあるが,その同意には提供先を明確に特定して,同意を取ることが望ましい注5)。このほか,個人情報の取得では利用目的を個人本人に提示する必要があり,それ以外の目的に利用するときは同意を取り直さなければならない注6)。
シェアリングされるパーソナルデータが個人情報でなければ現行法(および改正法)の制約は受けない。そこで個人の特定ができないように個人情報を加工すれば,個人情報ではなくなり,法制度の制約を受けずに済む。この結果,たとえば個人本人の同意なしの第三者提供や目的外利用ができる。こうした加工を匿名化(または秘匿化)と呼ぶことがある。その加工手法には,一般化,あいまい化,ノイズ付加,データ交換,疑似データ挿入,レコード削除などが知られており,図1のように複数の手法を組み合わせて加工する。
ただし,対象の情報のうち,何を加工対象にするのか,どの加工手法を組み合わせるのか,その加工はどの程度にするのかは,利活用の目的や,対象データの特性,たとえば種類や統計的なバラツキなどによって決められる。つまり,任意データを匿名化するような汎用的な方法はないことに注意されたい。たとえば年齢は個人の特定につながることがあり,10歳単位で切り捨てることがしばしば行われるが,対象者の中に90歳代の方が1人しかいなければ結局,1人に絞られてしまう。一般に,1人に絞れると外部情報との突き合わせにより,特定される可能性が高くなる。匿名化では同じ情報をもつ個人が所定人数以上いるように加工することが多い注7)。
一方で,匿名化はデータに含まれる詳細情報を減らす加工にほかならない。たとえば前述の年齢情報の加工で,91歳を90歳代に加工すれば情報の詳細性は下がる。パーソナルデータに個人の特定可能性が完全に排除されるまで加工を求めると,利活用の価値のある情報が残るとは限らない。データの特性に加えて,利用の目的に応じて匿名化を行うことで,情報の価値の減少をある程度軽減できる。しかしデータを利用する側の利用目的がわかっているとは限らないことから,匿名化済みのデータをシェアリングする場合は利活用が難しくなる。ただし,後述するように改正法ではその解決策が導入される。
パーソナルデータを含むデータシェアリングでは,個人の権利利益の保護の観点から,法制度的な制約が課せられるが,その中で先述のように個人情報保護法が改正され,その改正法はデータシェアリングにも影響が大きい。なお,改正法は成立後(2015年9月)から2年以内に施行されることから,改正法を理解し,その準備をすることは,何らかのパーソナルデータを含むデータシェアリングを行う事業者や研究機関において必須となる。さて以降では,科学技術におけるデータシェアリングにかかわる改正法の要点を説明していく。
6.1 個人情報の明確化先述の現行法の個人情報定義に加えて,政令で定める指紋や顔認識パターン等の生体情報と,パスポート番号や運転免許証番号などの識別子も個人情報として扱うことになる。科学技術のデータシェアリングで注意されたいのは「顔認識パターン」である。ここでいう顔認識パターンは,顔から個人を特定するときに用いる個人に関する特徴量であり,それ自体は顔画像に変換できるデータではないが,個人の特定につながる情報として扱われる。これにより,複数の防犯カメラなどを利用して人の移動を調べる場合,あるカメラに映った人が,別のカメラに映っているかを調べることになるが,そのとき画像から同一人物か否かを判断するときに顔認識パターンを用いる。防犯カメラの設置者と運用者が異なる場合は,設置者が運用者に顔認識パターンを受け渡すことになる。これは個人情報の第三者提供と判断される可能性がある。
また,改正法では保護すべきパーソナルデータが増える。それは「要配慮情報」と呼ぶカテゴリーであり,改正法によると「本人の人種,信条,社会的身分,病歴,犯罪の経歴,犯罪により害を被った事実その他本人に対する不当な差別,偏見その他の不利益が生じないようにその取扱いに特に配慮を要するもの」となる。要配慮情報を取得する際には情報の本人から同意を得ることが必須となり,オプトアウトによる運用はできない。また,要配慮情報の第三者提供でも本人同意が必須となり,後述する匿名加工情報の対象にはできない。要配慮情報対象は個人の権利利益の保護のために重要だが,科学技術のデータシェアリングを阻害する可能性もある。たとえば仮に要配慮情報の1つである病歴の範囲を広く取ることになると,間接的に病歴が推定できる情報も対象に含まれる可能性がある。要配慮情報はデータを利活用する立場からみると規制が増えることになるが,欧州におけるsensitive data(要配慮情報)と同等であり,海外動向に合わせたといえる。
6.2 匿名加工情報改正法では,「匿名加工情報」と呼ばれる,同意なしの第三者提供のための新しいデータ類型が導入される。匿名加工情報とは,個人の特定性を低減する情報であり,識別可能性の排除は必ずしも必要としない。具体的な加工方法は,今後,決められる政令によるが,たとえば氏名などの直接個人を特定する情報は削除し,住所は番地や町名以下を削除した情報となるであろう。一方で間接的に個人を特定するような情報,つまりその情報そのものは個人の特定はできなくても,外部情報との照合によって特定できるような情報については削除までは求められないと想像される。言い換えれば匿名加工情報は外部情報との照合によって個人の特定可能性が残っている情報となり,それを第三者に提供できるようにすることは個人情報保護の観点から問題がある。そこで匿名加工情報の取り扱いでは,提供先(および提供元)において,匿名加工情報からの個人の特定行為および加工したデータを元に戻す行為を法的に禁止することにより,個人情報を保護するという枠組みである(図2)。
たとえばある患者の医療にかかわるデータ,たとえば診療記録は,その患者の診療を行った医療機関が取得するが,研究開発ではその診療記録をその医療機関だけでなく,大学や製薬会社などの医療や医薬品に関する研究開発組織とシェアリングすることは有用とされる。しかし,現状では,患者の氏名等はもちろんのこと,診療記録に関しても,外部情報との照合により,患者を特定できる可能性はゼロではないことから,診療記録も何らかの加工が求められることになり,詳細な診療記録を研究開発では利用できないという問題があった。しかし,匿名加工情報の枠組みを利用できれば,患者の氏名や保険番号などの削除は必要だが注8),仮に外部情報との照合により,個人の特定につながる情報が診療記録に含まれていても,その診療記録をそのまま同意なしで第三者提供ができるようになる可能性が高い。
加工方法などは政令で定められるが,本稿の執筆時には,その政令の内容は明らかになっておらず,匿名加工情報の全容がわからない状況である。また,匿名加工情報は世界でも初めての試みであり,個人の権利利益の侵害が起きないのかなど,未知数の部分も残っている。後述する個人情報保護委員会と呼ぶ第三者機関が,所管省庁の協力を得ながら,提供元の事業者が適切な加工を行っているか,さらに個人の特定を行わずに利活用しているかなどを監督することになる。提供元に対しては匿名加工情報により第三者提供をする情報の公開が義務付けられるものの,個人情報保護委員会および所管省庁が,提供元および提供先の事業者の内部で行われているデータ処理を詳細に監視できるわけではないだろう。また,個人本人にかかわる匿名加工情報の提供先が必ずしもわからないことから,提供先において匿名加工情報が不正な取り扱い,つまり個人の特定が行われていたとしても,個人本人も気付くことが難しいなどの不安も残っている。
改正法は現行法に対して変更点が多いが,科学技術におけるデータシェアリングにかかわる部分を中心に列挙しておく。
冒頭で述べたように世界経済フォーラムはパーソナルデータを新しい石油に例えたが,商品として売り買いすべきものかは疑問である。特に医療はもちろん,社会学や情報学を含めて,何らかの人にかかわる科学技術において,パーソナルデータは研究開発の基盤とはいえ,単なる処理の対象というよりも,研究開発のインフラストラクチャーの1つとしてとらえるのが適切だろう。なお,オープンサイエンスに限らず,科学技術におけるデータシェアリングは研究開発を進めるうえで重要であるが,1つのデータが複数の研究機関等に共有されることは,データに伴う個人の権利侵害を広範囲に広げてしまう可能性がある。特に学術研究では,個人が学術研究機関にパーソナルデータを提供するのは,研究開発を通じて,個人本人はもちろん,社会に貢献すると考えているからである。逆にいえば,情報漏洩(ろうえい)を含めて研究機関が適切なパーソナルデータの取り扱いを怠れば,個人は学術研究を信頼しなくなる。データシェアリングの推進は,同時に研究機関の責任も大きくなることを忘れないでほしい。
国立情報学研究所・所長補佐/アーキテクチャ科学研究系教授,国立大学法人総合研究大学院大学複合科学研究科情報学専攻教授。慶應義塾大学理工学部電気工学科卒,同大学理工学研究科大学院計算機科学専攻博士課程修了,博士(工学)。内閣官房パーソナルデータに関する検討会委員/同技術ワーキンググループ主査,経済産業省産業構造審議会IT人材ワーキンググループ委員。