分散PDSと情報銀行：集めないビッグデータによる生活と産業の全体最適化

橋田 浩一

doi:10.1241/johokanri.60.251

著者抄録

サービスの価値の全体最適化を図るには，各サービス受容者のパーソナルデータを複数のサービス提供者が共有して協調する必要がある。その共有を実現するため，データの提供者と利用者以外の運用者が介在する集中方式が従来は用いられてきたが，介在者のいない分散方式の方がはるかに安全かつ安価でスケーラブルである。中でも特に安価でスケーラビリティの高い仕組みであるPLR（Personal Life Repository）について述べ，その応用および応用の可能性に触れ，さらに関連する世界の動向を概観する。

1. はじめに

サービスの内容や場所，時間の多様性ゆえに，単一のサービス提供者が各個人（サービス受容者）にあらゆるサービスを提供することは不可能である。したがって，各個人に対して多様な内容や場所，時間にわたり質の高いサービスを提供するには，複数のサービス提供者が当該サービス受容者に関するデータを共有する必要がある。実際，ヘルスケアや観光，教育，小売りなどさまざまなサービスの領域において，各個人のデータを複数の事業者や家族が共有することにより，サービスの質が向上することが多い。たとえば，ある医療機関の診療録を旅先や転居先の医療機関で見てもらえれば，治療の安全性と効果が高まるだろう。また，傷病やその重症度に応じて専門性の高い医療機関にかかるのが望ましく，その場合も複数の医療機関の間で患者のデータを共有すべきである。

2. 集中型と分散型のデータ共有

2.1 集中型データ共有

多くのパーソナルデータを複数のサービス提供者が共有するため，これまでは図1のように全員のパーソナルデータの共有を集中的（centralized）に運用する仕組みが使われてきた。その仕組みとしては，多くのパーソナルデータを集約したデータベースによる方法と，ID連携による方法がある。

たとえば従来のEHR（Electronic Health Record：医療データを医療機関の間で共有するサービス）では，EHR事業者が多数の医療機関等の間での多数の患者に関するデータの流れを集中的に運用しており，「Microsoft HealthVault」や「どこでもMY病院」のようなPHR（Personal Health Record：個人が自分の医療・健康データを集約して活用する仕組み）においても，多くの個人に関するパーソナルデータの共有を特定のPHR事業者が集中的に運用していた。

しかし図1に示すとおり，この集中方式は，集中データベースやID連携のサーバーを運営するためのコストを要する。しかも，共有の対象である全データにアクセス可能な運用者が存在するので，その運用者が悪意を抱いたり運用の手段を奪われたりすると，集中運用ゆえに全データが漏えいする恐れがある。すなわち集中方式は，特定の運用者から大量のデータすべてが漏えいするリスクを，コストをかけてわざわざ作り出している。

また，図1の左下に示すように，集中型の仕組みは他にも現れる（たとえば集中型のEHRが1つの地域に複数ある）ことが多いが，複数の集中運用の仕組みでセキュリティーポリシー等が異なると，それらが直接的にデータを共有するのは技術的に難しい。さらに集中運用をする事業者はしばしば競合するので，直接的なデータ共有はなおさら困難である。ゆえに集中方式はデータ共有の一般解を与えない。

図1 集中型のデータ共有

2.2 分散型データ共有

一方，図2のように，データ共有の本来の当事者であるデータの開示元（データ主体）と開示先（データの利用者）以外にデータにアクセスできる第三者が存在しない方式でデータ共有をすれば，2章1節のような漏えいのリスクは生じない。これを「分散（decentralized）方式」と呼ぼう。

集中方式における全データの運用者を除けば，各個人および各事業者がアクセスできるデータの範囲はデータ共有が集中方式でも分散方式でも同じであり，ゆえに個人と事業者からデータが漏えいするリスクの程度も等しい。つまり，データ漏えいリスクに関する集中方式と分散方式の差は，集中方式においては集中運用の仕組みから全個人のデータが漏えいしえるという一点に尽きる。多くの場合，その仕組みで集中運用するデータの量（たとえば100万人分）は個別の事業者が運用するデータの量（たとえば1万人分）よりはるかに大きい。ゆえに安全性における，集中方式に対する分散方式の優位性は非常に大きく，リスク管理にかかるコストは極めて小さい。

分散方式においては，各データ共有におけるデータの開示元または開示先がデータ主体本人であるのが原則だが，実際には開示元も開示先も本人ではないことがありえる。特に，幼児や高齢者が自分のデータを運用できない場合は，家族や後見人が本人の代理でそのデータを運用せざるをえず，データの開示先も開示元も本人ではなく代理人または第三者である。また，1人の代理人が複数の個人のデータを運用することもありえるが，その人数が小さければ全体としてデータ漏えいのリスクも小さいので，そのような場合も分散型データ共有と考えよう。たとえば各代理人が運用するデータが数十人分程度以下ならば，従来のEHR等に比べれば非常に分散的であり安全かつ安価だろう。

なお，開示元，開示先ともに本人でも代理人でもない第三者であるようなデータ共有を「データの第三者提供」という。この場合，本人のデータを本人または代理人に集約し，本人または代理人から他者にデータを提供することで，分散方式による任意のデータ共有ができるので，第三者提供は不要である。また開示元と開示先の事業者間でセキュリティーポリシーが異なっていると，第三者提供は技術的に困難であり，本人か代理人を介して間接的に共有する方が容易と考えられる。

前述のように，集中型のデータ共有サービスが複数ある場合に，それらのセキュリティーポリシー等が異なったり，それらを運用する事業者同士が競合関係にあったりすると，データ共有サービス同士でのデータ共有が困難である。この困難は，特定の事業者に依存しない分散型データ共有によって解消できる。すなわち，個人（または本人と利害を共有する代理人）が特定の事業者に依存せずに本人のデータを運用しているならば，本人同意に基づいてどの事業者とも容易にデータ共有ができる。

こうして，競合する事業者の間でも顧客を経由して間接的にデータ共有ができる可能性が高い。その際，各事業者におけるセキュリティーポリシーがいかなるものであれ，本人または代理人から本人のデータを取得する場合も，本人のデータを本人または代理人に提供する場合も，支障はないはずである。このように，本人または代理人によるデータの管理・運用を経由することによって，競合するかもしれない複数の事業者間の間接的なデータ共有が二重の意味で容易になる。

さらに，図3に示すとおり，パーソナルデータを本人（または本人と利害を共有する代理人）が管理していれば，そのデータを本人の同意に基づいて収集するのも簡単である。データを収集・分析したい者は，分析しないかもしれないデータを収集・保管する必要がなく，必要が生じたときにデータを収集し，分析が終わったら結果を残してデータを消去することにより，管理コストと漏えいリスクを最小化することができる。たとえば疫学調査や治験でも10万人以上のデータを分析することはまれであり，たいていは1,000人程度以下のデータで足りる。10万人のデータを常持集約して保管しておくのは無駄であり，コストとリスクをいたずらに高めてしまう。

図2 分散型のデータ共有

図3 分散方式のデータ共有によるビッグデータの活用

3. PDS

各個人（または代理人）が本人の意思に基づいてデータを運用（他者と共有して活用）するための技術的な仕組みを，「PDS（Personal Data Store）」^1）という。PDSには，データ共有の仕組み（図4に示すように，この仕組みを仮に「共有サーバー」と呼ぶ）がデータ処理の主な部分を担うサーバー主導と，データの開示元・開示先の端末（個人端末と事業者のコンピューター）がデータ処理の主な部分を担う端末主導の2種類がある。これらを表1に示す。

図4 PDSシステム

表1 PDSシステムの分類

3.1 自律PDSと代行PDS（情報銀行）

個人が本人のデータを自ら運用するPDSの用法を「自律PDS（autonomous PDS）」，本人のデータの運用を代理人が代行するPDSの用法を「代行PDS（surrogate PDS）」と呼ぶことにしよう。

図5に示すように，自律PDSはサービス事業者から本人のデータを取得し，代行PDSはサービス事業者および他のPDSから本人のデータを取得する。いずれのPDSもデータ利活用事業者にデータを提供することができる。

代行PDSを組織化したものが「情報銀行（information bank）」^2）と考えられる。つまり，代行PDSの運用者である代理人は，本人の家族や後見人，あるいは本人がデータを預託する情報銀行の行員である。

図5 自律PDSと代行PDS（情報銀行）

3.2 分散PDSと集中PDS

1人の代理人が最大N人の個人のデータを運用するとしよう。Nが十分小さければ，代理人が本人の意思に正確に従ってデータを運用できるだろう。これは分散方式のデータ共有と考えられるので，自律PDSおよび少人数分の代行PDSとしてのPDSの用法を「分散PDS（decentralized PDS）」と呼ぼう。

一方，Nが既存の事業者の顧客の人数以上の場合には，集中方式のデータ共有に当たると考えられるので，そのようなPDSの用法を「集中PDS（centralized PDS）」と呼ぶ。表1のどのPDSも，分散PDSとしても集中PDSとしても運用可能である。集中PDSではデータ漏えいリスクおよびそれに伴う管理コストが高くなりえるので，何らかの対策が必要であることはいうまでもない。

4. PLR

PLR（Personal Life Repository）^3）^～^10）は端末主導のPDSの一種である（表1）。図6に示すように，個人（または代理人）が本人のデータを個人端末のアプリで運用し，共有サーバー（PLRクラウド：全世界のオンラインストレージの組み合わせ）経由で他者（他の個人や事業者）とデータを共有できる。また，図6の左下に示すように，事業者もPLR（特にJava版）を用いて従業員や顧客のPLRとつながり，彼らのパーソナルデータを本人同意に基づいて取得することによってサービスを提供できる。

図6 PLR（Personal Life Repository）

4.1 PLRは安価で運用が簡単

PLRは専用の共有サーバーを必要とせず，GoogleドライブやDropbox等の基本無料のオンラインストレージをそのままPLRクラウドとして使える。ゆえにPLRの保守コストは利用者数に依存せず，アプリの保守費用のみである。もちろん，多くの人々のデータを検索や分析にかけるには，そのデータを専用のコンピューターに集約する必要があり，その仕組みを運用するためのコストがかかるが，それは同様の仕組みの従来の運用コストを超えない。

たとえばこれまでのEHRやPHRでは，患者のデータを複数の事業者等が共有する際，患者本人にデータ共有の範囲や目的を説明し納得を得た後，本人の同意書を取得。それに基づいてEHR等の運営事業者がサーバーに本人を登録し，データ共有を設定していた。これに対してPLR等のPDSに基づくEHRやPHRでは，本人が納得した後のPDSアカウントの作成や同意書の生成・共有，データ共有の設定を本人（または家族等の代理人）の操作に委ねられることが多いので，事業者側の運用が楽になる。

もちろん，それらの操作を事業者等の他者が代行できる。その場合，本人は同意するだけで特別なことは何もしないという運用が可能である。たとえば図7の年配女性の医療データを病院と診療所の間で共有するには，代理人が本人の同意に基づき，本人のPLRアカウントを作って病院および診療所とのデータ共有を設定すればよい。このような代行を事業者が行う場合は従来のEHRと同様の運用だが，電子的な同意書の生成・共有がPLRにより自動化できるので，運用の手間は小さくなる。

図7 PLRの利用は簡単

4.2 PLRは安全

PLRのセキュリティー対策は，データ共有が分散方式であることに加えて，多要素認証（本人確認のための証拠（パスワードや指紋など）を複数要請する認証の方法），DRM（Digital Rights Management：デジタル権利管理），およびデータ共有先のチェックも含んでいる。

多要素認証は，さしあたりPLRのパスワード認証とオンラインストレージの認証からなるが，これにマイナンバーカードによる公的個人認証等を加えることも可能である。PLRのパスワードを管理するのは原則として利用者本人のみだが，もちろんその支援（本人がパスワードを忘れた場合に教えてもらうなど）を他者に委託することも可能であり，その場合は従来と同様に利用者自身および特定の他者がアカウントを管理していることになる。

オンラインストレージの認証や公的個人認証については，利用者および対応する各事業者がそのアカウントを管理し，利用者がパスワードを忘れたら事業者がパスワードを再発行してくれる。ここで重要なのは，多要素認証の諸要素の本人以外の管理者が別々であるという点が，従来の通常の多要素認証と異なることである。これにより多要素認証を通過できるのは本人のみとなるので，PLRはセキュリティーが高い。

PLRのDRMは，PLRクラウドにおいても端末においても暗号化等によってパーソナルデータを秘匿化し，かつPLRのアプリは平文のデータをファイルに書き出したり外部に送信したりする機能がない。これにより，利用者が間違えたりだまされたりしても，まとまった量の平文データが一挙に漏れることは生じえない。また，たとえパスワード等が漏れたとしても，アプリが偽造されない限りは大量の平文データの漏えいは生じない。

DRMはこれまでほとんどの場合，映画や電子書籍等のコンテンツ提供者により，利用者（視聴者や読者）に対し，そのコンテンツ利用を制限する（追加料金を払わないと1週間後には見られなくするとか，コピーは3回までしか許さないなど）ために用いられてきた。そのため，利用者は不自由を強いられるうえにDRMの運用コストを上乗せされた利用料金を負担させられていた。つまり，従来のDRMは利用者の利益に反しており，ゆえにその社会受容性は非常に低かった。

これに対しPLRにおけるDRMは，利用者自身の過失や，他者の悪意によるデータの漏えいや不正使用を防止するものであり，利用者の利益にかなう場合が多い。特に図6左下のように，PLRによって多数の個人のデータにアクセスする事業者にとって，そのデータの漏えいをDRMにより安価かつ確実に防ぐことができればメリットが大きい。そのためには，事業者のコンピューターのOSが，PLRのデータにアクセスするアプリの署名を検証して不正なアプリを排除すればよい。まとまったデータを取得するには不正なOSをインストールすることによって不正なアプリを動かす必要があるが，OSをこっそりインストールするのは通常の管理体制の下では不可能だろう。また，PLRの個人利用者にとっても，自分がミスを犯したり悪人にだまされたりしても，まとまった量のデータが漏えいしないということは，利用者自身に悪意がない限り望ましい。

ただしPLRの個人利用者が，PLRで開示された他者からのデータを平文で取り出して悪用することは，不正なアプリを使えば技術的には可能である。したがって，上記のようなDRMでは個人の悪事を防ぎ切れない。しかし，このようなデータの不正使用のみならず，暗号等による秘匿化を無断で解くのも違法だから，DRMは不正を抑止する効果が高い。

5. パーソナルデータの流通と活用

日本では2016年からマイナンバーが運用され，2016年末には官民データ活用推進基本法^注1）が国会で可決・施行された。2017年にはマイナポータルの運用が始まる。その数年のうちには，納税や健康診断，母子保健，国民健康保険（国保）の医療データなど，公共機関がもつパーソナルデータがマイナポータルを通じて本人に開示されるものと期待される。さらに，2025年までの予定で進みつつある医療制度改革により，医療機関や介護施設が患者や被介護者のデータを共有せねばならなくなり，それがPLR等のPDSの普及を促す可能性が高い。また，すでに大手の銀行がAPI（Application Programming Interface）を公開しているが，2018年には銀行法の改正等によりそれが加速されそうである。銀行のみならず他の企業や公共機関のサービスがオープンAPI化されPDSによって相互連携すれば，さまざまなサービスのコストが大幅に低下するとともに質が向上するだろう。

5.1 ヘルスケア

PLRはすでに介護の現場で実運用されている。PLRに基づく介護記録アプリが山梨県と鳥取県で合計70余名の高齢者の記録を作成するのに用いられており，そのうち2名については図8のように介護記録のデータを家族が本人の代理で管理している。これは70名程度という小規模な運用であるが，PLRは基本的に分散システムなので，70名に対して運用できるということは，そのまま何十億人に対しても運用できるということを技術的に意味する。

PLRはいくつかのヘルスケア関連の研究開発プロジェクトで用いられている。たとえば，AMED（Japan Agency for Medical Research and Development：国立研究開発法人日本医療研究開発機構）の「臨床および臨床研究のための分散PDSの応用に関する研究」プロジェクト^注2）では，2016年度中にいくつかのEHRとPLRとのデータ連携をすでに実現しており，2017～2018年にはEHR等のサーバーを使わずに，医療機関等と個人がPLRで直接データ共有できるようにする予定である（図9）。これらのプロジェクトは，終了後にそのまま実運用に移行することが期待される。

図8 PLR介護記録アプリの運用

図9 事業者の間の連携を個人がPLRで仲介

5.2 マーケティング

また，銀行のAPIが公開されれば，図10のように買い物客がそのAPIをPLRのアプリで操作して決済することができる。スマホで商品のバーコードをスキャンして，店舗の商材データベースからその商品の当日の価格を取得して手元でPOSデータを生成し，その金額分の電子手形を銀行のAPIから取得し，POSデータとともに店舗と共有すれば，レジに立ち寄らずに決済ができる。買い物客にとって，銀行のアカウントの情報をPLRで管理する方が，決済代行事業者等に預けるより安全かつ安価である。銀行は，POSデータ等を買い物客の本人同意に基づいて収集し，地域の商流を分析することにより，融資先の評価や経営指導に用いることができる。店舗がスマホのアプリを導入するだけでこの決済に対応でき，また顧客とオンラインでつながることにより，ポイントの付与やクーポンの配布などの電子的なマーケティングが簡単にできるようになる。

また，このようにして個人の手元にPOSデータが蓄積されると，図11のような購買支援が可能になる。POSデータと他のパーソナルデータを合わせた個人のニーズのデータと，企業が提供する商材のデータとをマッチングすることにより，個人にはおのおのに適した商材を推薦し，企業にはおのおのの商材に関する市場による評価の情報を販売するわけである。

このようなマッチングにより，ニーズとシーズ，消費と生産，生活と業務の間での知識循環と絶え間ない知識創造を促す仕組みを「メディエーター」と呼ぶ。図11左端の「企業」には医療機関や介護施設，自治体，個人事業主などさまざまなサービス提供者を含めてもよい。マッチングには何らかのAIが必要だが，生活や産業の全体最適化を促進するという意味で，これが最も重要なAIの利用法だろう。

図10 買い物客のスマホをPOSレジとして使う

図11 購買支援メディエーター

5.3 インドのオープンAPIとPDS

インドでは国内のキャッシュフローの約85％を占めていた高額紙幣を2016年すでに廃止しており，さらに今後2年間で現金を完全になくし決済等をすべて電子化する計画であること，さらに虹彩と指紋による公的個人認証システムAadhaarにもう11億人が登録済みであり，電子決済に必要な銀行口座を簡単に作れる状態であることが報道されている。しかしこれはIndiaStack^11）という国家プロジェクトのほんの一部にすぎない。その全体像は，電子決済等のために銀行のAPIをオープン化するだけでなく，他の民間のサービスや政府のサービスもオープンAPI化し，さらにはConsent Layerと呼ばれる国営のPDSを構築することにより，国民がそれらのサービスを利用する際に，本人の同意に基づきパーソナルデータを活用して自由にサービスを連携させられるようにするというものである。

極めて大胆なプロジェクトだが，実現の可能性は十分にありえる。同様のことを考えている発展途上国はインドだけではあるまい。欧米や日本ではITインフラが中途半端に構築されており，それにぶら下がる既得権者が多いため，このような改革にはかえって時間がかかるだろう。まだ多くの店舗が電子化されていない発展途上国の方が図10のような決済の方法も普及しやすいと考えられる。インド等の現在の発展途上国が，いわゆる先進国を5～10年後には1人当たりのGDPにおいて抜き去り，南北問題の意味が逆転したとしてもさほど驚くには当たらない。

2017年4月の時点では上記のConsent Layerの開発はまだ始まっていないようである。Consent Layerの実装のためopenPDS^12）を採用する可能性が検討されたらしい^13）が，openPDSは運用コストが高いため，12億人分を運用するのは非現実的だろう。そのような大規模な運用が安価かつ安全にできるPDSは現在のところPLRだけと考えられる。

6. おわりに

パーソナルデータを本人が運用するためのツールであるPDS，および特に安全かつ安価でスケーラビリティーの高いPDSであるPLRについて論じ，PLRのユースケースについて紹介した。まとめとして，従来のEHRやSNSのような集中方式のデータ共有の仕組みによってできることのうち，なすべきことがすべてPLRでできることを再確認しておく。すなわち，集中方式のデータ共有によってできてPLRによってできないのは，共有の対象であるすべてのデータに単一の運用者がアクセスすることのみであるが，それは本来なすべきデータ共有の範囲を超えており，大規模なデータ漏えいのリスクを生む。ゆえにPLRは，従来の方式の望ましい機能をすべて備え，しかもはるかに安価で安全でスケーラブルなデータ共有を実現する。

執筆者略歴

橋田浩一（はしだこういち）　hasida.koiti@i.u-tokyo.ac.jp

1981年東京大学理学部情報科学科卒業。1986年同大学院理学系研究科博士課程修了。理学博士。1986年電子技術総合研究所入所。1988年から1992年まで財団法人新世代コンピュータ技術開発機構に出向。2001年から2013年まで国立研究開発法人産業技術総合研究所。2013年から東京大学大学院情報理工学系研究科教授。専門は自然言語処理，AI，認知科学。現在の主な研究テーマはパーソナルデータの分散的運用と意味的構造化，およびそれに基づくソーシャルeサイエンス。

本文の注

注1) 官民データ活用推進基本法について：http://www.kantei.go.jp/jp/singi/it2/senmon_bunka/detakatsuyokiban/dai2/siryou1.pdf

注2) 臨床および臨床研究のための分散PDSの応用に関する研究：http://www.sict.i.u-tokyo.ac.jp/news/amed_20161001_hasida.pdf

参考文献

1) Bell, Gordon. A personal digital store. Communications of the ACM. 2011, vol. 44, iss. 1, p. 86-91.
2) “情報銀行とは”. インフォメーションバンクコンソーシアム. http://www.information-bank.net/, (accessed 2017-04-11).
3) 青木孝裕, 秋山智宏, 飯山裕, 伊藤直之, 小熊康之, 織田朝美, 加藤綾子, 木虎直樹, 黒木信彦, 佐古和恵, 竹之内隆夫, 中川裕志, 橋田浩一, 藤井絵美子, 松山錬, 宮田智博, 安松健. “個人情報を本人が管理するPDSシステムモデル：「集めないビッグデータコンソーシアム」における検討報告”. 岩手, 2015-07-08/10, マルチメディア，分散，協調とモバイル（DICOMO2015）. 2015, p. 249-255.
4) 集めないビッグデータコンソーシアム. “平成27年度集めないビッグデータコンソーシアム成果報告書：パーソナルデータエコシステムの実現”. 東京大学産学協創推進本部. https://www.ducr.u-tokyo.ac.jp/content/400060390.pdf, (accessed 2017-04-11).
5) Hasida, Koiti. "Personal life repository: Distributed PDS for data-driven improvement of your welfare". AAAI Spring Symposium 2013. California, 2013-03-25/27. 2013 （招待講演）.
6) 橋田浩一. 分散PDSによる個人データの自己管理. 人工知能学会誌. 2013, vol. 28, no. 6, p. 872-878.
7) 橋田浩一. 分散PDSと集めないビッグデータ. 人工知能学会誌. 2014, vol. 29, no. 6, p. 614-621.
8) 橋田浩一. パーソナルデータとAI. OKIテクニカルレビュー. 2016, vol. 83, no. 2, p.4-9.
9) “2015年度プロジェクト最終報告 IoT時代におけるプライバシーとイノベーションの両立”. 産業競争力懇談会. http://www.cocn.jp/thema84-L.pdf, (accessed 2017-04-11).
10) “2016年度プロジェクト最終報告 IoT時代のプライバシーとイノベーションの両立”. 産業競争力懇談会. http://www.cocn.jp/thema95-L2.pdf, (accessed 2017-04-11).
11) "What is India Stack?". IndiaStack. https://indiastack.org/about/, (accessed 2017-04-11).
12) de Montjoye, Yves-Alexandre; Shmueli, Erez; Wang, Samuel S.; Pentland , Alex Sandy. OpenPDS: Protecting the privacy of metadata through SafeAnswers. PLOS ONE. 2014, vol. 9, no. 7. e98790. https://doi.org/10.1371/journal.pone.0098790, (accessed 2017-04-11).
13) "Big Data in India: Benefits, harms, and human rights-workshop report". The Centre for Internet & Society. http://cis-india.org/internet-governance/big-data-in-india-benefits-harms-and-human-rights-a-report, (accessed 2017-04-11).

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）