Journal of Information Processing and Management
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
Big data 2.0 developed by SNS and IoT (Internet of Things)
Norio MURAKAMI
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2013 Volume 56 Issue 2 Pages 71-77

Details
著者抄録

ビッグデータと呼ばれているものには,3つの段階がある。まず,従来の統計処理の手法だけでも実現可能なビッグデータ1.0の段階。次に,従来の統計処理の手法に加えて,HadoopやCassandraといった大規模データの大規模分散処理を援用することによって実現可能なビッグデータ1.5の段階。さらに,それに加えて,ニューラルネットワークによる機械学習といった人工知能の技術を必要とするビッグデータ2.0の段階。SNSやIoTが生成する膨大なデータは,その膨大さによって,ビッグデータ1.0をビッグデータ1.5の段階へ,さらに,そのデータの非定型さによって,ビッグデータ1.5をビッグデータ2.0の段階へと,切り拓きつつある。

1. はじめに

最近,ビッグデータという言葉をよく聞く。その一例としては,アマゾンやグーグルといった,巨大なインターネット関連企業が,インターネットから収集した膨大なデータを解析して,そのビジネスに役立てているといった話のようだ。

一方で,FacebookやTwitterといった,SNS(Social Networking Service)が生み出す,膨大な非定型データが生成され始めている。具体的には,誰が何をアップしたか,それに誰が「いいね!」したか,どんなコメントをしたか,そのコメントに誰が「いいね!」したか,誰がどんなtweetをしたか,それを誰がReTweet(RT)したか,誰がどんなコメント付きでRTやQTをしたか,等々の,膨大な非定型データが生成され始めている。

また,次世代の電力網といわれるスマートグリッドは,最終的には,電気機器を中心とした「モノのインターネット」=IoT (Internet of Things)を生み出すこととなり,このIoTもまた,膨大なデータを生成し始めるであろうと予想されている。

この3つの動向は,ビッグデータ2.0とでも言うべき,新しい世界を切り拓きつつある。

2. スマートグリッドの隠された目的

4年前,リーマン・ショック直後に誕生したオバマ政権が,その誕生と共に打ち出した経済再興のための施策は,「グリーンニューディール」と呼ばれた。その施策のITに関わるものの1つが,「スマートグリッド」であった。その後,スマートグリッドは,少なくとも言葉としては,知らない人がいないくらいに広く世間に知れわたる言葉となった。

日本においても,経済産業省が積極的な取り組みを行い,日本は電力系統のスマート化は十分に進んでいたことから,変電所から先の配電網「コミュニティ・グリッド」に集中して,スマートグリッド化を推進しようとしてきている。そして,スマートグリッドに支えられるコミュニティは,「スマートコミュニティ」と呼ばれ,経産省主導のもとに,4つの実証実験が進行中である。ほかにも,複数の自主的な実証実験が進行中である。

通常,スマートグリッドは,電力網のスマート化,つまり,新しい電力網=「賢い電力網」の構築として捉えられがちである。もちろん,それは間違いではない。しかし,最初に述べたように,オバマ政権は,スマートグリッドをITに関わる施策の1つとして位置づけたことを忘れてはならない。電力網=グリッドは,何によって,賢く=スマートになるのか。それは,電力網に今後寄り添うことになる情報網によってである。そして,この場合,電力網に寄り添う情報網としては,インターネットが想定されているのである。

さて,遠からず実現することになるスマートグリッドが行き渡った世界では,現在,電力網に接続している諸物=電気機器は,必然的にスマートグリッドに接続されることになる。ということは,現在,電力網に接続している諸物=電気機器は,すべからく,スマートグリッドの世界で電力網に寄り添っているインターネットに接続されることになる。すなわち,ここに,諸物のインターネット=IoTが出現してくることになるのである。このことが,オバマ政権が,スマートグリッドを,ITの施策に分類した根拠なのである。IoTを構成する諸物の中には,EV(電気自動車)やPHV(プラグインハイブリッド車)といった,電力網に接続してくる次世代自動車も含まれることを指摘しておこう。

つまり,なるほど,スマートグリッドは「電力網」ではあるが,それがもたらす副次的な効果,言わば隠された目的というべきものとして,IoTをしっかりと位置づけなければならない。

3. IoTを構成する諸物=スマート〇〇

スマートグリッドに接続された諸物,つまりIoTを構成する諸物は,その物の名称の前に「スマート」という形容詞を付けて,「スマート〇〇」と呼ばれる。スマートハウス,スマート家電(=スマートアプライアンス),スマートカー(=スマートビークル),等々である。

一方,PCが,その形状を変えたという意味での,スマートデバイスなる流れがある。この流れは,従来の電話がPC化したスマートフォン,TVがPC化したスマートTVという流れと,みなすこともできる。中でも,スマートTVの位置づけは複雑で,電力を多量に消費する家電品でもあり,スマート家電という位置づけもしなければならない。

スマート家電は,1年ほど前から市場に登場し始めたもので,残念ながら,LG電子・サムスン電子といった韓国勢が先行している。しかし,展開はまだ始まったばかりで,スマート冷蔵庫,スマート洗濯機,スマートオーブンといったものが登場し始めたところに過ぎない。日本勢は,数年前のエコポイント制度で,需要の先食いをしてしまったので,スマート家電を出しても大きな需要が見込めないということもあり,韓国勢の後塵を拝する形になっていたが,パナソニックが先行する形で,2012年の秋から市場投入を開始したところである。それも,直接インターネットに接続する形を取らず,スマートフォンと連携して,間接的にインターネットに接続する形をとっている。

また,日本勢は,スマート化されていない既存の家電品をスマート家電にする巧妙な仕掛けを考案した。それが,スマートソケット,あるいはスマートタップと呼ばれるものである。これは,形状的には,これまでの差込口と変わるものではないが,差込口ごとに,差し込まれた家電品の「消費電力の見える化」と「消費電力の制御」ができるソケットである。

ちなみに,スマート〇〇の持つ機能としては,「消費電力の見える化」と「消費電力の制御」が,想定されている。「消費電力の見える化」とは,スマート〇〇の消費している電力が,インターネット経由で時々刻々と測定可能・観測可能ということである。「消費電力の制御」とは,これもインターネット経由で,スマート〇〇の消費している電力を制御できるという意味であるが,少なくとも,電源のON/OFFができるということである。スマートソケットやスマートタップの「消費電力の制御」も,今はまだ,電源のON/OFFができるといった段階にとどまっている。

現在,最もスマート化の進んだスマート〇〇は,スマートハウスである。既にいくつかのハウジングメーカーから,スマートハウスが売りだされている。これらの住宅商品は,「消費電力の見える化」と「消費電力の制御」を行うHEMS(Home Energy Management System)を備えている。

HEMSは,外部のインターネット網に接続するHome Gateway機能を備えており,「消費電力の見える化」と「消費電力の制御」も電力会社とのやり取りを含む,より広域化された形で組み込むことができるようになっている。この場合,電力網の物理的な要請として,最長でも30分間隔での外部とのデータのやり取りが必要とされ,理想的には,5分間隔が望ましい。HEMSは,Home Gatewayでもあるから,家の中のスマート家電やスマートソケットとも通信を行い,それらの「消費電力の見える化」と「消費電力の制御」を直接的に実行する。言い換えると,HEMSは,最短5分毎にスマート家電やスマートソケット,車庫に駐車してあるスマートカーからのデータを収集し,必要ならば,インターネットを通じて外部に送信する。

このことからもわかるように,IoTを構成する諸物は,膨大なデータを生成することになるであろうと予想されている。

4. SNSやIoTが生み出す膨大な非定型データを解析する「ビッグデータ2.0」

インターネットから収集した膨大なデータを解析してそのビジネスに役立てているのは,アマゾンやグーグルに限ったことではない。少なくとも,インターネット上での物品販売,つまりEコマースを行っている企業ならば,規模の大小はあるにせよ,行っていることである。つまり,会員登録時に収集した個々の会員の,年齢,性別,年収,家族構成,さらにその後の購買履歴といった定型的な属性データを解析して,その会員が次にサイトを訪問したときに何を勧めれば新たな購買に結びつくかを分析することは,これまでも行われてきている。なるほど,その規模こそ従来の程度を大きく越え始めており,ビッグデータと呼ぶにふさわしいサイズのデータを扱ってきてはいるが,手法的には従来の統計処理の範囲にとどまっている。これを仮に,「ビッグデータ1.0」と呼んでおこう。

しかし,そのデータサイズが,サイズとしての特別な処理手法を必要とする段階に達し始めると,統計処理的には従来の手法であったとしても,サイズとしての特別な処理手法が,要請されてくる。なるほど,このサイズ段階になると,「アマゾンやグーグルは」といった話が,にわかに現実味を帯びてくる。グーグルの開発した,膨大なデータサイズを取り扱う特別な処理手法が,公にされている。MapReduceと呼ばれるこの超多重分散処理の手法は,オープンソフトウェアApacheの開発団体であるApache Software Foundationが,Hadoopという名前で独自に構築し,オープンソフトウェアとして公開している。また,Apache Software Foundation は,もともとFacebook社が開発した,大規模データ向けの分散データベース管理システムであるCassandraというソフトウェアを,Apache Cassandraという名前で,オープンソフトウェアとして公開している。これは,MapReduceではBigtable,HadoopではHbaseと呼ばれる部分に相当するが,いずれにせよ,この段階に達したビッグデータ処理は,言わば,「ビッグデータ1.5」とでも呼ぶべきものであろう。

さて,IoTには,各家庭の各スマート家電やスマートソケット,スマートカーが最短5分間隔で生み出す膨大なデータが流通し始める。それらは,消費者の生活パターンを反映していることが,容易に想定される。そして,従来のインターネットには,FacebookやTwitterといったSNSが生み出す膨大な非定型データが生成され,流通し始めている。

これらの解析には,MapReduce,Hadoop, Cassandraといった,単にサイズとしての特別な処理手法だけでは十分ではない。サイズとしての特別な処理手法にさらに何かが必要とされる。このさらに必要な何かが備わった段階のビッグデータを,「ビッグデータ2.0」と呼ぶことにしたい。

5. ビッグデータ1.5をビッグデータ2.0に進化させる人工知能

それでは,ビッグデータ1.5をビッグデータ2.0に進化させるのに必要な技術はなんであろうか。2012年の6月にグーグルが発表したニュースが,ヒントになる。そのニュースとは,グーグルが開発した機械学習ソフトウェアである「unsupervisedニューラルネットワーク」に膨大なYouTubeの動画をみせたところ,「これが猫ですよね」と言って猫の動画を指し示したという,聞きようによっては衝撃的なものであった。「聞きようによっては」という意味は,この機械学習ソフトウェアが,あたかも自己意識を獲得したかのようにも聞こえるからである。もちろんそのようなレベルに到達したわけではない。

ニューラルネットワークとは,人間の脳を構成している神経細胞(ニューロンと呼ばれる。人間の脳には300億ほどあると言われている)の作るネットワーク(シナプスという接合点で神経細胞同士は接合しており,人間の脳にはシナプスは100兆ほどあると言われている)を,コンピューター上に模式的に作ったものである。神経細胞とシナプスは,図1を,ニューラルネットワークは図2を参照されたい。

図1 神経細胞(ニューロン)
図2 ニューロンモデルと階層型ニューラルネットワーク

機械学習ソフトウェアであるニューラルネットワークは,図2の左側から与えられる入力に対して,右側から何がしかの判断結果を出力してくるのであるが,その出力への人間の評価によって,図2でWで表されている「結合の強さを表している重み(Weight)」を変化させて,徐々により正解に近い出力を出すように学習していくソフトウェアである。unsupervisedというのは,この「人間の評価を与えない」という意味である。ちなみに,グーグルは,この6月の衝撃的なニュースに続いて,8月に「動画から物体を認識する技術」と称する特許を申請した。

実は,このニュースに先立って,米国ホワイトハウスの科学技術政策局は,2012年3月に,「ビッグデータに関するR&Dイニシアティブ」なるものを発表し,今後総額2億ドルを越える巨費を投じてビッグデータ関連の最新技術の開発に取り組むことを表明していた。ビッグデータ関連の最新技術の開発ということになると,既に達成されているビッグデータ1.5という水準を越えて,ビッグデータ2.0を目指すということである。また,同じく米国の国防総省の研究助成機関であるDARPA(Defense Advanced Research Projects Agency)も,年間約2,500万ドルを4年間にわたってビッグデータの研究に投ずると発表した。DARPAのこれまでの主要な研究開発分野は,インターネットと人工知能であったことから見て,そのDARPAが,ビッグデータの研究を支援するとなると,人工知能を援用してとなるだろうことは,想像に難くない。

6. ビッグデータ2.0が実現する世界

ビッグデータ1.0やビッグデータ1.5が実現する世界は,そのデータ量の多寡に差があろうとも,基本的には定型的なデータの統計的な解析に基づくものである。再訪問してくれた顧客に対して勧める商品は,その顧客に関連する定型的な属性データの分析から得られたものにすぎない。

それに比して,ビッグデータ2.0が実現する世界は,その顧客の居住するスマートハウスから得られたスマート家電やスマートソケット,スマートカーからの最短5分間隔のデータの学習と解釈から得られる生活パターン,その顧客の参加しているSNSから得られるその顧客が関わった膨大な非定型データの解釈から学習されるその顧客の人物像=人となり,に基づくお勧めを提示可能な世界である。

人工知能の一分野に,自然言語処理と呼ばれる分野がある。自然言語とは,われわれ人間が日常的に会話したり,読み書きしたりしている言語のことである。実は,自然言語処理は,大きく2段階にわかれている。第一段階が,構文解析(syntactic analysis)と呼ばれる段階で,これは,コンピューターが,与えられた文章を単語に区切り,その単語の品詞を判別する段階までの処理をいう。次の段階が,意味解析(semantic analysis)と呼ばれる段階で,これは,コンピューターが,与えられた文章の「意味を理解する」段階を指す。もちろん,人工知能と呼んではいるものの,コンピューターに自己意識が生まれたわけではないので,「意味を理解する」と言ったところで「意味を理解する」主体が存在しているわけではない。ただ,コンピューターの自然言語の処理が,意味解析と呼ぶにふさわしい処理に到達しているという意味だと考えていただければよいだろう。

この話になぞらえていうと,ビッグデータ1.5までで実現できた処理は,自然言語処理でいえば構文解析までであり,ビッグデータ2.0が目指すのは意味解析の段階だということである。顧客の生活パターンや,人物像=人となりを理解した上での処理を実現したいと考えているという意味である。

7. 米国の動きに遅れを取らないように着々と準備する日本の動き

5章で紹介した米国の動きを受けて,それに遅れてはならじと日本の動きも開始された。2012年6月1日,経産省は,「IT融合フォーラム有識者会議」の第1回会合を開催した。「IT融合新産業の創出に向けて~ビッグデータ・ブームの次を見据えて~」と題した事務局資料には,以下のように書かれている。

「多種多様なモノがネットワーク化された世界(「IoT(Internet of Things)」の世界)では,あらゆる産業分野(エネルギー,医療・ヘルスケア,自動車やロボット等の製造業,農業等)において,膨大なデータ(電力使用情報,医療・健康情報,位置情報等)をいかに活用するかが競争上重要になってきている。こうした状況を捉えて,“ビッグデータ”の活用の重要性が叫ばれているが,本質的には,データ量の多寡を問わず,いかにデータから価値を生み出し,新産業の創出や社会課題の解決に繋げるかが鍵。」

医療・健康データについてIoT的に付け加えると,便座も今後はスマート便座となる。排出物を即座に検査するのは,まだまだ先のことであろうが,体温・脈拍・血圧・体重といった,いわゆるバイタルデータの収集は,早晩行われるようになるであろう。また,位置データについて言えば,EVやPHVが推進する車のスマートカー化によって,車の走行状態は,その位置情報を含めて逐一,製造メーカーか販売会社のクラウド上に吸い上げられることになると思われる。EVやPHVでなくとも,スマートフォンかタブレットPCがカーナビとして使われるのであれば,スマートフォンやタブレットPCが持つ位置情報機能によって,現行車のままでも,部分的ではあるが実質的にスマートカー化することができる。これは,現行のままの家電品が,スマートソケットやスマートタップによって実質的にスマート家電化するのに似ている現象である。

スマートハウスについても,HEMSさえ設備すれば,既存の家屋でも,部分的にではあるがスマートハウス化することが可能である。実際,経産省は,型式認定を受けたHEMS機器については,それを購入設置する各家庭に対して,10万円を限度とした助成金を補助する制度を昨年から実施している。ビッグデータ2.0というソフトウェア技術の開発において遅れを取らないだけでなく,そのソフトウェアを活かすに十分な膨大なデータを生み出すIoTを構成するスマート〇〇の十分な普及についても,日本は,着々と準備を進めている。

8. おわりに

ビッグデータと呼ばれているものには,3つの段階がある(図3)。まず,従来の統計処理の手法だけでも実現可能なビッグデータ1.0の段階。次に,従来の統計処理の手法に加えて,HadoopやCassandraといった大規模データの大規模分散処理を援用することによって実現可能なビッグデータ1.5の段階。さらに,それに加えて,ニューラルネットワークによる機械学習といった人工知能の技術を必要とするビッグデータ2.0の段階。そして,米国は今,国家を挙げて,ビッグデータ1.5の段階から,ビッグデータ2.0の段階へ,進もうとしている。日本が,世界,特に,米国に遅れを取ることなく,ビッグデータ2.0の段階へ国全体として歩みを進めること,そして,企業・団体は,ビッグデータ1.0の段階にすら達していない場合は,せめてその段階を,ビッグデータ1.0を達成している場合は,次のビッグデータ1.5の段階を達成することによって,国際競争力を維持すべきことを主張して,本稿を終わらせていただくことにする。

図3 ビックデータの3段階
 
© 2013 Japan Science and Technology Agency
feedback
Top