情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
記事
人工知能の未来とデータ共有の新しい可能性
松尾 豊
著者情報
ジャーナル フリー HTML

2015 年 58 巻 8 号 p. 597-605

詳細
著者抄録

本稿では,人工知能の近年の発展,特に最近大きな注目を集めているディープラーニングに焦点を当て,その研究の動向を解説する。画像認識等に用いられる畳み込みニューラルネットワーク,リカレントニューラルネットワーク,あるいは強化学習との組み合わせについて述べる。さらに,今後のディープラーニングの発展について述べる。そして,データ共有におけるディープラーニングの適用の可能性について,データベースの統合,画像認識の活用という2点から説明する。最後に,ディープラーニングを活用することによる日本のものづくりの可能性を述べ,本稿をまとめる。

1. 人工知能のブーム

人工知能がブームを迎えている。ワトソン,Siri,ペッパー,自動運転,電王戦など,話題に事欠かないが,多くの技術はこれまでに長年積み重ねてきた技術の連続的な発展である。一方で,ディープラーニング(Deep Learning,深層学習)という技術が注目されており,画像認識や音声認識の分野で目覚ましい発展を遂げている1)。これを,データの蓄積やコンピューターの処理能力の向上によるものと見る向きもあるが2),本質的には重要な課題に1つの突破口を示している。それは表現(representation)を学習する仕組みを提示しているということである。ディープラーニングは,表現学習(representation learning)の1つとされるが,表現の問題は,人工知能の分野では長く議論・研究されてきたテーマであり,ここに1つの解決策を提示しているという意味は大きい。

ディープラーニングは,広義には多層のニューラルネットワークを用いる手法全般を指す注1)。ここでいう層とは,入力を変換するための単純だが非線形の関数群を指し,その組み合わせによって,複雑な判別が実現される。ディープラーニングによって,生データが徐々に抽象化され,適切な表現が得られる。たとえば,画像を入力した場合の典型例では,最初の層では,特定の場所や角度に対するエッジが,次の層では,複数のエッジによるモチーフが,3番目のレイヤーではこれらの組み合わせによるよくあるオブジェクトが,それ以降のレイヤーではより複雑な形が得られる。これらの表現が人間の手によってではなく,生データから自動的に得られていることが特筆すべきところである。

歴史的にはニューラルネットワークの研究は古くから行われており,深い層を作ろうとする試みも少なくとも1960年代には始まっている。従来は,多層にすると学習の結果が悪くなり多層にすることが難しかったが(1に4層のニューラルネットワークを示す),今ではさまざまな方法が開発されて,10層から30層3),場合によっては100層を超えるネットワーク4)も用いられるようになった。

ディープラーニングの意義を正確に述べるのは難しいが,次のようにたとえることもできるだろう。これまでの人工知能では,人間の知能の高みをコンピューターで実現することを目指し,さまざまな試みが行われてきた。そのために,定理証明や医療診断などの高いレベルの知能を実現する研究が1950年代から1970年代にかけて次々と行われた。ある意味で,数学者や医師など,人間のトップレベルの知能を目指した試みであり,実際に定理の証明や医療診断が人間の専門家に近いレベルでできたのであるから,部分的には大成功だったといえるだろう。

しかし,これらは,たとえて言えば,高い建物を建てようとするあまり,土台や基礎の工事が全然できていないままに高さだけを競っていたようなものであった。そして,風が吹く,地震が来るなどの想定外の事象に対しては非常にもろく,すぐに崩れてしまうようなものであった。人工知能の研究者ならよく知っていることであるが,これまでの人工知能システムは,想定する入力や想定する環境でのみうまく動作し,少しでも想定外のことがあると,ほとんど役に立たなかった。それは取りも直さず,人工知能システムが,それを作る開発者側の現実世界の抽象化能力に依拠しているということであった。人工知能の大家マービン・ミンスキーが事あるごとに言っていたのは,「子供のできることほど人工知能にやらせるのは難しい」ということであり,積み木の世界で遊ぶようなこと(つまり,高さは低いががっちりした建物を建てること)は,不可能だった。

ところが,ディープラーニングは「基礎工事の革命」をもたらした。土の中深く地面を掘って基礎工事をする方法が作られた。それによって,高い建物を安定して建てることが原理的には可能になる。その意味で革命的である。しかし,基礎工事の革命であるから,一般の人が見てもその真価は納得しにくい。見せられる建物の高さは変わらない。いや,デモとして見せられるものは,今までの人工知能というものより明らかにレベルが低い認識や判別といったタスクばかりなので,大したことができないという批判もある。しかし,今までの人工知能システムが,基礎工事が不十分なまま高さを競っていたものであるが故に,基礎工事の革命が起こる意義はとてつもなく大きい注2)2)。

ここ10年の間に急速に進んできたビッグデータのさまざまな領域における広がりが「都市圏の広がり」を意味するとすれば,ディープラーニングによる技術の進展は,基礎工事の革命による超高層建築の実現をもたらすものであろう。すべての領域においてディープラーニングが重要になるわけではない。しかし,特定の都市部(都心部)においてはこれから超高層建築を建てる競争が起こる。これが,今後,10年から15年程度をかけて起こる人工知能あるいは情報処理における変化の本質ではないだろうか。これまで実現することが難しかったような本格的な人工知能システムが部分的に構成され,産業や社会に大きな影響を与えるということである(ただし,このことが直ちに「シンギュラリティ(技術的特異点)」として語られるような,人工知能が人間を超えて想像を絶することが起こる世界を意味するわけではない)。

本稿では,まず,表現を学習するということは何かを述べ,次に,画像認識,時系列における現在の技術進展を述べる。そして,ディープラーニングの今後,いわばポストディープラーニングの研究として何が起こるかの見通しを述べる。最後に,データ共有という文脈において,ディープラーニングがどういった可能性を秘めているかを述べ,本稿をまとめる。

図1 ニューラルネットワークの例
図2 従来の人工知能と,「基礎工事の革命をもたらした」ディープラーニングの違い

2. 表現を学習する

ディープラーニングでは,深い(=層の数が多い)ニューラルネットワークによって,観測データから本質的な情報を抽出した表現(内部表現/潜在表現/特徴)を学習する5)。表現とは,さまざまなタスクに利用可能な,前処理を行った後のデータの形式のことであり,よい表現を見つけることによりタスクの実行性能に大きく寄与する。たとえば,ある画像が何のクラスに属するかというタスクでは,認識に適した少数のよい特徴が抽出できれば,それを並べた特徴ベクトルを線形識別器などの簡単な識別器でクラスラベルに対応付けることが可能になり,教師あり学習が容易になる。たとえば画像に写っているものが猫であるかどうかを判定したければ,「耳があるか」「顔が丸いか」「ひげがあるか」などの猫の判定に適切な表現が作れればよい。

こうした表現の抽出が有効なのは,観測データに対象の構造を反映した潜在的な構造があるためである5)。複数のタスクを同時に学習するマルチタスク学習や,あるタスクに対する学習結果を他のタスクに転用する転移学習の研究においては,複数のタスクに適した汎用的な情報表現の獲得が重要な課題とされている。ニューラルネットワークはこの点で,出力層における複数の出力を適切に予測するような中間的な表現の学習を行っており,マルチタスク学習,あるいは転移学習をその仕組みに内包しているということもできる。

また,将来のタスクに対する学習の可能性を高めるには,あらかじめできるだけ多くの世界に関する情報を収集しておいたほうがよい。教師なし学習の重要性は,Yoshua Bengioらも繰り返し述べており,現実的にはCNN(Convolutional Neural Network,畳み込みニューラルネットワーク)等の教師あり学習のモデルが成果を収めているが,オートエンコーダ(自己符号化器)をはじめとする教師なしの枠組みは本質的に重要である6)

表現を学習するために,多層にするというのは1つのヒューリスティックであり,そのほかにも空間的近接性,時間的近接性,関数の連続性など,現実世界ではさまざまなヒューリスティックがあり得る7)。また,表現を学習するということは,それ自体を数理的な問題として記述することすら難しい。なぜなら,可能な表現の空間というのが定めようがないためである8)。こうした表現学習の数理についての研究は今後,重要になってくるだろう。

3. 画像認識のスタンダード

ディープラーニングは,特に画像認識での成果が目覚ましい。画像認識の精度は,2012年の画像認識のコンペティションILSVRC(ImageNet Large Scale Visual Recognition Challenge)を皮切りにぐんぐん向上し,ついに2015年2月にはマイクロソフトが,3月にはGoogleが,人間の精度とされる値を超えてしまった。

画像認識では,畳み込みニューラルネットワーク(CNN)というタイプのネットワークが使われることが一般的である。CNNの特徴は,畳み込み(Convolution)層とプーリング(Pooling)層という2種類の層を交互に繰り返すことである。畳み込み層では,素性マップと呼ばれる下層からの情報に対して,局所的なパッチを切り出し,ここにフィルタを適用することで重みを掛け合わせ,非線形の変換(以前はシグモイド関数が使われることが多かったが,最近ではReLU(Rectified Linear Unit)などがよく使われる)を行い,その層の素性の値とする。フィルタの集合はフィルタバンクと呼ばれ,素性マップのすべての局所的なパッチに対して,同じフィルタが適用される(つまり重みが共有される)。これは,画像の特徴は,場所による不変性を持っていると考えられるからである。プーリング層では,素性マップの局所的なパッチに対して,そのパッチに含まれる素性の値の最大値を取る。これによって,特徴量の抽出が,位置の変化に対して不変な処理となる。ネットワーク全体では,畳み込み層とプーリング層が交互に積み重ねられ,最後に全結合の層を重ねる場合が多い。教師データに対して,誤差逆伝播(ぎゃくでんぱ)によって学習させるが,重みを共有しているため,その学習は効率的である。

最近では,顔画像の判別なども極めて高い精度で行うことができ3),また,画像にあるオブジェクトを認識するだけでなく,画像の中にあるシーンを記述するautomatic image captioningという技術も研究されている9)。たとえば,画像から「猫がベッドの上で座っている」などの記述を自動的に出すことができる。

4. 時系列を扱うために

自然言語処理をはじめとする順序付きのデータや時系列のデータに対してのディープラーニングの活用も進んでいる。Recurrent Neural Network(リカレントニューラルネットワーク,RNN)と呼ばれるモデル,あるいはそれを進化させたものが用いられる10)。時間的な長期の依存性を取り込むためのLong Short-Term Memory(LSTM)や,Gated Recurrent Unit(GRU),内部に状態(メモリー)を持つMemory Network,あるいはニューラルチューリングマシンなどの研究が進められている。

LSTMは時間的に長期の依存関係をモデル化しようとしたもので,古くは1997年にモデルが提案されている。メモリーセルの内容は,入力ゲートと,忘却ゲートの値によって決まる。入力ゲートも忘却ゲートも,入力と現在の隠れ状態から決まる。次時点の隠れ状態は,現在のメモリーセルから決まる。出力は入力ゲートとメモリーセルの内容から決まるというものである。忘却ゲートに入る値によっては,以前の状態の影響をまったく受けないようにすることもできる。

GRUは,リセットゲートと更新ゲートを持ち,メモリー内容は,更新ゲートによって以前のメモリー内容がどのくらい引き継がれるか,あるいは新しいメモリー内容候補をどのくらい使うかで決まる。新しいメモリー内容候補は,入力ゲートとリセットゲートおよび現在のメモリー内容で決まる11)。LSTMやGRUを含めて,さまざまなアーキテクチャを探索的に調べるような研究12)もある。

これらを発展させたメモリーネットワークでは,翻訳や対話システムなどで,従来の自然言語処理技術と同程度あるいはそれを超えるような精度を,文法や語彙的な知識を使わずに達成し始めている。

5. ディープラーニングとロボット

ディープラーニングと強化学習を組み合わせた研究も発展し始めており興味深い。2013年には,Googleに買収されたDeepMind社が,ATARI注3)のゲームを学習するプログラムの研究を行って有名になった13)。ATARIのさまざまなコンピューターゲーム(ブロック崩しやインベーダーゲームなど)に対し,画像からの入力にCNNを使うことで特徴量に変換し,それを各行動(ゲームによって異なる)に結び付ける。これをQ学習注4)の枠組みで学習し,画像からの特徴とアクションの組に対して適切なスコアを割り当てていく。これによってさまざまなゲームで人間を超えるようなベストスコアを出せるようになった。特筆すべきは,特徴量の生成をCNNが行っているために,まったく同じアルゴリズムで異なるゲームがプレイできることである注5)

UC Berkeley(University of California, Berkeley)では,強化学習+ディープラーニングをロボットに対して適用する,Sensorimotor Deep Learning(感覚運動ディープラーニング)のプロジェクトを進めている14)。組み立てロボットがさまざまなタスクを試行錯誤により学習し,おもちゃの飛行機を組み合わせたり,レゴのブロックを組み立てたり,木の輪をくいにはめ込んだりすることができる。動作が徐々に洗練されてくるさまは驚異的である。ディープラーニング技術と強化学習は潜在的な可能性が大きく,ロボットの動きが目覚ましく進化するのももうすぐかもしれない。

6. 今後のディープラーニング研究

さて,ディープラーニングの今後,いわばポストディープラーニングはどう進展するだろうか?

ディープラーニングの世界的なコミュニティーを牽引しているYann LeCun,Yoshua Bengio,Geoffrey Hintonの3人は,Nature誌にディープラーニングの解説とともに,その未来として次のように述べている15)

1つは,教師なし学習がより重要になるだろうということである。人間や動物の学習はほとんど教師なしであり,観察によって世界の構造を見つける。2つ目に,CNNをRNNと組み合わせ,強化学習を用いて「どこを見るか」を決めるようなメカニズムが必要になる。強化学習とディープラーニングの組み合わせはまだ始まったばかりであるが,すでにいくつかの「視覚的焦点」を備えたシステムや,ゲームをプレイするシステムが提案されて従来手法を上回っている。3つ目に,自然言語処理に対してこれからディープラーニングが適用されていく。RNNを用いることで,文や文書全体をよりよく理解できるようになる。最後に,究極的には,AIの大きな発展は,複雑な推論と表現学習を合わせたものから訪れるだろう。ディープラーニングは,音声認識と手書き文字認識で長い間用いられてきたが,新しいパラダイムは記号の表現のルールによる操作を置き換えるものになるだろう。

これがLeCun,Bengio,Hintonらの述べる未来であり,私の考えもほぼ同じであるが,より詳細に次のようなステップをたどるのではないかと考えている。

まず,現在研究が進んでいるような強化学習の流れから,状態を離散化するようなモデルが作られる。このような方向の研究として従来から,認知発達ロボティクス16)や記号創発ロボティクス17)などが行われているが,それらがディープラーニングと組み合わされたものになっていくだろう。認識の仕組みが整ってきた後に重要となるのは,身体性,あるいは環境とのインタラクションであるはずである。そして,ロボットにおける内的な記号操作が可能になるためには,イメージの再現と記号が結び付き,イメージの操作が可能になる必要がある。これは現在でも,すでに変分オートエンコーダ等のディープラーニングの生成モデルで少しずつ可能になりつつある。早晩,記号や推論(あるいはプランニング)がディープラーニングを基礎にして実現されるだろう。

そして次にくるのが,言語である。シンボルが指す概念と結び付き,シンボルが提示されることで任意の概念から構成されるイメージを再現できる。これによって本質的な意味での言い換えや翻訳が可能になる。また言語データから,擬似的な体験を行うことで,さらなる抽象化や知識獲得を行うことが可能になるかもしれない。

その先には何があるだろうか。たとえば,数的な概念を理解する仕組み,対象物のモデル化の仕組みなども難しい問題だろう。あるいは,より人間に近いところで,意識の仕組み(過去のデータと自分の行為の一貫性を担保する仕組みであろうか),他者のモデルや共感のモデルなども,研究されるようになるかもしれない。

7. データ共有とディープラーニング

このようなポストディープラーニングの発展を考えると,本稿のテーマの1つであるデータ共有においては次のような可能性があるだろう。1つは,データベースの統合,もう1つは画像認識によるデータの統合である。以下,順に説明する。

7.1 データベースの統合

ディープラーニングを使うことで,データベースの意味構造自体を理解し,それをマッチングすることも可能であるかもしれない。しかし,データベースの意味論を理解することは,人間の生活する世界知識を必要とするものであり,技術的には相当難しい。

一方で,すでにデータベースの統合を行うための技術として,Record Linkage,Entity Resolution,あるいは人名に限った場合には,Name Disambiguation等と呼ばれる技術がある10)18)。こういった技術では,基本的には,複数のデータベースのレコード(あるいは複数のエンティティ)に対してどのくらい近いかを表す関数を定義し,その値によって同じレコードとするかどうかを判定している。こうした類似度(あるいは距離)の関数の定義においては,特徴量の生成が鍵になり,これまでの技術では,さまざまな特徴量が提案されている。

これをディープラーニング的なアプローチで行うとすると,「データベースを復元する」というオートエンコーダの考え方を使うことになるだろう。1つのデータベースのレコードや項目を一時的に隠し,周辺の情報から推測する。この推測のエラーが最も少なくなるようなモデルが,そのデータベースを適切に表すモデルとなる。このモデルを作ることで,レコードの類似度も,より精度よく計算できることが予想される。

7.2 画像認識によるデータの統合

もう少しストレートな方法も考えられるだろう。データを共有するときに現在はどのように行っているのだろうか。サーバーやデータベースを直接連携する,あるいはAPIを通じた連携等が行われているが,実質的には,多くの場合,データの連携は人間を介して行われているのではないだろうか。

たとえば,飛行機のフライトスケジュールを調べて適切な便を予約する。これをカレンダーサービスに書き込む。大学のイントラネットのシステムに出張の申請をする。これらは,飛行機会社のシステム,カレンダーサービス,大学のイントラネットシステムが連携した処理を行っていることになる。これを実現しているのは,人間(つまり一連の処理を行ったユーザー自身)である。情報システムはほとんどの場合,人間にとって読み取りやすい表示形式になっている。したがって,これを画像として読み取ることができれば,さまざまな連携を行うことができる。

従来これをやっていたのは,Webからのデータの抽出技術(スクレイピングや情報抽出と呼ばれる)であった19)。典型的には,HTMLのタグの構造を調べ,そこから必要な情報を取り出すプログラムを記述する。しかし,こういったアプローチの欠点は,HTMLの構造が変わってしまうと(たとえわずかな変化でも)うまく情報が取得できなくなることだった。これに対して,取得するテンプレートの抽象化の研究なども行われているが,そもそもHTMLは内部構造ではなく,視覚的な構造を実現するように作られているために,この抽象化は難しい。また,最近では,ブラウザの描画を行った上で,視覚的な情報を組み込んだ研究も行われているが,これまでの技術では精度が上がらなかった。

しかし,ディープラーニングによる画像認識を組み込むことで,精度が高く,また多少の構造変化にも耐えられるような情報抽出を行うことが可能であろう。その上に,さまざまな処理を組み込めば,今までよりも簡単に,かつ大規模にデータ統合が可能になるかもしれない。

8. ディープラーニングの未来

本稿では,ディープラーニングの最近の動向と今後の可能性を述べ,またデータ統合における活用の可能性を述べた。ディープラーニングはさまざまな既存技術に対して大きな可能性を持つだろう。特に,人工知能における「基礎工事部分」が進展することにより,これまでできなかった人工知能システムが実現されるかもしれない。そして,今後のディープラーニングの発展は,認識から身体性へ,そして言語へと進んでいく(3)。

身体性の段階においては,センサーやアクチュエータが活用できる。これは,人工知能の技術が製造業と結びつくということである。画像や映像関連の技術,センサー,半導体,建設,製造,自動運転,物流,設備保守,在庫管理,医療,介護,ロボットなどは,ディープラーニングにより大きなチャンスを迎えている。これまで,基礎工事がしっかりできなかったが故に,人間がやらざるをえなかった処理を機械化することができ,製品・サービスの付加価値を大きく向上させることができるかもしれない。

ディープラーニングの発展をものづくりにうまく生かせるかが今後の日本にとって重要な課題であろう。それと同時に,ものづくりにおける日本の強みを研究に生かしていくことができるかどうかが,今後,人工知能の研究で日本が世界と戦っていく上で重要になるのではないだろうか。

図3 今後のディープラーニングの発展

執筆者略歴

  • 松尾 豊(まつお ゆたか)

1997年東京大学工学部卒業。2002年同大学院博士課程修了。博士(工学)。産業技術総合研究所,スタンフォード大学を経て,2007年より,東京大学大学院工学系研究科技術経営戦略学専攻 准教授,現在に至る。2012年より人工知能学会理事,編集委員長を務め,2014年より倫理委員長。専門は,Web工学,Deep Learning,人工知能。

本文の注
注1)  狭義には,フィードフォワード型のニューラルネットワークだけを指す場合もある。

注2)  なお,このたとえにおいては,地面が現実世界の現象であり,その地面に埋め込む基礎の部分が,現象とコンピューター内の情報処理をつなぐ表現であり,それを獲得する技術を基礎工事にたとえている。

注3)  ATARIは,1970〜80年代に一世を風靡(ふうび)した米国のビデオゲームメーカー。

注4)  Q学習とは,強化学習の手法の1つであり,アクションの有効性を示すQ値という値を更新していくことで学習を行う。

注5)  ゲームごとの報酬(ゲームのスコアに設定)やアクションについては設定が必要である。

参考文献
 
© 2015 Japan Science and Technology Agency
feedback
Top