ディープラーニングによる組織識別率の検証

足立 吉隆; 田口 茂樹; 弘川 奨悟

doi:10.2355/tetsutohagane.TETSU-2016-035

Synopsis:

Deep learning by convolution neural network (CNN) was applied to recognize a microstructure of steels. Three typical CNN-models such as LeNet5, AlexNet, and GoogLeNet were examined their accuracy of recognition. In addition to a model, an effect of learning rate, dropout ratio, and mean image subtraction on recognition accuracy were also investigated. Through this study, the potency of deep learning for microstructural classification is demonstrated.

1. 緒言

材料組織はこれまで専門家が組織写真を見て，経験に従って識別してきた。鉄鋼材料ではフェライト組織などの単一組織に加えて，フェライト−マルテンサイトなどの複合組織もその識別対象である。これまでに撮影されてきた組織写真の多くは個々の専門家により保管され，あるいはコンピュータ内に電子ファイルとして保管されているものと思われる。これらの多くの組織写真を解析して，第二相体積率や結晶粒径などの組織特徴値を抽出してビッグデータを収集できれば，モデリングや機械学習法を使った特性予測が格段に加速するものと期待される。

しかしながら，個々の技術者が組織を識別して組織写真を分類するにはあまりにも多くの時間を要し，また技術者間の識別の判断基準が同じであるかということにも疑問が残る。組織写真を一定の判断基準で，効率よく識別することは，ビッグデータを活用した材料開発(マテリアルズインフォマティクス)の効率を飛躍的に向上させるのに多大な効果があるものと考えられる。

ここで注目される像識別の新技術として，2010年ごろからディープラーニングと言われる機械学習法により物体認識が可能であることが報告され，毎年開催される共通画像データを使った識別精度を競うコンテストで年々その識別精度が上がっている。手書き数字のデータセット(mnist)を認識するディープラーニングのモデルを初めてLeCun¹⁾らが提案し，その栄誉をたたえてそのモデルはLeNetと名付けられた。この時に取り入れられた畳み込み層(convolution layer)，プーリング層(pooling layer)を組み込んだニューラルネットワークを畳み込みニューラルネットワーク(convolutional neural network:CNN)といい，その後のLeNet5^1)*1(Fig.4a，文末のappendix参照)，AlexNet²⁾，GoogleNet³⁾(Fig.1)といったモデルにもこの基本構造が取り入れられている。CNNの要点を文末のappendixに記す。

*1 LeNet5が発表された当時は，pooling層はsubsampling層と呼ばれていた。

Fig. 1.

GoogLeNet³⁾.

畳み込み層，プーリング層を経て出力されたニューロンは途中あるいは最終出力時に全結合(fully connected)^*2され，多層パーセプトロンにおいてsoftmax関数(p(i)=exp(a_i)/∑exp(a_i))により各ラベル(i)の確率に変換され，その確率が最も高いラベルが正解として回答される。近年のモデルの特徴は，ニューラルネットワークの層数を増やす傾向にあり，LeNet5では畳み込み層が2層であったのに対して，AlexNetでは5層，そして2014年度の国際画像認識コンテスト(Imagenet Large Scale Visual Recognition Challenge 2014:ILSVRC-2014)で優勝したGoogLeNetでは22層となっている。畳み込み層では画像処理のフィルタリング処理と同じ行列計算が行われており，あるサイズの単純なフィルタ(CNNではkernelという)を画像に適用して，そのフィルタに反応する特徴を抽出している^*3。CNNの特徴の一つは，フィルタを，専門家が手動で設計しなくても，コンピュータが学習によって自動獲得することである。フィルタは一つではなく，複数準備され，フィルタ数と同数の特徴マップが出力される。CNNの下層では直線などの単純な形状に反応するフィルタが学習され，上層で畳み込み層とプーリング層を繰り返すたびに画像のサイズ(解像度)を下げながらより複雑な形状に反応するフィルタが学習されるのである。

*2 本研究で用いたCaffeではinner productと呼ばれている。

*3 フィルタが適用され抽出された特徴を特徴マップという。

この畳み込み層で得た特徴を表す行列をプーリング層で新たに小さな領域のフィルタ処理を行って，例えばそのフィルタ内の最大値を代表値として抽出するMax poolingという処理が行われる。プーリングにより位置変更への感度を下げ，小さな平行移動に対する普遍性を持たせて，画像内の位置にかかわらず，物体を認識することができるように工夫されている。畳み込み層とプーリング層のあと，一度情報を全結合して，第二層の畳み込み層，プーリング層へデータを送っている。第二層では，この操作を今一度繰り返すことによって，第一層に比べてより物体全体の特徴を抽出することが行われる。入力層の情報は，入力ニューロンから次の階層のニューロンへ重み係数とバイアスを使った関数で表現された後，非線形伝達関数で次の階層に伝達されている。非線形伝達関数としては，従来シグモイド関数がよく用いられてきたが，最近ではReLU関数^*4が用いられることが多いようである。ここで，重み係数，バイアスの最適化は，誤差逆伝播法で行われており，それらの係数の最適化が学習の精度を上げるのに重要である(詳細はappendixにて説明する)。そこで，CNNを含むニューラルネットワークでは，損失関数(本研究で用いたCNNプラットフォームのCaffe^5)*5ではsoftmax lossが使われている)の値ができるだけ小さくなるように，出力層に最も近い層の重み係数およびバイアスの最適化を行い，そこで決定した係数は保持され，入力層に近い層の係数の最適値を求める操作が行われている。

*4 入力が負の値の場合は零を出力し，正の値の場合はその値を出力する関数である。Max(0, x)と書かれる。

*5 Berkeley Vision and Learning Center(BVLC)が開発したDeep learningのフレームワークである。Convolutional Architecture for Fast Feature Embeddingの略称。

CNNの階層を増やし，また誤差逆伝播法で重み係数などの最適値を求めた場合でも，入力データに過度に関数をフィッティングしてしまう過学習が生じることがニューラルネットワークの課題である。CNNでは，これを防ぐために，AlexNetやGoogLeNetで中間層から出力層へデータが伝達されていく過程で，ランダムに伝達データの何割かを伝達しないdropoutという工夫が取り入れられている。

複雑な鉄鋼材料組織をCNN−ディープラーニングにより自動識別することができれば，その後の定量解析の効率化や，さらにその後の特性予測モデリング効率も飛躍的に改善できるものと思われる。

そこで，本研究では，代表的な組織であるフェライト，パーライト，フェライト−パーライト，フェライト−マルテンサイト組織を対象に，代表的なCNNモデルであるLeNet，AlexNet，GoogleNetを適用して，組織識別精度を検証した結果について報告する。

2. 実験方法

2・1 データセット

各組織のデータは，光学顕微鏡写真を中心に，実験結果およびウェブサイトより画像検索して入手した。観察倍率は様々であるが，概ね光学顕微鏡の対物レンズの倍率が10-50倍の組織像を対象とした。入手した各組織のデータ数はTable 1の通りである。ここで用いた組織の例をFig.2に示す。

Table 1. Dataset.

	Ferrite	Pearlite	F-M	F-P
Train	199	36	285	44
Test	9	3	5	5

Fig. 2.

Examples of analyzed microstructure.

これらの画像データを，まず機械学習の学習(train)に用いるデータと，テスト用に用いるデータ(test)に分けてコンピュータ上のフォルダーに保存した。学習用データの75%は無作為に選択して学習用(train)に用いて，残りの25%は交差検証用(cross validation)に用いた。

入力する画像サイズは，LeNetモデル用は28*28 pixel，AlexNetおよびGoogLeNetモデル用は256*256 pixelに事前に統一した。解析精度に及ぼす画像解像度の影響を調べるために，別途，一度28*28 pixelに解像度を下げた後に再度256*256 pixelに解像度を戻した画像も用意した。この場合，一度解像度を下げているので，再度解像度を上げても実際の解像度は低い(Fig.3)。準備したデータ画像には，一部カラー画像も含まれておりRGB情報を有しているものもあったが，そのまま各モデルによる識別学習に供した。LeNetはグレースケール画像のみ対象としているため，たとえカラー画像であっても解析対象画像は28*28*1のサイズを持つ。一方，AlexNetおよびGoogLeNetは画像中心部をクロップしたうえでカラー情報も取り扱うのでそれぞれ227*227*3，224*224*3のサイズの画像が識別対象となる。画像ファイル間で輝度値やRGB値が異なると識別結果に悪影響をもたらすため，その対策として全画像を正規化することや，あるいは全画像から平均画像を引くことがなされる場合がある。本研究では，全画像から平均画像を引いた画像を対象に識別を行った。

Fig. 3.

A change in resolution of images.

2・2 CNN環境とモデル

CNN計算は，Linuxベースのubuntu14.04^*6上でCaffeを，Python^*7を通して動かすことが可能な，NVIDIA社製のDigits-3.0^*8を使って行った。計算速度を速めるために，GPU(Geforce Titan-X)を使って計算を可能とするNVIDIA社製のcuda^*9と，GPU上で行列の計算速度を向上させるcuDNN^*10も同時にインストールした。

*6 Linuxベースのオペレーティングシステム(OS)の一種。

*7 プログラミング言語の一種で，webアプリケーションなどの記述に向いている。

*8 NVIDIAが開発したCaffeなどのCNNのインターフェイス。Deep Learning GPU Training Systemの略称。

*9 GPUを使った計算速度を劇的に向上させる統合環境である。

*10 The NVIDIA CUDA^® Deep Neural Network libraryの略称。Cudaで行列計算を効率よく行うためのライブラリ。畳み込み計算に絶大な効果を発揮する。

画像認識モデルとしては，LeNet5，AlexNetおよびGoogLeNetとした。いずれも初期の学習率(learning rate，appendix参照)は0.01とし，全調査回数(Epoch数:100)の33%ごとに一桁ずつ学習率を下げた学習を行った。なお，モーメンタム(momentum)，重み減衰率(weight decay，appendix参照)は全モデルでそれぞれ0.9，0.0005一定とした。Dropout率については，各モデルでTable 2のように設定した。本研究では，特に断らない限り，CNN環境は，モデルGoogLeNet，学習率0.01，Dropout率0.7/0.7/0.4とした。また上述したように，全画像から平均画像を引いた画像を対象に画像認識を行った。

Table 2. Dropout setting.

	1st	2nd	3rd
LeNet	–	–	–
AlexNet	0.5	0.5	–
GoogLeNet	0.7	0.7	0.4

本研究で行った組織識別はフェライト−パーライト組織などの複合組織の場合を含めて組織全体に対して実施した。近年，一つの画像の中の複数の対象物^*11を検出するR-CNN(Region with Convolutional Neural Network)⁵^,⁶⁾という手法も精力的に検討されているが，本研究の解析手法はR-CNNではないことに注意していただきたい。

*11 例えば，フェライト，パーライト組織を予めCNNで認識し，フェライト−パーライト複合組織中の各組織を検出する手法である。

学習精度は，学習用画像と交差検証用画像のそれぞれに対して求めた損失関数(loss(train)，loss(val))と，交差検証で得た識別結果の識別率(accuracy)の両方から判断した。理想的な識別がなされた場合には，loss(train)，loss(val)がともに低く，accuracyが高い結果となる。ただし，loss(train)が低くてもloss(val)が学習途中で高くなり両者に差が出るときは過学習が生じていることを示していることにも留意する必要がある。

3. 実験結果

3・1 モデルの影響

代表的なモデルであるLeNet5，AlexNet，GoogLeNetを，Digits-3.0の初期設定条件で学習させたときの結果をFig.4に示す。検証はそれぞれのモデルに対して3回実施した。識別率は，モデル間で差はほとんど認められず，92~94%を誇っておりおそらく専門家の認識率と同等と考えられる。一方，過学習の指標となるloss(train)とloss(val)の差に注目するとLeNet5でその差が大きく過学習が生じていることが伺える。LeNet5は画像認識の初期に提案された階層数が少ないモデルであるが，認識率は他の二つのモデルとほぼ同じであり，このモデルはいまだに有効であるといえる。学習に要した時間は，LeNet5，AlexNet，GoogLeNetでそれぞれ6秒，11分，6分であった。三つのモデルの中で最も簡易な構造を持つLeNet5では学習が極めて速いことも特徴である。

Fig. 4.

An effect of model on loss and accuracy of CNN deep learning.

3・2 学習率の影響

学習率が低いほうが最適な重み係数が求められる一方で，時間を要するため，認識率を低下させない範囲で学習率を高めることが望まれる。Fig.5に示す検討の結果，GoogLeNetに対して，学習率は0.01が今回の場合最適と判断した。

Fig. 5.

An effect of learning rate on loss and accuracy of GoogLeNet CNN deep learning.

3・3 Dropout率の影響

出力直前のニューロンの全情報を出力層に全結合すると過学習が起こりやすいことが報告されている。そこで，dropout率が識別精度に及ぼす影響を調査した(Fig.6)。なお，GoogLeNetの場合，出力が途中を含めて3回あるので，その直前に行われるdropoutも3回ある。そこで，入力層に近いdropout側からその比率を0.7/0.7/0.4と表示した。0.2などと表示した場合は，0.2/0.2/0.2であることを意味する。

Fig. 6.

An effect of dropout ratio on loss and accuracy of GoogLeNet CNN deep learning.

Dropout率がゼロの場合とは全結合を意味しているが，loss(train)は低いがloss(val)との差が少々大きく，従来の報告通り過学習が生じているものと考えられる。この場合でも識別率は93~94%と高い。Dropout率が大きくなるにともない，loss(train)が高くなる傾向にあるが，loss(val)との差が小さくなっており，過学習が抑制される傾向にあることが伺える。Dropout率が0.7までは識別率は94%程度を保っている。Dropout率が0.8を超えると急激にloss(val)が高くなるとともに，識別率が90%まで低下する傾向にある。以上の結果より，本研究で用いた組織画像を対象とした場合は，dropout率は0.7/0.7/0.7が適当と判断した。なお，Digits-3.0に含まれるGoogLeNetの初期設定は0.7/0.7/0.4であり，Fig.6に示すようにloss(train)，loss(val)ともに低く，識別率も93%と高いことから妥当な設定と考えられる。

3・4 平均画像の影響

CNNによる特徴値抽出対象画像として，原画像あるいはそこから平均画像を引いた画像を用いたときの識別率の変化を調べた結果をFig.7に示す。後者のほうが，loss(train)，loss(val)が低く，また識別率も高いことから平均画像を引いた画像を入力画像として用いることが望ましいといえる。

Fig. 7.

An effect of mean image subtraction on loss and accuracy of GoogLeNet CNN deep learning.

3・5 プーリング層の影響

文字認識などでは原点補正することにより識別精度を高めるプーリングが行われている。本研究で用いた全CNNモデルにもプーリング層が含まれている。しかし，対象が材料組織となった場合のプーリング層の必要性については不明である。そこで，比較的変更が容易であるLeNet5の構造から二層あるプーリング層を両方とも除外した新たなモデルを作成し，その材料組織の認識精度を検証した(Fig.8)。識別率はプーリング層を無くすことにより若干低下する程度であり，大きな変化は認められない。一方，loss(val)は，プーリング層を無くすことで，0.35から0.60と大きくなっておりloss(train)との差も大きくなっていることから過学習がより生じやすくなっていることが推察される。

Fig. 8.

An effect of pooling layer on loss and accuracy of LeNet5 CNN learning.

3・6 原画像解像度の影響

GoogLeNetは対象画像サイズを256*256 pixelとしており，画像はそのサイズに事前に統一されているが，元々の画像の解像度が認識精度に及ぼす影響については不明である。そこで，256*256 pixelの組織画像を一度28*28 pixelに低解像度化したのち再度256*256 pixelに戻した画像を使って認識精度を検証した。交差検証に用いる画像も同時に解像度を変更している点に注意する必要がある。元画像のloss(train)/loss(val)/識別率はそれぞれ0.1599/0.2806/94%であったが，解像度を一度下げた後に解像度を元に戻した画像の場合0.2270/0.5197/91%となった。低解像度画像の場合，過学習が生じやすくかつ認識精度も下がる傾向にある。28*28 pixel画像を対象とするLeNet5モデル(Fig.4)では0.003/0.2536/93%(複数回測定した平均値)であり，簡単な構造のLeNet5のほうが識別精度は高い。よって低解像度の画像にはそれに適したモデルを適用する必要があることを示唆しているように思われる。

3・7 テストデータを使った識別率の検証

以上の結果から最適なCNN環境として，モデル:GoogLeNet，学習率:0.01，Dropout率:0.7/.0.7/0.4，入力画像:平均画像を引いたもの，としてCNN学習を行い，学習には用いなかったテスト画像の識別精度を検証した結果をFig.9に示す。左列に示す入力組織に対して，識別された組織が，softmax関数で得た確率とともに，二列目以降に示されている。テスト画像22枚に対する識別率は100%であった。この結果は，学習時の識別率が94%程度であり，かつloss(train)とloss(val)の差が小さく過学習が抑制されていると考えられることから，予想通りの結果といえる。なお，3・6で述べた解像度を下げた画像に対して行った学習結果を同じテスト画像に適用した時の識別率は68%であった。パーライト組織やフェライトーパーライト組織の識別率が著しく低下した。パーライト組織が微細な構造を有していることから解像度を下げたことによりその特徴を認識することができなくなったものと思われる。

Fig. 9.

Phase recognition for test data by optimized GoogLeNet.

4. 考察

CNN−ディープラーニングによる鉄鋼材料組織の識別率を調査し，例えば2014年に公開されたモデルであるGoogLeNetを使うと94%という高いレベルで認識できることが示された。今回の組織対象に限っての話ではあるが，従来の専門家に替わって，ディープラーニングが材料組織を識別するのに有効であることが証明されたといえる。材料組織の場合，他の物体認識と異なり，局所的には不均一であっても，全体的には均一であるため，画像認識に適していると考えられる。今回は特にエッチング液の種類は統一しなかったが，カラー情報もGoogLeNetなどでは認識するため，カラーエッチングなどした試料では識別率がさらに上がる可能性がある。

プーリング層が材料組織の認識に対して必要かどうかという点は不明であったが，少なくともLeNet5モデルではプーリングにより過学習が抑制されるという結果を得た。プーリングにより一層解像度が下げられるとともに，特徴が強調(max pooling)されており，今回プーリングにより過学習が抑制されたのは特徴が強調された影響が出たものと推察する。一方，対象画像の解像度を下げた場合，過学習が促進されるという結果を得た。したがって，CNNでは物体を抽象化するために，位置分解能を下げながら特徴を強調することが大切であることを示唆しているものと思われる。

今回は主に光学顕微鏡像を対象にしたが，同様に走査型電子顕微鏡像に対する認識率の調査も今後の課題であろう。また，専門家でも識別が必ずしも容易ではないベイナイト組織とマルテンサイト組織の識別がディープラーニングで可能であるかどうかも大いに興味がもたれる。究極的には，マルテンサイト−ベイナイト複合組織中でそれぞれの組織を識別できるかというR-CNNを使った検討が必要であり，今後の研究の進展が期待される。

また，画像識別がディープラーニングで可能となると，そのあとの画像処理の最適なフィルタの自動選択，そして自動定量解析が統合化された統合化システムが構築されることが望まれる。この画像識別・処理・解析の統合化システムと，組織の数値情報から種々の機械学習法で特性を予測するモデル⁸⁾を集約することができれば，試料を光学顕微鏡下に配置すれば，即座に特性を推定できる人工知能を使った統合化予測システムが完成することになる。近年，マテリアルズインフォマティクスや，マテリアルズインテグレーションなどのビッグデータ，人工知能を材料工学に融合する取り組みが様々なところで行われるようになっているが，今回示したCNN−ディープラーニングによる材料組織識別，そして将来的に構築を目指している統合化システムも材料開発の効率化に寄与するものと期待される。

5. 結言

フェライト，パーライト，フェライト−パーライト，フェライト−マルテンサイト組織を対象に，Convolutional Neural Network(CNN)を利用したディープラーニングにより組織識別の可能性を検討し，以下の結果を得た。

(1)ディープラーニングの一つのフレームワークであるCaffeをバックエンドとするDigits-3.0を用いて，CNNモデルであるLeNet，AlexNet，GoogLeNetを適用した組織識別学習を実施したところ，いずれのモデルでも学習時の識別率は92~94%に達した。GoogLeNetによる学習結果をもとに，新規の組織画像に対して識別精度を検証したところ，ほぼ同等の識別率が得られた。ただし，もっとも初期の画像認識モデルであるLeNetでは他の二つのモデルに比べて過学習の傾向が認められた。

(2)材料組織認識へのGoogLeNetモデルの最適化を検討したところ，学習率，dropout率，および入力画像からの平均画像の引き算が重要であるという結果を得た。

謝辞

本研究は，日本鉄鋼協会研究会「鉄鋼インフォマティクス」(主査:足立吉隆)ならびに総合科学技術・イノベーション会議のSIP(戦略的イノベーション創造プログラム)「革新的構造材料」(管理法人:JST)によって実施された。ここに関係各位に謝意を表する次第である。

Appendix

畳み込みニューラルネットワーク(CNN)について要点を以下に説明する^A1)。Fig.1aに示すように，畳み込み(convolution)とは画像処理のフィルタリングと同様であり，いま物体形態が関数f(x)で与えられているときに，関数g(x)で与えられるフィルタを一定間隔aずつ動かしながらかけていくと，新しい関数(f×g)(x)が得られる。Fig.1aでは物体とフィルタが重なっている領域の面積が新しい関数として得られる。この考えを画像に当てはめて説明しているのがFig.2aである。画像は，それぞれの座標で輝度値(グレー画像の場合)あるいはRGB値(カラー画像の場合)を持っている。いま，3×3(pixel)の画像を考え，そこに2×2(pixel)のあるフィルタ(CNNではkernelという)をかけると，新たな値としてO0が出力される。フィルタの場所を一定間隔でずらしていくと，O1，O2，O3の出力が順次得られる。これを数値処理が行いやすいように，行列表示したものがFig.3a(左)である。フィルタの種類を増やした場合を同(右)に示す。この畳み込みにより，原画像から特徴が抽出されたのである。

Fig. 1a.

Concept of convolution.

Fig. 2a.

Explanation of convolution.

Fig. 3a.

Convolution in a determinant form.

さらに，CNNでは畳み込みのあと，位置情報の次元を落とすプーリング(pooling)と呼ばれる処理が施される(Fig.4a)。Fig.4aでは2×2のフィルタ(kernel)をかけて，例えばそのフィルタ内の最大値を代表値として抽出するMax poolingという処理が行われる。プーリングにより位置変更への感度を下げ，小さな平行移動に対する普遍性を持たせて，画像内の位置にかかわらず，物体を認識することができるように工夫されている。

Fig. 4a.

Convolution and pooling (above), and LeNet5 (below)¹⁾.

畳み込み層とプーリング層のあと，一度情報を全結合して抽出された情報を集約し，第二層の畳み込み層，プーリング層へデータを送る。第二層では，この操作を今一度繰り返すことによって，第一層に比べてより物体全体の特徴を抽出することが行われることになる。入力層の情報(x_j)は，重み係数(w_ij)とバイアス(θ)を使った関数(y_i)で表現された後，非線形伝達関数φで次の階層に伝達されている式(1a)。

y i = φ ( w i j x j + θ )

(1a)

非線形伝達関数としては，従来シグモイド関数^*A1がよく用いられてきたが，最近ではReLU関数(max(0, x))が用いられることが多いようである。ここで，重み係数，バイアスの最適化は，誤差逆伝播法(脚注参照)で行われており，それらの係数の最適化が学習の精度を上げるのに重要である。そこで，CNNを含むニューラルネットワークでは，損失関数(本研究で用いたCNNプラットフォームのCaffeではsoftmax lossが使われている)の値ができるだけ小さくなるように，出力層に最も近い層の重み係数およびバイアスの最適化を行い，そこで一度決定した係数は二度と変更することなく，入力層に近い層の係数の最適値を求める操作が行われている。

*A1 単調増加連続関数で，1つの変曲点を持つ。非直線関数であり，ニューラルネットワーク(ANN)でノード間の伝達関数に用いられる。a=1の時，標準シグモイド関数と呼ぶ。広義には，双曲線正接関数(tanh)もシグモイド関数と呼ぶ時がある。

ς a ( y ) = 1 1 + e − a y = t a n h ( a y / 2 ) + 1 2

(2a)

シグモイド関数ςは微分可能な事も一つの理由で，ANNにおいて重み係数を最適化するために実施される最急降下法でステップ関数の代わりに用いられている。シグモイド関数の一階微分は以下で与えられる。

ς a ' ( y ) = a ς a ( y ) { 1 − ς a ( y ) }

(3a)

いま入力層x_jと隠れ層y_iがあり，次式で関係づけられるとき，

y i = Σ j=1 H w ij x j + θ i

(4a)

これをシグモイド関数(あるいはReLU関数)で伝達し，

f i = ς a ( Σ j=1 H w ij x j + θ i )

(5a)

これを誤差関数

E= 1 2 Σ i=1 N ( f i − t i ) 2 , t i は推定値

(6a)

に代入する。重み係数w_ijの最適化に用いられる最急降下法では誤差関数を重み係数で一階編微分(∂E/∂w_ij)する。

∂E ∂ w ij = ∂E ∂ f i ⋅ ∂ f i ∂ w i = Σ i=1 N ( f i − t i )⋅ f i ( 1− f i ) x j

(7a)

最急降下法とは，ニューラルネットワークのアルゴリズムの一つである誤差逆伝播法で，重み係数を最適化する際に用いられる手法である。勾配法ともいう。誤差関数を最小にする重み係数を求める際に，誤差関数Eをいま注目している重み係数w_iを一階偏微分∂E/(∂w_i)しその傾きに一定の係数ε(学習率，learning rateという)を掛けて，これを未だ最適化されていないw_i^tに加えてw_i^t⁺¹=w_i^t+ε∂E/∂w_iを得て誤差関数が最小になるまでこの操作を続けて最適な重み係数を求める手法である。

εが低いとなかなか収束しないため，重みを調整してあげるのがモーメンタムの役割である。モーメンタム係数μは不要に重みが爆発するのを防ぐためのペナルティ項の係数である。最急降下法による誤差逆伝播法の重み更新式は式(8a)のように与えられる。ここでは，Weight decay(重み減衰率α_c:重みの振動を防ぐための項の係数)の項も入っている⁷⁾。

w ( t + 1 ) = w ( t ) + ε ∂ E ∂ w ( t ) − μ w ( t ) + α c w ( t − 1 )

(8a)

文献

1) Y. LeCun, L. Bottou, Y. Bengio and P. Haffner: Proc. IEEE, IEEE Computer Society, Washington, 86(1998), 2278.
2) A. Krizhevsky, I. Sutskever and G.E. Hinton: Proc. Advances in Neural Information Processing Systems 25, NIPS foundation, California, (2012), 1090.
3) C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke and A. Rabinovich: Proc. IEEE Conference on Computer Vision and Pattern Recognition, IEEE Computer Society, Washington, (2014), 1.
4) RBMから考えるDeep Learning, http://qiita.com/t_Signull/items/f776aecb4909b7c5c116, (参照2016-04-18).
5) R. Girshick and R. Girshick: Fast R-CNN. arXiv: 1504.08083, (2015).
6) S. Ren, K. He, R. Girshick and J. Sun: arXiv: 1506.01497v2 [cs.CV] 13 Sep, (2015).
7) Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama and T. Darrell: arXiv preprint arXiv:1408.5093, (2014).
8) Y. Adachi, K. Shinkawada, A. Okuno, S. Hirokawa, M. Taguchi and Y. Adachi: Tetsu-to-Hagané, 102(2016), 47.
A1) 例えば、ディープ・ラーニング最新技術情報、https://www.youtube.com/watch?v=1aHQ2tVVlj8, (参照2016-04-18)

Corresponding author

Register with J-STAGE for free!