2021 年 107 巻 11 号 p. 897-905
In steel making processes, influence of an equipment fault on production operation is significant. It is strongly required to detect an equipment fault at an early stage and to prevent the damage. Therefore, fault detection technique for steel making facilities based on data science is developed as an online-monitoring system. One of main features of the developed system is hierarchical monitoring consisting of three levels such as an entire process, facilities and sensors. Another is display of heat-mapping according to the degree of anomaly for huge number of monitoring items. Some anomaly signs at the hot rolling process where the system has been developed are successfully detected.
鉄鋼プロセスは,製銑,製鋼,圧延などのプロセスが連関しており,各工程を構成する設備が1つでも故障すると次工程以降への影響が甚大である。そのため,設備異常の予兆を早期に発見しトラブルを未然に防止し安定操業を行なわなければならない。しかし,監視すべき設備数が非常に多く,設備種類も多岐に渡るため,発生したトラブル事例に基づき個々に監視ロジックを構築する従来の方法では限界がある。
従来の設備異常監視は,圧延機の駆動系を始めとする回転機械系を対象とした振動計による監視1–3)が主流である。その他に,圧延機の圧下系などの油圧サーボ系を対象に制御手法を適用した監視4,5)や鋼材を搬送するテーブルロールを対象としたモータ負荷電流6,7)による監視など機器別の監視などの報告がある。いずれも特定の機器を対象としており,限定的,局部的な監視に留まっている。
そこで,これらの問題を解決するために,大量の操業データに対してデータサイエンス技術を適用し,網羅的,かつ,高精度な監視を両立可能な設備異常予兆監視技術を開発しシステムとして構築した7)。
本論文では,熱間圧延工場での検知事例を交えて,開発したシステムおよび監視手法について述べる。また,プロセス全体レベルの監視を対象に,新たに開発した異常の発生源を絞り込むAI技術についても述べる。
鉄鋼プロセスの特徴は,多種多様な機器や設備から構成され,さらに階層的な構造を示す点にある。そこで,Fig.1に示すように,プロセス全体,機器,計器のレベル別監視を構成し,各レベルに適切な手法を適用した。レベル別の監視は,プロセス全体の絡み合う現象からの視点,プロセスを構成する機器の動作からの視点といった異なる視点での監視となるため,網羅的,かつ,高精度な監視が可能となる。下位の計器レベルは従来の上下限チェックで対応できる監視である。中位の機器レベルは機器単独の動作異常を検知する監視である。機器レベルでは,主成分分析(Principal Component Analysis,以下PCA)を用いた波形監視6–8)と,データ駆動型モデルを用いた変数間相関監視6,7,9)を主要な監視手法として導入した。開発した2手法は高い汎用性と高い検知精度を両立するため,これまで監視が難しかった多数の設備への監視拡大を可能にすることができた。上位の全体レベルは,プロセスの主要な現象(熱間圧延の場合,圧延現象)の正常時からの相関崩れを検知する監視である。全体レベルでは,扱う操業変数項目が百以上と膨大になるため,ビッグデータ解析に有利なスパースモデリングの一種であるLasso回帰に基づく手法を導入した7)。本手法は,収集可能な操業データすべてを対象に容易にモデルを構築することができるので,網羅的な監視が可能となる。いずれのレベルの場合も正常時の基準に対する外れ度合いを異常度として指標化した。
Concept of anomaly signs detection by hierarchy level of a manufacturing process. (Online version in color.)
本システムのもう1つの大きな特徴として,対象とする監視項目が膨大な数となるため,網羅的かつ効率的に監視するために,監視項目別の異常度の経時変化を,その大きさに応じてヒートマップ表示する点である。表示例をFig.2に示す。縦軸は監視対象の項目,横軸は圧延順であり,1つのセルは圧延材毎に統計演算した異常度(平均値や最大値などの統計量)を示す。
Example of heat-mapping display. (Online version in color.)
モデルは,鋼種,サイズ,設備動作モードなどにより区分化しているが,モデル間で感度に違いがあると,実異常の傾向変化を捉えにくくなるため,異常度の尺度を統一する工夫を行った。本システムの概要をFig.3に示す。異常度の演算は圧延完了時に一括処理され,ヒートマップ表示画面が更新される。ヒートマップ表示画面は操作室や事務所などでWeb閲覧可能である。また,監視モデルを通して着目すべき変数(説明変数など)が特定されるので必要に応じて散布図などのグラフの自動作成も可能である。散布図では,正常材とトラブル材の比較を容易に行うことができるため,異常発生時には,事務所で一次解析まで行うことが可能となる。
System configuration of anomaly signs detection. (Online version in color.)
熱間圧延プロセスの全体レベルの監視に適用したLasso回帰の概要について述べる。全体レベルの監視の狙いは,圧延現象の相関崩れから設備異常を検知することである。Lasso回帰では微小な影響係数がゼロとなり不要な説明変数を大幅に削減できるため,ビッグデータ解析に適した手法の1つである。また,回帰式であるため,異常検知時に要因元となる変数の特定が比較的容易である。回帰係数の演算手法がいくつか報告されている中で10–13),本報告で採用したベーシックな回帰係数の演算式を以下に示す。
(1) |
y:目的変数,x:説明変数,a:回帰係数,N:データ数,P:変数項目数,λ:重み
式(1)により正常時の全操業変数のデータを用いて回帰式を構築する。熱間圧延プロセスの場合,具体的な変数は圧延荷重,圧下位置,圧延機モータ電流,圧延速度,圧延機スタンド間張力などがあり,各々が目的変数であり,互いの説明変数でもある。また,動特性も考慮し,同時刻の変数だけでなく過去の変数も扱うため,例えば,100個の操業変数に対して,1操業変数あたり10個の時間展開項とすると,実際には1000項目の規模となる。このような数多くの変数を扱う熱間圧延へのLassoの適用は本報告が初めてである。
説明を容易にするために6変数を対象とした場合の例をFig.4に示す。変数間を結合する線は変数間に相関があることを示す。(a)は正常時の関係であり,式(1)により,図に示される6個の回帰式が構築される。この例では,互いに独立する2つのモデルが混在するが,陽に扱うことなく適切にモデルが構築されると考えられる。一方,(b)は異常時の関係であり,x2とx4の相関が崩れた場合を示す。(a)の正常な関係があるときに,予め準備した正常時のデータに対して変数別の予測モデルを構築し,監視判定したい(b)のような事例に対して,新たに得られる実績値から予測誤差を演算する。判定対象のデータが正常であれば予測誤差は小さく,(b)の事例のように異常であれば予測誤差は大きくなるため,予測誤差に基づき変数別に異常度を演算することができる。
(2) |
Syi:変数yiの異常度
ei:数yiの予測誤差
σei:変数yiの予測誤差の正常時における標準偏差
Application of Lasso regression method to detecting anomaly signs of the entire process. (Online version in color.)
熱間圧延工場での予兆検知の例をFig.5に示す。図に示すのは圧延機の状態を示す指標(変数A)に対する異常度のチャートである。上昇傾向にあった異常度が補修後に低下しているのが確認できる。このとき変数Aの予測モデルとして選択された説明変数をFig.6に示す。影響係数の大きい順に5つ示してある。このモデルの特徴は同一圧延機の状態を示す変数B,Cが選択されていることである。すなわち,単一圧延機内でのある特定の圧延現象がモデルとして構築されている。同一圧延機の変数Aと変数Bの関係をFig.7に示す。どちらも実績値である。水色のプロットは正常時の関係でありモデル構築に用いた学習データである。これに対して黄色~赤色のプロットはアラーム発報のあった材から4本前までの実績値である。図で示されるように正常時の関係から変数Aが逸脱し,圧延現象の相関が崩れたことにより異常度が上昇したことがわかる。
Example of detecting anomaly signs by the level of the entire process. (Online version in color.)
Coefficient of the explanatory variables of model A. (Online version in color.)
Comparison between the Alarm coil and the normal coils in relationship between variable A and B at the same mill. (Online version in color.)
別の事例をFig.8に示す。図に示すのは圧延機の状態を示す指標(変数C)に対する異常度のチャートである。この事例も異常度が上昇傾向にあることが確認できる。なお,図では示されてないが,この後の補修により異常度は上昇前のレベルまで低下した。前述の事例と同様に変数Cの予測モデルとして選択された説明変数をFig.9に示す。このモデルの特徴は異なる圧延機の同一変数Cが選択されていることである。すなわち,圧延機間の変数Cのバランスがモデルとして構築されている。2つの圧延機間の変数Cの関係をFig.10に示す。図の見方は前述の事例と同様である。図で示されるように変数Cが正常時の関係から逸脱し,圧延機間のバランスが崩れたことにより異常度が上昇したことがわかる。
Example of detecting anomaly signs by the level of the entire process. (Online version in color.)
Coefficient of the explanatory variables of model C. (Online version in color.)
Comparison between the Alarm coil and the normal coils in relationship of variable C between two mills. (Online version in color.)
以上のことからLasso回帰により圧延現象や圧延機間のバランスが適切にモデル化され,異常の予兆が検知されていることがわかる。
機器レベルの監視には,PCAを用いた波形監視と,データ駆動型モデルを用いた変数間相関監視を主要な監視手法として開発した。機器レベルの監視の狙いは,機器単独の動作異常を監視することである。この2つの手法の開発により,これまで監視が難しかった設備について,汎用的かつ大量に監視対象を拡大することが可能となる。
はじめに,PCAによる波形監視6–8)について説明する。PCA14,15)の適用としては操業変数間の相関崩れに着目した異常検知への適用16,17)が主流であるが,本報告ではこれらと異なる適用となる。一定の繰り返し動作を示す設備は,その設備の状態を示す信号の波形が一定であり,異常時には波形が乱れることが多い。そこで,PCAを用いて異常初期の波形の乱れを検知する方法を開発した。一定の繰り返し動作を示す典型的な設備としては位置決めモータの動作などがある。Fig.11は位置決めモータで駆動される設備の移動量の波形を示した図である。
Application of PCA method to detecting anomaly signs in a facility. (Online version in color.)
波形を構成するサンプリング点がP点あるとすると,1つの波形はP次元空間上では1点に対応する。隣り合うサンプリング点は相関があるため,正常時の波形はP次元空間上で互いに相関を有する形で分布する。ここでPCAを適用することで,正常時の波形を主成分として抽出することが可能となる。図に示すように,ハンチングなどにより波形に乱れが生じるときは主成分から外れるので,主成分に垂直な成分として定義される逸脱度を算出し,監視することで異常予兆を検知できる。この手法は,設備の種類を問わず,正常時の波形のばらつきは異常として検知されにくい一方で,設備起因の微小異常は検知しやすいという特徴がある。計算式を以下に示す8,9)。T2統計量は主成分方向の指標,Q統計量は主成分に垂直な方向の指標である。
(3) |
tr:第r主成分得点
σtr:第r主成分得点trの標準偏差
xp:p番目にサンプリングされたデータ(ハットはPCAによる再構築データ)
R:主成分数 (次元圧縮後の次元)
P:データサンプリング数
次に,データ駆動型モデルを用いた変数間相関監視6,7,9)について説明する。データ駆動型モデルの適用としては各種予測モデルへの適用18–21)が主流であるが,本報告ではこれらとは異なる適用となる。Fig.12で示すように,正常時の設備状態を示す変数間に一定の相関がある場合に,過去の正常実績をデータベースに事前登録し,判定対象の計測値を取得したときに,判定対象とデータベースに事前登録したデータ間との距離を求める。次に距離順に所定数を近傍データとして抽出し重心を求める。判定対象と重心間の距離が大きければ正常時のデータ分布から外れることになるので,判定対象と重心間の距離を逸脱度として定義し監視することができる。この手法は変数間に強い非線形性がある場合や正常時のばらつきが大きい場合でも,設備の種類を問わず汎用的に適用できるという特徴がある。判定対象と重心間の距離daの計算式を以下に示す。
(4) |
k:近傍データ数
p:データ項目数
xj:近傍データに対する変数j
qj:判定データに対する変数j
Application of data-driven modeling method to detecting anomaly signs in a facility. (Online version in color.)
予兆検知の例として,仕上巻取機における巻取開始直後の設備動作に対するPCAを用いた波形監視およびデータ駆動型モデルを用いた相関監視の結果例をFig.13に示す。どちらも上昇傾向にあった異常度が補修後に低下していることを確認することができる。
Example of detecting anomaly signs by the level of facilities. (Online version in color.)
ここで,レベル別監視の意義について整理する。Fig.1で示した階層的な構造を示す設備構成について,機器レベルは縦方向の視点,全体レベルは横方向の視点での監視となる。よって,異常があった時に,縦横二重の監視が可能で,総合的判定により要因を特定しやすいという特徴がる。また,全体レベル,機器レベルの監視についてはTable 1に示す長所,短所があるので,全体レベル監視で網羅的に監視しつつ,機器レベル監視で重要設備から順次拡大していくという機能分担も可能となる。
Level of an entire process | Level of facilities | |
---|---|---|
Detection accuracy | Low | High |
Ease of modeling | Easy | Needs individual modeling |
Coverage of monitoring target |
Large | Small |
前述の全体レベルの監視では,異常の発生源が回帰モデルを通して他の変数に伝播し結果的に複数の変数で異常が観測されるという問題がある。説明を容易にするために6変数を対象とした事例をFig.14に示す。異常の発生源をx2と仮定した場合,x2を説明変数に有するx1,x4でも異常度が上昇する。実際には,変数が百以上あり,複数の異なる異常が併発することもあるため,異常の発生源を特定しがたい。そこで,AIを利用して推定する方法を開発した。
Image of propagation of anomaly source. (Online version in color.)
まず,Fig.15に示すように正常時のデータに対して変数別に微小異常を人工的に付加したときの変数別の異常度パターン(以下,基本特性パターンと呼ぶ)を準備する。前述のとおり回帰モデルを通して他の変数に伝搬するため,基本特性パターンは変数別に異なるパターンを示す。一方で,実現象として観測される異常度は基本特性パターンの線形結合として考えられる。例としてxmとxnの2つが同時に発生源となる場合をFig.16に示す。そこで,予め基本特性パターンを様々に組合せた合成パターンをディープラーニングにより学習を行うことで,実現象として観測された異常度に対して,どの変数の基本特性パターンが含まれているかを推定することにより,発生源の異常変数を絞り込むことができる。
Basic unique patterns of anomaly scores acquired by adding perturbation to eachvariable. (Online version in color.)
Case of simultaneous occurrence of anomalies. (Online version in color.)
実際には,圧延材1本分の基本特性パターンを変数×時間の2次元画像として準備し,後述する方法で人工的に合成した大量のサンプルを2次元画像として扱うことにより,畳み込み層とプーリング層のセットが2段階で構成される畳み込みニューラルネット(CNN)22–26)を適用した学習を行った。ただし,変数の並び順の影響を排除するために,各層のフィルタは時間軸方向だけに作用するものとした。合成にあたっては,変数の組合せ,重みだけでなく,圧延材の先端から微小異常を付与する場合,中間部から付与する場合など様々な組合せをランダムに行った。また,CNNモデルは基本特性パターン別に準備し,対応する基本特性パターンが含まれるかどうかを判定する。パターン別にモデルを準備した大きな理由は,将来,変数を増加させたときにモデルのメンテナンスが容易となるためである。学習の概要をFig.17,詳細をTable 2に示す。なお,Fig.17で示したものは,基本特性パターンxiとxkは先端(LE)から,xjは中央から微小異常を付与したものを合成したイメージである。
Learning procedure for a combination of basic unique patterns. (Online version in color.)
Number of basic unique patterns (Number of variables selected for anomaly source estimation) | 95 |
Number of training data per basic unique pattern | 14,000 |
Maximum number of patterns to combine | 4 |
How to determine the parameters such as weights given to the pattern and the positions to be combined | random |
Type of learning model | CNN (95 models) |
(5) |
w1, w2,・・・:重み
過去発生した5つのトラブルに対する推定結果をTable 3に示す。異常度があらかじめ設定した閾値を超えた変数の数に対する発生源として推定した変数の数の比率を集約率とすると,集約率は7~33%という結果を得た。また,絞り込み後の変数は,トラブルの分析から判断される検知すべき変数について見逃しはないため,推定結果は妥当と言える。
Fault A | Fault B | Fault C | Fault D | Fault E | |
---|---|---|---|---|---|
Number of variables whose anomaly score exceeded the threshold | 45 | 15 | 39 | 17 | 10 |
Number of variables estimated as anomaly sources | 3 | 5 | 5 | 3 | 3 |
Number of missed variables that must be detected | 0 | 0 | 0 | 0 | 0 |
Number of variables not valid as anomaly sources | 0 | 3 | 3 | 0 | 1 |
データサイエンス技術を適用した鉄鋼プロセス設備のレベル別異常予兆監視技術について,開発したシステムの概要や適用した検知手法を論じた。階層構造を示す各機器・設備に対して,プロセス全体,機器,計器のレベル別監視を構成し,各レベルに適切な解析手法を適用することにより,網羅的かつ検知精度の高い異常予兆監視を可能とするシステムを開発した。また,膨大な監視点数に対して効率的な監視を可能とするため,異常度をヒートマップ表示する仕組みを開発した。本機による熱間圧延工場ラインでの監視では,トラブル未然防止に繋がる結果を得ることができた。