レジリエントなスラブヤード運用意思決定過程のための認知フレームワークの評価

水山 元; 中溝 航平; 杉之内 将大

doi:10.2355/tetsutohagane.TETSU-2024-063

Abstract

A slab yard within a steel factory comprises multiple Last-In, First-Out (LIFO) buffers, typically managed by a crane operator in a dynamic environment. The efficacy of decision-making in controlling the slab yard hinges on the operator’s cognitive grasp of the task. Therefore, it is crucial to evaluate various cognitive frameworks to enhance and stabilize performance, bolster resilience, and adequately support the operator. This study presents a framework integrating feature variables that convey information about the due dates of slabs, intended for use by and provision to the operator. Subsequently, it employs a combination of behavioural and computational methodologies to assess this framework, utilizing a serious game model of the task for testing purposes. The findings confirm that the effective representation for conveying due date information depends on yard congestion, with the provision of such information potentially backfiring when the yard is crowded. This observation holds true for both computational experiments using a reinforcement learning agent and behavioural experiments using human subjects. Moreover, the consistency of results across both experiments suggests that a reinforcement learning agent could be valuable for formulating plausible hypotheses regarding the suitable cognitive framework for individuals tasked with this responsibility.

1. 緒言

生産システムは，一般に，注文の変更や取消，設備の故障や不具合，作業者の欠勤，手配品の納期遅れなど，様々な不確実性が存在する動的な環境下で運用されている。そうした不確実性は，事前に想定し，定型的な対策^†1を用意することで吸収できるものばかりではない。事前には想定，あるいは対策しづらいような変動に直面したとしても，システムが破綻することなく機能し続けられる能力を「レジリエンス」と呼ぶとすると，その能力の根幹は，人の臨機応変な意思決定に支えられているのが現状である。しなしながら，運用の意思決定（の一部）を人に委ねるだけで，システムに自ずとレジリエンスが備わるわけではない。生産システム運用の意思決定の巧拙は，その担当者の認知スキルに依存しており，それが未熟だと，逆に破綻を招き寄せることにもなりかねない。したがって，不確実性下での運用の意思決定を支える認知スキルを解明し，その習得や実践を支援することは重要な課題である。

†1　例えば，バッファ（余剰能力や安全在庫など）の設置

本研究では，不確実性下での生産システム運用の意思決定の典型例として，製鉄所の加熱炉前スラブヤードを運用するクレーンオペレータの動的な意思決定過程を取り上げる。ここで想定するスラブヤードは，いくつかのスラブ置場（LIFOバッファ）と1台のクレーンで構成されている。スラブは，上流の製鋼工程から供給され，クレーンによって，ある置場から別の置場へ，または加熱炉へと搬送される。そして，加熱炉で適温まで加熱された後，下流の圧延工程に送り出される。新しいスラブのヤードへの搬入，加熱されたスラブの圧延工程への搬出，などの事象が外生的にシステムの状態を変化させていくため，クレーンによってどのスラブをいつどこに移動させるか，を決定するタスクは，不確実性下での動的な意思決定過程となる。

このスラブヤードの運用問題は，抽象化すると，複数のスタック間で荷物を移動させる作業の系列を決定する問題であり，従来から多くの研究がなされてきた。Tanaka¹⁾は，そうした従来研究の動向をまとめている。例えば，文献^{2,3,4,5,6,7,8,9,10)}は，ヤード内のスラブの初期配置と圧延スケジュールが与えられ，その後のスラブの追加的な搬入は考えなくてよいものとして，移動回数，移動距離などの最小化を目的としたクレーン作業のスケジューリング問題に取り組んでいる。文献^11,12)は，コンテナヤードを対象にして，類似のスケジューリング問題を扱っている。文献¹³⁾は，ヤード内のクレーン作業スケジュールと後工程の圧延スケジュールの同時最適化を検討している。一方，文献¹⁴⁾は，ヤードに搬入されるスラブを，後工程の圧延スケジュールにとって好都合になるように，複数の置場に積み分ける問題を考えている。文献^{15,16,17,18,19,20)}は，スラブやコンテナの搬入と搬出の両方を考慮したクレーン作業スケジューリング問題に取り組んでいる。これらはすべて，ヤードの運用を静的なスケジューリング問題として捉えているのに対して，文献^21,22,23)では，クレーン作業スケジューリングの動的な側面を考慮し，簡単なルールやヒューリスティックの性能を比較している。また，文献²⁴⁾では，スケジューリング問題の近似解をオンラインで導出することで，文献²⁵⁾では，ルールに基づき次に加熱炉に装入するのに適したスラブを選定することで，それぞれクレーンオペレータに動的に作業指示を出す方法を検証している。

以上のように，多くの従来研究はなされているものの，そこでは，主にヤード運用の自動化が志向され，運用を担当する人の認知スキルの解明や支援という視点は乏しかった。これに対して，著者ら^26,27)は，スラブヤード運用タスクを簡易化したシリアスゲームを開発し，それを用いて，運用担当者の認知スキルの解明に取り組んできた。具体的には，ヤード運用の意思決定の巧拙は，担当者が，それをどのような問題として認識しているか，に依存すると考え，その問題の捉え方を規定するフレームワークを「認知フレーム」と呼ぶ^†2。そして，どのような状況でどのような認知フレームが有効に機能するか，を計算科学的手法と行動科学的手法を組み合わせたアプローチで分析している²⁸⁾。これが分かれば，スラブヤードの運用担当者に，状況に応じた適切なフレームワークで情報を提示する，などの支援が可能になると期待される。

†2　著者らは，認知フレームを，インタフェース，インタラクション，インセンティブの3軸で捉えている。ここに，インタフェースとは「状態の捉え方」について，インタラクションとは「実行可能な行為やその影響」について，インセンティブとは「結果の好ましさ」について，それぞれ担当者が持つ認識である²⁸⁾。本稿では，これらのうち，特にインタフェースの軸に注目する。

例えば，文献²⁷⁾では，強化学習エージェントの学習性能を比較する数値実験によって，有効な認知フレームはスラブヤードの混雑度に依存するという結果を得た。しかしながら，これはあくまで強化学習エージェントでの結果であり，そのまま人にも汎化できるかどうか，は未検証の仮説である。そのため，同様のシリアスゲーム上で，実際の人を被験者としてそれを検証することが課題として残されている。そこで本論文では，スラブヤードの運用性能に関わる主な要因の一つであるスラブの納期に関する情報に焦点をあて，この仮説検証の課題に取り組む。具体的には，まず，納期情報の与え方を変えて，強化学習エージェントにスラブヤード運用のシリアスゲームをプレイさせ，その学習性能を比較することで，納期情報を提示する有効なフレームワークについての仮説を立てる。続いて，実際の人に同じシリアスゲームをプレイしてもらう被験者実験を行い，納期情報の与え方による運用性能の違いを比較することで，その仮説が人にも汎化できるかどうかの検証を行う。

本論文の以降の構成は，以下の通りである。まず2節で，対象とするスラブヤード運用タスクを簡易化したシリアスゲームモデルと，そのゲーム内でスラブの納期情報を提示するためのフレームワークを導入する。続く3節では，プレイヤーの意思決定を模倣する強化学習エージェントモデルを導入した後，そのエージェントにシリアスゲームをプレイさせる数値実験について述べる。4節では，シリアスゲームを人にプレイしてもらう被験者実験の結果を示し，それを数値実験の結果と比較して議論する。最後に，結言として，5節で，本論文で得られた成果と今後の課題をまとめる。

2. 対象タスクとその認知フレームのモデル化

2・1　スラブヤード運用タスクのシリアスゲームモデル

本論文では，実際のスラブヤードを運用する代わりに，それを簡易化したシリアスゲームを利用したシミュレーション実験を行う。このシリアスゲームは，著者ら^26,27)が，実際のスラブヤード運用タスクを簡易化することによって開発したものを，実験の内容に合わせて微修正したものである^†3。Fig.1に，ゲーム内でプレイヤーが運用する簡易化したスラブヤードの概念図を，Table 1に，ヤード内外のスラブ置場の特徴を，Fig.2に，ゲームの表示画面の一例を，それぞれ示す。

†3　具体的には，被験者実験で，スラブの納期情報を色で表現できるようにするために，スラブのタイプを（色ではなく）形状で表現するように修正した。

Fig. 1.

Schema of the simplified slab yard. (Online version in color.)

Table 1. Buffers in and before the slab yard.

Name	Role	Policy	Capacity
Queue	Queue outside the yard	FIFO	Infinity
EB	Entrance buffer	LIFO	4
IB1	Intermediate buffer 1	LIFO	4
IB2	Intermediate buffer 2	LIFO	4
IB3	Intermediate buffer 3	LIFO	4
IB4	Intermediate buffer 4	LIFO	4
LB	Loading buffer	FIFO	4

Fig. 2.

Example screen of the slab yard control game. (Online version in color.)

以下に，本ゲームの概要を述べる。

・対象とするスラブヤードは，Fig.1に示すように，加熱炉と圧延工程をまとめた仮想的な単一機械，複数のスラブ置場，および1台のクレーンで構成される。

・ヤード内のスラブ置場は，Table 1に示すように，入口バッファ（EB），4つの中間バッファ（IB1, 2, 3, 4），および，機械前の装入バッファ（LB）に分類される。さらに，EBの上流に，製鋼工程から運ばれて来るスラブの待ち行列（Queue）が置かれている。

・EBおよびIBはLIFO型バッファ，LBとQueueはFIFO型バッファとして，それぞれモデル化されている。また，EB，各IB，およびLBの容量は4個に限定されているが，Queueの容量は無限である。

・スラブは，指数分布に従う間隔で，確率的にQueueに到着する。なお，到着間隔の平均をMean Time Between Arrivals（MTBA）と呼び，それを，混雑度を規定するパラメータとして扱う。

・各スラブにはタイプが指定されている。このタイプは， 4種類（0, 1, 2, 3）の中から，一様分布に従ってランダムに定められる。

・各スラブには期限が指定されている。この納期は，Queueへの到着時刻に，一様分布に従う乱数を加えることで定められる。

・Queue内のスラブは，空きがあれば1個ずつ自動的にEBに移動される。この移動にかかるサイクルタイムは4分である。

・機械には（処理中，もしくは，次に処理可能なスラブに対応する）タイプの情報が付与されている。

・現在の機械のタイプと異なるタイプのスラブを機械に装入するためには，機械に段取り作業を施す必要がある。この段取り作業にかかる時間は，タイプの変更が昇順の場合は6分，降順の場合は60分である。

・LB内のスラブは，機械が空いていれば，（必要に応じて段取り作業を施した後）1個ずつ取り出され，自動的に機械に装入される。この（段取り作業後の）装入動作にかかる時間は0分であり，機械での処理時間は，スラブのタイプによらず，6分である。

・クレーンの移動可能な経路は，EB, 各IB，LBを葉ノードとしたスターグラフで表される。

・クレーンは，中心ノードから動き始め，プレイヤーが指定した搬送元の置場からスラブを1個取り出し，中心ノードを経由して，搬送先の置場に移動し，そこで保持していたスラブを置いた後，再度中心ノードに戻る。この一連の搬送動作にかかるサイクルタイムは4分である。

・ゲーム開始時点での機械のタイプの初期値は0である。また，各置場にはランダムに生成されたスラブがいくつか保持されている。

・それ以降，プレイヤーが実行できる操作は，クレーンが動作可能になった際に，次の搬送動作の搬送元と搬送先のペアを指定すること，もしくは，中心点での一定時間の待機を指示すること，のいずれかである。

・納期に間に合ったかどうかにかかわらず，スラブが機械に装入されるたびに1点のボーナスが得られる。

・納期までに機械に装入できなかったスラブに対して，それぞれ納期遅れに比例したペナルティが発生する。

・ゲームスコアは，その時点までに獲得したボーナスの合計から，発生したペナルティの合計を差し引くことで定義される。

2・2　納期情報に関する認知フレーム

本論文では，このゲームのプレーヤーの認知フレームを規定する要素の一つとして，スラブの納期情報の与え方に注目する。そして，この納期情報の形式の違いがヤードの運用性能に与える影響を，強化学習エージェントを用いた数値実験，ならびに被験者実験によって調べる。その際，納期情報の形式として，以下の4パターンを比較する。

・納期情報を与えない。

・納期までの残り時間を，所定の閾値で区切り，2クラスで与える。

・納期までの残り時間を，所定の閾値1，閾値2で区切り，3クラスで与える。

・納期までの残り時間を分単位で与える。

便宜上，これらのパターンを上から順に，「納期情報なし」，「2C（閾値）」，「3C（閾値1：閾値2）」，「グラデーション」と呼ぶ。また，「2C（閾値）」において，納期までの残り時間が閾値を下回っているスラブを「クラスI」，そうでないものを「クラスII」とする。同様に，「3C（閾値1：閾値2）」において，納期までの残り時間が少ない順に「クラスI」，「クラスII」，「クラスIII」とする。

3. 強化学習エージェントによるゲームプレイ実験

3・1　強化学習エージェントモデル

このゲームのプレイヤーは，サイクルタイム（4分）毎にクレーンの次の行動を選択する必要がある。このとき，選択可能な行動は，「搬送元の置場から搬送先の置場へのスラブの搬送」，もしくは，「中心点における1サイクルの待機」のいずれかである。搬送を選択する場合，スラブが積まれていない置場とLBは搬送元として，スラブが満杯である置場とEBは搬送先として，それぞれ指定することができない。この意思決定を模擬的に担う強化学習エージェントとして，本論文では，文献^26,27)で用いたものを，納期情報の形式に合わせて微修正した上で利用する。これは，状態価値関数を学習し，それを用いて事後状態の価値を予測した上で，それを最大にするように行動選択を行うエージェントである^29,30)。

このゲームの即時報酬は，各サイクルでのゲームスコアの増分と考えればよい。すなわち，そのサイクル中に機械にスラブが装入された場合に，それによって獲得されるボーナスから，ヤード内に納期遅れスラブが存在した場合に，それらにかかる納期遅れペナルティの増分を引いた値である。したがって，任意の状態の価値は，それ以降に得られるこの即時報酬の割引現在価値として定義できる。上述のエージェントは，これを，以下で述べる状態の特徴量（を正規化した値）を入力，状態価値を出力とするニューラルネットワークによって近似している。

文献²⁷⁾では，状態を表す特徴量を，一般的なもの（General features：GFs），生産率に関するもの（Production rate features：PFs），納期遅れに関するもの（Tardiness features：TFs）に分類している。これらのうち，GFsとPFsは，本論文でもそのまま利用する。具体的には，GFsは，Table 2の11変数，PFsは，Table 3の19変数からなる。ここに，スラブのSL（Setup Lap）とは，そのスラブを処理するまでに，機械のタイプを変更する段取り作業を最低何周回行う必要があるか，を表す。具体的には，そのスラブを含むIBまたはEBから上から順にそのスラブまでを全てその順にLBに移動させることによって追加される段取り作業のうち，60分の時間を要するものの出現回数で定義される。

Table 2. General features (GFs)²⁷⁾.

Variables	Description
GF1-4	Number of slabs in each IB (sorted in increasing order)
GF5	Total number of slabs in IBs
GF6-8	Numbers of slabs in EB, LB, and Queue
GF9	Time until machine becomes available
GF10	Number of different types of slabs on top of IBs
GF11	Sum of the number of empty IBs and GF10

Table 3. Production rate features (PFs)²⁷⁾.

Variables	Description
PF1	Time until LB becomes empty (if no further slabs are moved to LB)
PF2-3	Total and mean setup times for slabs in LB
PF4-5	Number/ratio of slabs in IBs movable to LB without adding setup
PF6-7	Number/ratio of slabs in EB movable to LB without adding setup
PF8-9	Number/ratio of slabs with SL = 0 in IBs
PF10-11	Number/ratio of slabs with SL = 0 in EB
PF12-13	Number/ratio of slabs with SL = 1 in IBs
PF14-15	Number/ratio of slabs with SL > 1 in IBs
PF16-17	Number/ratio of slabs with SL = 1 in EB
PF18-19	Number/ratio of slabs with SL > 1 in EB

一方， TFsは，納期遅れに関する特徴量であるため，指定された納期情報の形式と整合的とは限らない。そこで，本論文では，これに代えて，納期情報の与え方のパターンごとに，納期に関する特徴量（Due date features：DFs）を新たに導入する。ただし，「納期情報なし」の場合は，当然ながら，DFsはなしである。まず，「2C（閾値）」の場合のDFsとしては，Table 4の58変数を定義する。ただし，置場内のスラブの「深さ（Depth）」とは，FIFO型，LIFO型ともに，次に取り出される位置を深さ1，続いて深さ2，3，4の順に定義される。続いて，「3C（閾値1：閾値2）」の場合は，Table 5の72変数をDFsとする。最後に，「グラデーション」のDFsとしては，Table 6の71変数を用いることにする。ただし，スラブのTTD（Time To Due）とは，そのスラブの納期までの残り時間を表す。

Table 4. Due date features (DFs) for two-class information.

Variables	Description
DF1-4	Number/ratio of slabs of class I and those of class II in EB
DF5-20	Number/ratio of slabs of class I and those of class II in each IB
DF21-24	Number/ratio of slabs of class I and those of class II in LB
DF25-28	Number/ratio of slabs of class I and those of class II in all IBs
DF29-46	Minimum, average, and maximum depth of class I slabs in EB, each IB, and LB
DF47-48	Number/ratio of slabs removable from EB in right order of their classes
DF49-50	Number/ratio of slabs removable from all IBs in right order of their classes
DF51-52	Number/ratio of slabs removable from LB in right order of their classes
DF53-54	Number/ratio of slab pairs in EB arranged in opposite order of their classes
DF55-56	Number/ratio of slab pairs in all IBs arranged in opposite order of their classes
DF57-58	Number/ratio of slab pairs in LB arranged in opposite order of their classes

Table 5. Due date features (DFs) for three-class information.

Variables	Description
DF1-6	Number/ratio of slabs of class I, those of class II, and those of class III in EB
DF7-30	Number/ratio of slabs of class I, those of class II, and those of class III in each IB
DF31-36	Number/ratio of slabs of class I, those of class II, and those of class III in LB
DF37-42	Number/ratio of slabs of class I, those of class II, and those of class III in all IBs
DF43-60	Minimum, average, and maximum depth of class I slabs in EB, each IB, and LB
DF61-62	Number/ratio of slabs removable from EB in right order of their classes
DF63-64	Number/ratio of slabs removable from all IBs in right order of their classes
DF65-66	Number/ratio of slabs removable from LB in right order of their classes
DF67-68	Number/ratio of slab pairs in EB arranged in opposite order of their classes
DF69-70	Number/ratio of slab pairs in all IBs arranged in opposite order of their classes
DF71-72	Number/ratio of slab pairs in LB arranged in opposite order of their classes

Table 6. Due date features (DFs) for gradation information.

Variables	Description
DF1-2	Number/ratio of slabs already delayed in EB
DF3-10	Number/ratio of slabs already delayed in each IB
DF11-12	Number/ratio of slabs already delayed in LB
DF13-14	Number/ratio of slabs already delayed in all IBs
DF15-23	Minimum, average, and maximum TTD of slabs in EB, all IBs, and LB
DF24-35	Minimum, average, and maximum TTD of slabs in each depth of all IBs
DF36-53	Minimum, average, and maximum depth of slabs already delayed in EB, each IB, and LB
DF54-56	Minimum, average, and maximum depth of slabs already delayed in all IBs
DF57-59	Depth of the slab with minimum TTD in EB, all IBs, and LB
DF60-61	Number/ratio of slabs removable from EB in right order of their TTDs
DF62-63	Number/ratio of slabs removable from all IBs in right order of their TTDs
DF64-65	Number/ratio of slabs removable from LB in right order of their TTDs
DF66-67	Number/ratio of slab pairs in EB arranged in opposite order of their TDs
DF68-69	Number/ratio of slab pairs in all IBs arranged in opposite order of their TDs
DF70-71	Number/ratio of slab pairs in LB arranged in opposite order of their TDs

3・2　実験の目的と計画

本実験の目的は，ヤードの混雑度とスラブの納期情報の形式を変えた下で，強化学習エージェントにこのスラブヤード運用シリアスゲームをプレイするのに有効な方策を学習させ，学習後の運用性能を比較することによって，状況に応じた，効果的な納期情報の与え方についての仮説を得ることである。

文献²⁷⁾に倣って，ゲームの1試行（エピソード）は現実の1日（＝24×60分）に相当する長さ，納期遅れペナルティは1分あたり1/120とし，スラブの到着から納期までの時間（分）は［120, 720］の一様分布で設定した。状態価値関数を近似するニューラルネットワークの構造は，80ノードの中間層3層の完全連結型であり，各ノードの活性化関数にはシグモイド関数を用いている。なお，入力層のノード数は，状態を表す特徴量ベクトルの次元数に対応するため，実験条件に依存する。また，出力層には，状態価値の近似値を出力するノードが1つだけ存在する。ネットワークの重みをランダムな値で初期化した後，文献^29,30)に従って，行動選択後の事後的な状態価値の近似値を最大にする行動を選択しながらゲームをプレイさせる。そして，その過程で，TD学習を適用し，重みの値を更新していく。予備実験に従って，学習率の初期値は0.0002とし，エピソード毎に0.999の比率で指数関数的に減少させた。学習に費やすエピソード数は5000，状態価値の割引率は0.997とした。学習後のエージェントによるヤード運用の性能は，それぞれ100エピソード分のゲームシミュレーションを行うことで評価する。

本実験では，ヤードの混雑度と状態の特徴量に関する要因を因子として取り上げる。まず，混雑度の因子に対しては，「高（MTBA＝10.0）」，「中（11.5）」，「低（13.0）」の3水準を用意した。一方，状態の特徴量は，上述のGFs，PFs，DFsを組み合わせて構成するものである。そこで，本論文で注目する納期情報に関する因子を導入し，前述のパターン分類と閾値を組み合わせて，特徴量に組み入れるDFsを規定する11個の水準（「納期情報なし」，「2C（0）」，「2C（60）」，「2C（120）」，「2C（180）」，「2C（360）」，「3C（0:180）」，「3C（0：360）」，「3C（60：180）」，「3C（120：360）」，「グラデーション」）を用意した。また，生産率情報に関する因子も設け，「簡略」と「詳細」の2水準を用意した。「簡略」の場合はPF1-7のみを，「詳細」の場合はPF1-19の全てを，それぞれ特徴量に含めることにする。これによって，納期情報因子の主効果だけでなく，生産率情報因子との交互作用も評価できるようになる。なお，GFsについては，最も基本的な情報であるため，設定によらずいつも特徴量に含めることにする。

Table 7に，上で述べた各因子とそれらの水準をまとめる。実験は，これらの因子に基づいて，反復数5の要因計画として実施した。

Table 7. Control factors and their levels in computational experiments.

Factor	Levels
Yard congestion	High (MTBA=10.0), Medium (11.5), Low (13.0)
Due date information	None, 2C (0), 2C (60), 2C (120), 2C (180), 2C (360), 3C (0:180), 3C (0:360), 3C (60:180), 3C (120:360), Gradation
Production rate information	Brief (PF1-7), Detailed (PF1-19)

3・3　実験結果と考察

混雑度，生産率情報，納期情報の3つの因子の水準の組合せごとに，5回ずつ強化学習エージェントにゲームの方策を学習させた後，その学習済みの方策でそれぞれ100エピソード分のゲームシミュレーションを行い，ゲームスコアを評価した。Fig.3，4，5 に，結果を示す。図の縦軸には，学習済みの方策で得られた500組のゲームスコアの平均とその母数の95%信頼区間を，横軸には，納期情報因子の水準を示している。

Fig. 3.

Comparisons of mean game scores among different patterns of providing due date information (High congestion case).

Fig. 4.

Comparisons of mean game scores among different patterns of providing due date information (Medium congestion case).

Fig. 5.

Comparisons of mean game scores among different patterns of providing due date information (Low congestion case).

まず，混雑度が「高」の場合に注目する。この場合，生産率情報を「簡略」にすると，「グラデーション」と「2C（360）」の2パターンの性能が極端に低くなっている。「納期情報なし」の性能がそれらに次いで低い。生産率情報を「詳細」にすると，逆に「納期情報なし」の性能だけが，他を引き離して特に高くなっている。また，「グラデーション」と「2C（360）」の性能は，生産率情報が「簡略」のときと同じく，明らかに低くなった。これらのことから，スラブヤードの混雑度が高い場合は，「グラデーション」のような詳細な納期情報に注目することは逆効果であり，むしろ，「納期情報なし」で，生産率向上のみに注力することが効果的だったと言える。混雑時に「グラデーション」が悪影響を及ぼしたのは，納期情報に基づくヤード内での積替えがヤードの混雑を助長したためと考えられる。一方，「納期情報なし」では，納期情報に基づく積替えを行うことはできない。このとき，詳細な生産率情報があれば，それを用いてスラブを効率的に機械に装入していくことで混雑が緩和され，結果的に高性能につながったと考えられる。また，「2C（360）」のように，警告を出すタイミングが早すぎると，納期情報を提示する効果は薄かった。

次に，混雑度が「中」の場合に移る。この場合，生産率情報を「簡略」にすると，「2C（0）」，「2C（60）」，「3C（0：180）」，「3C（60：180）」，「グラデーション」の性能が比較的良好であった。一方，「納期情報なし」のみで，性能が極端に低くなっている。生産率情報を「詳細」にすると，「3C（60：180）」，「2C（60）」，「グラデーション」の性能が高かった。一方，「納期情報なし」，「2C（360）」は，他よりもやや低い性能にとどまっている。さらに，「簡略」，「詳細」のいずれでも「3C（120：360)」の性能は芳しくない。これらのことから，混雑度が中程度である場合，「グラデーション」，「2C（60）」，「3C（60：180）」が納期情報の有効な提示形式であることが分かった。「2C（0）」，「3C（0：180）」がそれらに続く一方で，「納期情報なし」，「2C（360）」，「3C（120：360）」は効果が薄かった。比較的性能が良かったパターンのうち，「グラデーション」，「2C（60）」，「3C（60：180）」では，納期にまだ少し余裕がある段階での積替えによってペナルティを回避できたと考えられる。特に，2C，3Cでは，このように，閾値に60を含むものが効果的であった。一方，閾値に0を含むものは，ペナルティの回避には役立たないものの，ペナルティ増大を防ぐのには有効であるため，上記の3パターンに次ぐ性能を発揮できたと考えられる。

最後に，混雑度が「低」の場合では，生産率情報が「簡略」，「詳細」のいずれであっても「納期情報なし」の性能が最も低かった。それ以外のパターンでは，全てある程度良好な性能が発揮されている。これらのことから，混雑度が低い場合は，納期情報を提示することで，その形式にはかかわらず，性能向上が期待できることが分かった。この場合，機械の能力に余裕が生じるため，納期遅れペナルティの発生を回避することが重要となる。「納期情報なし」では，それを明示的には行えないため，低性能にとどまったと考えられる。

以上の結果は，次のようにまとめられる。

・効果的な納期情報の与え方はヤードの混雑度に依存する。

・混雑度が高いときは，詳細な納期情報の提示は逆効果となり，納期情報を与えないことが最も有効である。

・混雑度が中程度のときは，「グラデーション」，「2C（60）」，「3C（60：180）」，「2C（0）」，「3C（0：180）」などの，適切な形式で納期情報を提示することが高性能につながる。

・混雑度が低いときは，「納期情報なし」のみで性能が下がる。納期情報が提示されれば，その形式によらず効果が期待できる。

・混雑度が高い，もしくは，中程度のときに，2C，3Cの閾値に360が入ると，性能が下がる。

4. 被験者によるゲームプレイ実験

4・1　納期情報の与え方

このゲームを人がプレイする場合は，ゲーム画面を通じて情報を得ることになる。そこで，被験者実験においてスラブの納期情報の与え方を統制するために，ゲーム画面に工夫を加えた。Fig.6に，各パターンの納期情報を追加したゲーム画面の例を示す。

Fig. 6.

Customized game screens for various due date presentation methods. (Online version in color.)

図から分かるように，納期情報をスラブの色で表現している。「納期情報なし」では，スラブの色は納期にかかわらず同色であるのに対して，「2C（閾値）」，「3C（閾値1：閾値2）」，「グラデーション」では，納期までの残り時間に応じてスラブの色が変わる。

4・2　実験の目的と計画

本実験の目的は，ヤードの混雑度とスラブの納期情報の形式を変えた下で，上と同じスシリアスゲームを人にプレイしてもらい，その性能を比較することによって，強化学習エージェントを用いた数値実験で得られた，効果的な納期情報の与え方についての仮説が人にも汎化できるかどうか，を検証することである。

被験者実験では，数値実験のときのように長時間の試行（エピソード）を多数回実施することは難しい。そこで，負担軽減のため，まず1試行の長さを18×60分に短縮した。これによって，納期遅れが生じにくくなるため，さらに，納期遅れペナルティを1分あたり1/90に増加させ，スラブの到着から納期までの余裕時間（分）を与える一様分布の範囲を［60, 360］に変更した。また，生産率情報を統制する因子は省き，納期情報を統制する因子については，その水準数を削減した。具体的には，「納期情報なし」と「グラデーション」に加えて，数値実験で比較的有効であった「2C（0）」，「2C（60）」，「3C（0：180）」，「3C（60：180）」と，多くの場合で低性能を示した「2C（360）」の計7パターンを比較することを考える。ただし，上述のように到着から納期までの余裕を短くしたため，「2C（180）」を数値実験における「2C（360）」に対応するパターンとして扱う。

各ゲームでは，ヤードの初期状態，個々のスラブのタイプ，到着タイミングなどの不確実性を疑似乱数で設定する。この疑似乱数列によって，ゲームにおけるヤード運用の難易度に差が出てしまうことは避けられない。そこで，本実験では，ゲームに使用する疑似乱数のシード値を固定し，不確実性の影響を調整する。ただし，シード値を固定することによる無意識的な環境条件の記憶やそれに特化した習熟を防ぐために，複数のシード値を用意し，それを実験の標示因子として扱う。予備実験を通じて選定したシード値の特性をTable 8に示す。シード番号1-3はMTBAが8.50未満となるシード値であり，数値実験におけるヤード混雑度「高」の条件に対応する。同様に，シード番号4-13は MTBAが8.50以上10.00未満の範囲にあり，混雑度「中」に，シード番号14-16はMTBAが10.00以上となるシード値であり，混雑度「低」に，それぞれ対応する。

Table 8. Characteristics of the game scenario created by each random seed.

Congestion	Serial no.	MTBA	Number of slabs
Congestion	Serial no.	MTBA	Total	Initial	Type 0	Type 1	Type 2	Type3
High	1	7.50	139	11	40	23	35	41
	2	7.80	130	7	31	35	38	26
	3	8.00	129	9	24	33	41	31
Medium	4	8.73	124	14	35	36	28	25
	5	8.73	122	12	32	30	32	31
	6	8.73	121	11	24	34	28	25
	7	8.81	115	6	30	26	19	40
	8	8.97	116	9	27	31	31	27
	9	9.05	122	16	30	28	32	32
	10	9.14	118	13	28	31	33	26
	11	9.23	118	14	28	32	29	29
	12	9.41	108	6	28	28	27	25
	13	9.90	109	12	36	19	28	26
Low	14	10.43	103	11	33	22	21	27
	15	10.90	96	8	20	23	30	23
	16	11.16	101	15	22	35	21	23

被験者は大学生7名であり，習熟の影響を緩和するため，本実験の前に各自2，3試行ずつゲームを練習してもらった。本実験のうち，混雑度「中」の実験には全員が参加したが，被験者の都合により，混雑度「高」と「低」の実験にはそのうちの（「高」と「低」で異なる）2名のみ参加した。任意の混雑度の実験に参加した被験者には全員，納期情報因子の7水準と該当する混雑度に対応するシード値の全ての組合せのもとで，ランダムな順序で，ゲームをプレイしてもらった。

4・3　実験の結果と考察

まず，混雑度因子の水準ごとに，納期情報の影響の有無を確認するために，分散分析を行った結果をTable 9, 10, 11に示す。混雑度が「高」と「低」の場合はデータ数が少ないので，標示因子であるシード値と制御因子である納期情報の二元配置実験として分析した（Table 9と11）。表より，どちらの混雑度でも，納期情報の主効果は有意であると判断できる。また，混雑度「中」の場合は，データ数が多いので，納期情報のみの一元配置でもその効果は有意であった（Table 10）。

Table 9. ANOVA table in high congestion case.

	Df	Sum Sq	Mean Sq	F value	Pr (>F)
Due date info.	6	382.3	63.7	8.70	1.04e-05
Random seed	2	673.1	336.5	45.96	2.89e-10
Residuals	33	241.7	7.3

Table 10. ANOVA table in medium congestion case.

	Df	Sum Sq	Mean Sq	F value	Pr (>F)
Due date info.	6	904	150.6	4.889	8.21e-05
Residuals	343	10565	30.8

Table 11. ANOVA table in low congestion case.

	Df	Sum Sq	Mean Sq	F value	Pr (>F)
Due date info.	6	10.36	1.73	11.74	5.16e-07
Random seed	2	126.20	63.10	429.11	< 2e-16
Residuals	33	4.85	0.15

続いて，Fig.7, 8, 9に，それそれの混雑度での，シード値の影響を調整した後のゲームスコアとその平均を，納期情報因子の水準別に示す。なお，被験者の負担を考慮して，1試行の時間，納期遅れペナルティの係数，納期までの余裕時間の分布，などを変更したため，ゲームスコアの値そのものを，強化学習エージェントによる実験の結果と単純に比較することは意味をなさない。ここでは，納期情報因子の水準間での運用性能の相対的な差に注目する。

Fig. 7.

Comparisons of adjusted mean game scores among different patterns of providing due date information (High congestion case). (Online version in color.)

Fig. 8.

Comparisons of adjusted mean game scores among different patterns of providing due date information (Medium congestion case). (Online version in color.)

Fig. 9.

Comparisons of adjusted mean game scores among different patterns of providing due date information (Low congestion case). (Online version in color.)

まず，混雑度が「高」の場合に注目する。この場合，「納期情報なし」の性能が最も高く，「2C（0）」，「2C（60）」の2パターンでもそれに迫る性能が得られている。一方，「グラデーション」と3C系の性能は低かった。次に，混雑度が「中」の場合では，「グラデーション」，「2C（60）」，「3C（60：180）」が高性能に繋がっている。最後に，混雑度「低」では，平均スコアの絶対的な差は小さいものの，「2C（60）」の性能が最も高く，混雑度「中」の場合と同じく，「グラデーション」，「3C（60：180）」の性能も良好である。一方，「納期情報なし」の性能は他よりも低くなっている。

以上の結果は，次のようにまとめられる。

・効果的な納期情報の与え方はヤードの混雑度に依存する。

・混雑度が高いときは，詳細な納期情報の提示は逆効果となる。納期情報を与えないことが最も有効であり，それに次いで「2C（0）」，「2C（60）」も効果的である。

・混雑度が中程度のときは，「グラデーション」，「2C（60）」，「3C（60：180）」の形式での情報提示が効果的である。

・混雑度が低いときは，「納期情報なし」の性能が低くなる。それ以外の形式の性能の差は小さいものの，「2C（60）」の性能が最も高く，続いて「グラデーション」，「3C（60：180）」が有効である。

以上より，強化学習エージェントを用いた数値実験で得られた傾向の大部分は，被験者実験でも同様に成り立つことが確認できた。事後アンケートで，被験者にどのような戦略を用いていたかを尋ねたところ，混雑度にかかわらず，納期情報が与えられると，納期の緊迫度に基づいてスラブを積み替えようとしていたことが確認された。混雑度が高いときに詳細な納期情報が性能を低下させる方向に働いた原因として，その積替えが逆効果であったことが示唆される。

5. 結言

本論文では，ヤードの混雑度と納期情報の与え方を変えながら，スラブヤード運用タスクを簡易化したシリアスゲームを強化学習エージェントにプレイさせる数値実験，および，人にプレイしてもらう被験者実験を行い，それらの結果を比較した。その結果，どちらの実験でも，有効な納期情報の与え方はヤードの混雑度に依存することが分かった。特に，混雑時は，粒度の細かい情報提示は逆効果になることがある。

また，数値実験の結果と被験者実験の結果を比較したところ，強化学習エージェントの学習性能に対しての，情報提示の有効性に関する傾向は，人がプレイした場合の運用性能に対しても同様に成立することが多いことが確認された。このことは，人の意思決定のための適切な認知フレームを検討する上で，強化学習エージェントを利用した数値実験が仮説生成器として機能し得る可能性を示唆している。ただし，本論文で用いたスラブヤード運用タスクのシリアスゲームは，ゲームプレイのしやすさを重視して簡易化したものである。したがって，この結果が，実環境にそのまま汎化できるかどうかには注意が必要である。

今後の課題として，スラブの属性，中間置場や加熱炉の数などの条件をより現実に近づけたゲームモデルでの検証が挙げられる。また，今回のゲームモデルは，クレーン1台で運用される範囲に限定したシングルエージェントモデルであった。これを，複数台のクレーンを複数人で運用するモデルや，スラブヤードと上流工程，下流工程との連携を考慮したモデルなど，マルチエージェントの設定に拡張することも興味深い課題である。

利益相反に関する宣言

本研究に関して，特に開示すべき利益相反関連事項は存在しない。

謝辞

本研究は，日本鉄鋼協会「攻めの操業を支えるシステムレジリエンス」研究会の活動の一環として実施されたものである。ここに記して，日本鉄鋼協会の支援に感謝する。

文献

1) S.Tanaka: Syst. Control Inf., 61(2017), 88 (in Japanese). https://doi.org/10.11509/isciesci.61.3_88
2) L.Tang, J.Liu, A.Rong and Z.Yang: J. Oper. Res. Soc., 52(2001), 1091. https://doi.org/10.1057/palgrave.jors.2601143
3) L.Tang, J.Liu, A.Rong and Z.Yang: Int. J. Prod. Res., 40(2002), 1583. https://doi.org/10.1080/00207540110110118424
4) K.A.Singh, Srinivas and M.K.Tiwari: Int. J. Prod. Econ., 91(2004), 135. https://doi.org/10.1016/j.ijpe.2003.07.005
5) L.Tang and H.Ren: Comput. Oper. Res., 37(2010), 368. https://doi.org/10.1016/j.cor.2009.05.011
6) X.Cheng and L.Tang: Advances in Swarm Intelligence, ICSI 2010, Springer, Berlin, Heidelberg, (2010), 382. https://doi.org/10.1007/978-3-642-13495-1_47
7) L.Tang, R.Zhao and J.Liu: Nav. Res. Logist., 59(2012), 502. https://doi.org/10.1002/nav.21503
8) X.Wang, M.Zhou, Q.Zhao, S.Liu, X.Guo and L.Qi: IEEE Trans. Autom. Sci. Eng., 18(2021), 1122. https://doi.org/10.1109/TASE.2020.2996227
9) P.Rajabi, G.Moslehi and M.Reisi-Nafchi: Appl. Math. Model., 109(2022), 775. https://doi.org/10.1016/j.apm.2022.05.027
10) Y.Hirashima, K.Takeda and A.Inoue: IEEJ Trans. Ind. Appl., 123(2003), 1111 (in Japanese). https://doi.org/10.1541/ieejias.123.1111
11) Y.-w.Wan, J.Liu and P.-C.Tsai: Nav. Res. Logist., 56(2009), 699. https://doi.org/10.1002/nav.20373
12) W.Zhao and A.V.Goodchild: Transp. Res. E, 46(2010), 327. https://doi.org/10.1016/j.tre.2009.11.007
13) K.Ito, T.Kurokawa, M.Shioya, H.Kobayashi, M.Ago and J.Mori: Shinnittetsu Sumikin Giho, 411(2018), 32 (in Japanese).
14) T.Kurokawa and H.Oogai: Trans. Soc. Instrum. Control Eng., 54(2018), 298 (in Japanese). https://doi.org/10.9746/sicetr.54.298
15) F.G.König, M.Lübbecke, R.Möhring, G.Schäfer and I.Spenke: Algorithms – ESA 2007, ESA 2007, Springer, Berlin, Heidelberg, (2007), 729. https://doi.org/10.1007/978-3-540-75520-3_64
16) B.-I.Kim, J.Koo and H.P.Sambhajirao: Int. J. Prod. Res., 49(2011), 5133. https://doi.org/10.1080/00207543.2010.518998
17) C.Lu, R.Zhang and S.Liu: Int. J. Prod. Res., 54(2016), 2366. https://doi.org/10.1080/00207543.2015.1076949
18) R.J.Rei and J.P.Pedroso: Int. Trans. Oper. Res., 19(2012), 379. https://doi.org/10.1111/j.1475-3995.2011.00831.x
19) R.J.Rei and J.P.Pedroso: Ann. Oper. Res., 203(2013), 371. https://doi.org/10.1007/s10479-012-1186-2
20) M.H.Akyüz and C.-Y.Lee: Nav. Res. Logist., 61(2014), 101. https://doi.org/10.1002/nav.21569
21) B.Borgman, E.van Asperen and R.Dekker: OR Spectr., 32(2010), 687. https://doi.org/10.1007/s00291-010-0205-4
22) E.van Asperen, B.Borgman and R.Dekker: Flex. Serv. Manuf. J., 25(2013), 543. https://doi.org/10.1007/s10696-011-9108-1
23) E.Zehendner, D.Feillet and P.Jaillet: Eur. J. Oper. Res., 259(2017), 48. https://doi.org/10.1016/j.ejor.2016.09.011
24) S.Kuyama and S.Tomiyama: JFE Giho, 35(2015), 43 (in Japanese).
25) S.Onishi and H.Narazaki: Proceedings of the 63rd Annual Conference of ISCIE, ISCIE, Kyoto, (2019), 30 (in Japanese).
26) H.Mizuyama: Advances in Production Management Systems, The Path to Digital Transformation and Innovation of Production Management Systems, APMS 2020, Springer, Cham, (2020), 37. https://doi.org/10.1007/978-3-030-57993-7_5
27) H.Mizuyama: Procedia CIRP, 118(2023), 20. https://doi.org/10.1016/j.procir.2023.06.005
28) H.Mizuyama: Tetsu-to-Hagané, 109(2023), 501 (in Japanese). https://doi.org/10.2355/tetsutohagane.TETSU-2022-099
29) G.Tesauro: Mach. Learn., 8(1992), 257. https://doi.org/10.1007/BF00992697
30) G.Tesauro: Commun. ACM, 38(1995), 58. https://doi.org/10.1145/203330.203343

Corresponding author

Register with J-STAGE for free!