この論文では連続時間マルコフ
ゲーム
を6つの組(S、A、B、q、r、α)で定義している、ただしS={1、2、・…}は状態空間、Aは
プレイヤー
Iの行動空間、Bは
プレイヤー
IIの行動空間、q(・|i、a、b)はS。上の関数で状態変化の推移率、rはS×A×B上の関数で
プレイヤー
Iの利得、αは割引因子で正の実数。この
ゲームでは各プレイヤー
はシステムの状態を連続的に観測し現在の状態iのみで行動a、bを選ぶ。この結果
プレイヤー
Iは利得r(i、a、b)を得て状態iはq(j|i、a、b)にしたがって新しい状態jに移る。
プレイヤー
Iの戦略π=π(t)は{μ_t}で定める、ただし各μ_tは各iに対してA上の確率測度であってtの可測関数である。時にtに無関係ならば定常戦略と呼ばれる。
プレイヤー
IIに対しても同様に定義されている。よって
プレイヤー
I、IIが戦略の組(π、σ)を用いたときの推移率は各t≧0に対して次のように定義される。[numerical formula]ただし戦略π、aはそれぞれ{μt}、{λt}によって定められている。このとき推移率q(j|i。t、π、a)の上に適当な条件を課すことによって対応する推移確率f_<ij>(0、t、π、σ)が一意に定まり、
ゲーム
は常に0から出発するものとしてf_<ij>(0、t、π、σ)の代りにf_<ij>(t、πσ)と書くことにする。さらに
プレイヤー
Iの期待利得率は[numerical formula]で定義されるから
プレイヤー
Iの総期待割引利得は[numerical formula]で得られる。またπ*が
プレイヤー
Iの最適戦略とは[numerical formula]が成立することである。同様にしてσ*が
プレイヤー
IIの最適戦略とは[numerical formula]が成立することであり、[numerical formula]ならば
ゲーム
は結着すると呼ばれる。ここではこのような
ゲーム
がある条件のもとで結着し、各
プレイヤー
は最適な定常戦略をもっていることを示している。
抄録全体を表示