JAFEE Journal
Online ISSN : 2434-4702
[title in Japanese]
[in Japanese]
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2020 Volume 18 Pages 1-15

Details
Abstract

Engle and Russell (1998)は約定間隔をモデル化したACDモデルを提案した.このモデルはマーケットマイクロストラクチャの観点から約定間隔の長さと情報の存在を実証分析するためのツールである.従来より約定時点のタイムスタンプが同じ情報は,“ゼロ約定間隔”としてモデルの推定からは除外されていた.しかし,近年の高速取引化で取引される高流動性銘柄では秒単位の約定データの場合,約半数の約定間隔がゼロになるという状態になっており,ゼロ約定間隔の取り扱い方法を工夫する必要があった.本研究ではミリ秒単位のデータを利用することで,秒単位のデータに比べてゼロ約定間隔を少なくした上で,トービットモデルの推定手法をACDモデルに応用するという新たな推定方法を提案する.日経平均先物と同じくミリ秒単位の仮想データを作成し,ACDモデルの数値実験を行った結果,ゼロ約定間隔を無視する従来の方法より,推定値の誤差が大きく改善されることが明らかになった.

1 はじめに

株取引における約定間隔に意味付けを与えた初期の研究に Diamond and Verrecchia (1987)やEasley and O'Hara (1992)がある.前者は空売りに関する制約を投資家に課すと,私的情報のうち,特にBad Newsに対する価格調整速度が遅くなることを示し,約定間隔が収益率に負のバイアスを掛けることを示した.一方,後者は情報事象の発生という考え方を導入し,約定間隔が短い事は,投資家にとって有利な情報が存在することを主張した.彼らの利用したスタティックなモデルはどちらも Glosten and Milgrom (1985)の提案したモデルを拡張したものである.その後,Engle and Russell (1998)は約定間隔を利用するAutoregressive Duration Model(ACDモデル)を提案した.これは実質的にGARCHモデルにおけるボラティリティを,期待約定間隔に置き換えたものである.GARCHモデルがボラティリティの自己相関をモデル化するものであるように,ACDモデルは期待約定間隔をモデル化したものである.

流動性の高い銘柄の場合,同じタイムスタンプのついた約定が発生する.同じタイムスタンプの付いた約定間隔の事をEngle and Russell (1998)はゼロ約定間隔(zero duration)と呼んでいる.この時,同時に発生した約定は分割発注によるものであると仮定すれば,ゼロ約定間隔を気にする必要はなく,モデルで取引株数を説明変数として利用する場合,合計を取って集約することもできる.しかし,真の状態を我々は知ることはできないので,これはかなり強い仮定であると言える.

ACDモデルに関する多くの先行研究がゼロ約定間隔を削除しているのに対してZhang, Russell, and Tsay (2001)は約定が同時発生したことを示すインジケータ変数と,同時発生の約定個数をインジケータ変数としてゼロ約定間隔の問題に対する提案を行った.彼らの提案はThreshold ARモデルの考え方をACDモデルに応用したものであり,TACDモデルと呼んでいる.Zhang et al. (2001)は私的情報を利用した取引の存在により,約定間隔のレジームが3つに分かれ,結果として各レジームに対応したACDモデルのパラメータが存在することを示した.しかし,モデルにおいてゼロ約定間隔自体は利用せず,その個数の情報だけを利用している.本研究ではゼロ約定間隔を削除せずに利用する.実際にはゼロの代わりにミリ秒以下の擬似的な約定間隔(擬約定間隔)を作成し,トービットモデルの推定手法をモデル推定で応用する.

東京証券取引所では2010年1月から新たな株式売買システムとして,アローヘッドを利用した取引が開始された.これにより研究者は秒単位のデータだけでなく,ミリ秒単位の約定情報まで入手可能になった.本研究で利用した日経平均先物のミリ秒データの場合,約20%のゼロ約定間隔が存在した.ここでは取引が集中しているゼロ約定間隔を構成する時間情報を破棄することなく,トービット型ACDモデルの推定を行う方法を提案する.

本研究では最初に秒単位とミリ秒単位の仮想データを用いてACDモデルを推定し,高精度なミリ秒単位のデータを利用することで推定値のバイアスが大幅に減少することを示した.さらに,トービットモデルの考え方をACDモデルの推定に応用することで,ミリ秒単位のデータを用いた場合でも,単純なゼロ削除のACDモデルよりも,トービットタイプのACDモデルの方が誤差が小さくなることを示した.

第1節ではゼロ約定間隔を削除した時のACDモデルの推定上の問題点を整理する.次の第2節では秒単位とミリ秒単位の約定データを利用したときの推定結果の影響を数値実験を用いて確認する.両者の推定結果に大きな差がなければ,敢えてミリ秒単位のデータを利用する必要はない.本研究で利用するデータは日経平均先物のミリ秒単位のデータである.日中立会と夜間立会,それぞれのデータに関する考察を第3節で行う.第4節ではミリ秒単位のデータを用いた時のACDモデルの推定に,トービットモデルの推定手法を応用することの効果を数値実験によって確認した上で,ミリ秒データを利用してACDモデルを推定する.

2 ACDモデル推定上の問題点

株価収益率のボラティリティをモデル化したGARCHモデルを,約定間隔に応用したものがACDモデルである.Engle and Russell (1998)の提案したACDモデルの基本的な構成を次に示す.

  
\begin{equation} x_{i}=\Psi_{i}\epsilon_{i} \end{equation} (1)
  
\begin{equation} \Psi_{i}=\omega+\alpha x_{i-1}+\beta\Psi_{i-1} \end{equation} (2)

この時,$\omega>0,\alpha\geq0,\beta\geq0$であり,かつ$\alpha+\beta<1$である.2式はACD(1,1)モデルと呼ばれ,$\epsilon_{i}$は期待値が1,分散$\sigma^{2}$の非負の確率分布に従う確率変数である.$x_{i}$は約定間隔,$\Psi_{i}$は$x_{i}$はの条件付き期待値で期待約定間隔と呼ばれている.

  
\[ \Psi_{i}=\operatorname*{E}\left( x_{i}|\mathcal{H}_{i}\right) \]

$\mathcal{H}_{i}$は$i-1$時点における情報セットである.実際に観測した約定間隔$\tau_{i}\left( =t_{i}-t_{i-1}\right) $には時刻に依存する日中トレンドが存在する.例えば,取引開始直後は活発な取引が行われ,時間経過とともに取引が少なくなり,約定間隔が長くなっていくような傾向のことである.Engle and Russell (1998)はこの時間依存する確定的なトレンドを3式を利用して除去した.$x_{i}$はトレンド調整済みの約定間隔である.

  
\begin{equation} x_{i}=\frac{\tau_{i}}{\phi\left( t_{i}\right) } \end{equation} (3)

$\phi\left( t_{i}\right) $は日中のトレンド関数であるが,これにどのような関数を利用すべきか,決まったものはない.

仮に$\epsilon_{i}$が指数分布に従う場合,2式のモデルパラメータは次の尤度関数を用いて推定する.

  
\begin{equation} LL=-\sum\left[ \frac{x_{i}}{\Psi_{i}}+\ln\Psi_{i}\right] \end{equation} (4)

ここでACDモデルのパラメータと,調整済み約定間隔の代表的な統計量の関係を確認しておく.$x_{i}$が2式に従う場合,GARCHモデルの場合と同じく,パラメータを使って次のようにその無条件期待値と自己相関を求めることができる.

  
\begin{equation} \operatorname*{E}\left( x\right) =\frac{\omega}{1-\alpha-\beta} \end{equation} (5)
  
\begin{equation} \rho_{1}=\frac{\alpha\left( 1-\beta^{2}-\alpha\beta\right) }{1-\beta ^{2}-2\alpha\beta} \end{equation} (6)
  
\[ \rho_{n}=\left( \alpha+\beta\right) \rho_{n-1}\qquad\left( n\geq2\right) \]

調整済み約定間隔$x$の無条件期待値と自己相関は,ACDモデルの定式化に誤りがなければ,パラメータと直接的な関係にあることが分かる.高 (2016)が数値実験で示したように秒単位のゼロ約定間隔を削除した場合,の自己相関構造が変化してしまう.ACD(1,1)モデルを構成する3つのパラメータのうち,一番大きなバイアスが生じるのは$\omega$で,$\alpha$と$\beta$のバイアスはそれに比べるとやや小さい.つまり,ゼロ約定間隔の削除は直接的にパラメータの推定値に影響してしまうので,十分な考察と注意が必要である.

Engle (2000)と筆者が過去にACDモデルの分析に利用したデータにおけるゼロ約定間隔の全体に占める割合を表1に示す.

表1 秒単位のゼロ約定間隔の割合
研究 データ 単位 ゼロ約定間隔の割合
Engle (2000) IBM (1990年 ) 13%
高 (2012) 日産自動車 (2010年) 32%
高 (2016) JFE (2012年) 52%
京セラ(2012年) 46%
日産自動車 (2012年) 44%
東京海上日動 (2012年) 51%

Engle (2000)が利用したデータは1990年のIBMの株価で,全体に占めるゼロ約定間隔の割合は13%である.アローヘッド稼働直後の2010年の日産自動車では32%で,1990年のIBMに比べ明らかに増えている.そして2012年の4つの銘柄では半数近くの割合でゼロ約定間隔が含まれており,従来の方法だと推定に利用するデータの半数が失われてしまうことが分かる.

高 (2016)は最もバイアスの大きい$\omega$を次に示す方法で修正することを提案した.今,真のモデルがACD$\left( 1,1\right)$モデルに従うとする.ゼロ約定間隔を削除した時の調整済みデータセットを$\left\{x_{i}^{z}\right\} $とし,データの個数を$N_{z}$とする.この時のパラメータと無条件期待値の関係は次のようになる.

  
\[ \operatorname*{E}\left( x_{i}^{z}\right) =\frac{\hat{\omega}_{z}} {1-\hat{\alpha}_{z}-\hat{\beta}_{z}}=\frac{\sum_{i=1}^{N_{z}}x_{i}^{z}}{N_{z}} \]

真の約定間隔がすべてわかっている場合のデータセットを$\left\{ x_{i}^{F}\right\} ,$データの個数を$N_{F}$とすると,これについては次式が成り立つ.

  
\[ \operatorname*{E}\left( x_{i}^{F}\right) =\frac{\tilde{\omega}_{F}} {1-\tilde{\alpha}_{F}-\tilde{\beta}_{F}}=\frac{\sum_{i=1}^{N_{F}}x_{i}^{F} }{N_{F}} \]

いま,2つの式を割ることを考える.その時,数値実験から得たやや粗い近似関係として$\hat{\alpha}_{z}\simeq\tilde{\alpha}_{F},\hat{\beta}_{z}\simeq\tilde{\beta}_{F}$を利用する.さらに,ゼロ約定間隔の有無に関係なく,一日の取引時間は一定なので,$\sum_{i=1}^{N_{z}}x_{i}^{z}=\sum_{i=1}^{N_{F}}x_{i}^{F}$が成り立つことを考えると,次のような関係を得る.

  
\[ \frac{\hat{\omega}_{z}}{\tilde{\omega}_{F}}=\frac{\sum_{i=1}^{N_{z}}x_{i}^{z} }{N_{z}}/\frac{\sum_{i=1}^{N_{F}}x_{i}^{F}}{N_{F}} \]
  
\[ \tilde{\omega}_{F}=\hat{\omega}_{z}\cdot\frac{N_{z}}{N_{F}} \]

これによりゼロ約定間隔を考慮し,$\omega$が修正することを高 (2016)では提案した.もちろん,近似方法がやや粗く,トレンド関数も真であることを仮定しているなど,この手法には課題点も多い.本研究ではより精度の高いデータとしてミリ秒単位のデータを利用し,推定手法としてトービットモデルの考え方を利用する事で,これらのパラメータをより正確に推定することを目指す.

3 約定データの精度

本研究で利用するデータは日経平均先物のミリ秒単位のデータである.高精度データに対応したACDモデルの新しい推定手法について述べる前に,データの精度がモデルの推定結果に及ぼす影響について考察する.ここでは秒単位,ミリ秒単位の仮想データを作成し,データの精度が約定間隔の自己相関構造に与える影響を考察する.表2の設定値は表1に示した高 (2012)の4つの流動性の高い銘柄(JFE,京セラ,日産自動車,東京海上日動)のモデル推定値を参考にして選択した.特定の銘柄の推定値を直接,利用したものではない.$\bar{x}$は設定値と1式2式,さらに指数分布の乱数を使った作成した仮想データの標本平均である.$AC\left( x\right) $は$x$の一次の自己相関係数である.作成したデータは倍精度で切り上げなどの加工は施されていない.ミリ秒とあるのは作成した仮想データを小数点以下4桁で切り上げたデータによる推定値,秒という行は小数点以下1桁目で切り上げ処理を行ったデータによる推定値である.約定間隔の条件付き期待値$\Psi_{i}$の初期値は1とした.

表2 データの精度によるバイアスの比較
$\omega$ $\alpha$ $\beta$ $\bar{x}$ $AC\left(x\right) $ Err. zero(%)
ベースライン $0.019$ $0.282$ $0.700$ $1.111$ $0.772$ - $0$
ミリ秒 $0.019$ $0.282$ $0.700$ $1.112$ $0.771$ $1.5\times10^{-4}$ $0.130$
$0.061$ $0.305$ $0.668$ $2.228$ $0.728$ $0.096$ $55.1$
ベースライン $0.024$ $0.282$ $0.700$ $1.389$ $0.771$ - $0$
ミリ秒 $0.024$ $0.282$ $0.700$ $1.390$ $0.772$ $3.0\times10^{-4}$ $0.098$
$0.068$ $0.306$ $0.667$ $2.480$ $0.729$ $0.101$ $49.7$
ベースライン $0.029$ $0.282$ $0.700$ $1.667$ $0.772$ - $0$
ミリ秒 $0.029$ $0.282$ $0.700$ $1.668$ $0.771$ $2.5\times10^{-4}$ $0.081$
$0.074$ $0.307$ $0.666$ $2.734$ $0.731$ $0.104$ $45.2$
ベースライン $0.024$ $0.272$ $0.701$ $0.887$ $0.679$ $-$ $0$
ミリ秒 $0.024$ $0.272$ $0.701$ $0.887$ $0.678$ $1.8\times10^{-4}$ $0.138$
$0.079$ $0.297$ $0.660$ $1.848$ $0.636$ $0.121$ $54.6$
ベースライン $0.024$ $0.282$ $0.691$ $0.890$ $0.695$ $-$ $0$
ミリ秒 $0.024$ $0.282$ $0.691$ $0.890$ $0.695$ $1.4\times10^{-4}$ $0.105$
$0.078$ $0.305$ $0.654$ $1.878$ $0.654$ $0.114$ $55.4$
ベースライン $0.024$ $0.282$ $0.710$ $3.189$ $0.880$ $-$ $0$
ミリ秒 $0.024$ $0.282$ $0.710$ $3.184$ $0.880$ $3.3\times10^{-4}$ $0.078$
$0.057$ $0.303$ $0.684$ $4.344$ $0.837$ $0.081$ $43.0$

サンプルデータの個数は105,000個である.1式の撹乱項には期待値が1となる指数分布を利用した.Err.はベースラインのそれぞれの設定におけるパラメータの誤差の和である.3つのパラメータはどれも0から1の間に存在するので,重み付けは行っていない.

  
\begin{equation} Err.=\left\vert \hat{\omega}_{b}-\hat{\omega}_{m}\right\vert +\left\vert \hat{\alpha}_{b}-\hat{\alpha}_{m}\right\vert +\left\vert \hat{\beta}_{b} -\hat{\beta}_{m}\right\vert \label{esterr} \end{equation} (7)

右端のzero(%)は105,000個のデータの中に占めるゼロ約定間隔の個数の割合$\left( \%\right) $である.

最初のデータセットによるACDモデルの推定結果を具体的に見ていくことにする.ベースラインとミリ秒の推定結果は小数点以下3桁目までは等しい.$\operatorname*{E}\left( x\right) $と$\rho_{1}$にも差はないので,Err.もほぼゼロに近く,ゼロ約定間隔の割合も1%未満である.この事はミリ秒データでゼロ約定間隔の割合が小さい場合,元データの自己相関構造を維持し,無条件期待値もほぼ等しいことを示している.つまり,ミリ秒単位のデータの場合,小数点以下4桁目で切り上げ処理がなされているが,約定間隔のデータとしてはほぼバイアスが生じないことを示している.一方,秒単位のデータでは$\omega$はどれも過大評価されている.無条件期待値が大きくなれば$\omega$が大きくなることは5式からも想像できる.また,$\alpha$と$\beta$にもバイアスが生じており,Err.はミリ秒単位のものに比較して約400倍以上大きくなっている.この数値実験からも明らかなように,秒単位とミリ秒単位のデータがある場合,ミリ秒単位のデータを利用すべきであり,ミリ秒単位のデータの小数点以下4桁目を切り上げ処理してもゼロ約定間隔の個数が少ない場合,ACD(1,1)モデルの推定値にほぼ影響しないことが分かる.

4 約定間隔データ

データは2013年4月1日から同年6月29日までの日経平均先物のミリ秒単位の高精度データである1.ただし,サーキットブレーカーの発動した2013年5月23日のデータは除外している.この期間の全約定間隔の個数と非ゼロ約定間隔,そしてゼロ約定間隔の割合を表3示す.

表3 日経平均先物の約定間隔
日経平均先物の取引時間 全約定間隔 ゼロ約定間隔 割合
日中立会(9:00-15:10) 644,953 131,505 20%
夜間立会(16:30-26:55) 393,511 66,957 17%
合 計 1,038,464 198,462

指数分布を用いて作成した数値実験の例に比べ,ミリ秒単位のデータであるにも関わらず,ゼロ約定間隔の割合が大きい.日中立会で約20%,夜間立会で約17%のゼロ約定間隔が存在する.指数分布に比べると,短い約定が多く,分布関数としては指数分布よりもワイブル分布に近いことが考えられる.タイムスタンプの情報はデータ処理の都合上,午前9時は32400.000秒,15時10分は54600.000秒とする.午前0時は24時と表現するので,夜間立会の26:55分は96900.000秒と表記する.このようにタイムスタンプを表現する時に,元の日付情報の処理には注意が必要である.つまり,深夜0時から2時55分までの元データの日付は翌日になっているが,これは一日前の日付に直しておく必要がある.例えば,2013年4月1日(月曜日)の夜間立会の取引時間は59400.000(16時30分)から96900.000秒までとし,日付は4月1日で統一する.もちろん,4月2日の日中立会から日付は変化することになる.

ここで日中トレンド調整前でかつ,ゼロ約定間隔を含んだ状態での約定間隔に関する記述統計量を表4に示す.

表4 約定間隔の記述統計量
取引時間 平均(秒) 最大 最小 標準偏差
日中立会 6時間10分(22,200秒) 2.10 545.62 0.00 6.80
夜間立会 10時間25分(37,500秒) 5.81 864.25 0.00 16.82

約定間隔の平均は日中の方が短く,最大値も小さい.ここではゼロ約定間隔は削除していないので,最小値はゼロとなっている.日中の標準偏差は夜間に比べ0.4倍程度である.日中立会では夜間立会に比べ,約定間隔のバラツキが小さく,より活発な取引がなされている事が分かる.

次に約定間隔の5分平均をグラフで確認する.

図1 約定間隔の5分平均(日中立会)

取引開始直後が最も活発であり,東証の昼休み(11時30分から12時30分)にかけて徐々に約定間隔が長くなっていることが分かる.昼休みの間の取引間隔は約2倍程度に間延びし,後場の開始とともに先物取引も活発化している様子が見てとれる.つまり,日中立会の先物取引においては東証の取引と緊密に関係しあっており,投資家は東証での取引状況から投資判断に利用する情報を常に更新しており,取引が中断される昼休みは有利な情報が少なくなっている様子が伺える.

図2 約定間隔の5分平均(夜間立会)

夜間立会でも取引が活発なのはの取引開始直後であるが,時間経過とともに約定間隔は長くなっていく.しかし,日本時間の21時30分,米国東部時間で8時30分(77400秒)を示す直線のあたりから約定間隔が短くなっている状態が分かる.つまり,日経平均先物を利用する投資家はユーロ市場よりも北米市場からより多くの情報を得ていると考えられる.

次に同じタイムスタンプ(ミリ秒単位)のついたデータの個数をここで確認する.

表5 同時約定(日中取引)
約定 個数 割合(%)
1 435,586 84.8
2-5 74,519 14.5
6-10 2,703 0.5
11-15 546 0.1
16-20 64 0.1% 未満
21-25 18 -
26-30 8 -
31-35 5 -
56 1 -
59 1 -

日中立会の場合,あるタイムスタンプで一回の約定だけが発生する割合が約85%である.5回までの同時約定で約95%を占めている.50回以上の同時約定が2回発生しているが,これはどちらも2013年6月14日金曜日で,56回の方は12時30分前後,59回の方は11時30分前後で,東証の昼休みの開始または終了近辺に発生している.

表6 同時約定(夜間取引)
約定 個数 割合(%)
1 281,816 86.7
2-5 41,865 12.9
6-10 1,146 0.4
11-15 50 0.1
16-20 4 0.1% 未満
23 1 -

夜間立会は日中ほど活発ではない.5回までの同時約定で99%以上の割合を占めている.最大の同時約定回数は23回で,これは2013年6月22日土曜日の0時30分頃に発生している.

5 トービット型ACDモデル

ここで解説するトービット型ACDモデルの推定では,約定は決して同時に発生することはなく,微小な間隔$\Delta$が存在するということを仮定している.ACDモデルの推定における各ステップの処理内容は次の通りである.

  1.  1. ゼロ約定間隔に微小な値$\Delta$の代入
  2.  2. 最小二乗法による回帰スプラインの推定
  3.  3. トービット型ACDモデルの推定

各ステップのおけるデータの処理とモデル推定の詳細を次に解説する.

1. ゼロ約定間隔に微小な値$\Delta$の代入

先に示したように日中立会ではミリ秒単位での同時約定の最大値が59であった.つまり,同じタイムスタンプに59個の約定が並んでいる状態である.例として,この59個の連続約定におけるデータの処理方法を解説する.$\Delta=0.001/59$として擬約定間隔を作成する.この時,$k$回の連続約定の先頭の間隔から$\left( k-1\right) \times\Delta$を引いておく必要がある.さらに,擬似的に作成した$\Delta$は最後のトービット型ACDモデルの推定で利用するので、擬約定間隔であることを示すダミー変数を作成しておく.その上で,ミリ秒単位の時間軸を,$\Delta$を考慮して更新する.表7はこのデータ処理の流れを解説するために用意した架空のデータ例である.

表7 擬約定間隔$\tau^{\prime}$の作成と更新した時刻$t^{\prime}$
$t$ $\tau$ $\tau^{\prime}$ $t^{\prime}$ $I_{1}$ $I_{2}$
$32400.000$ $NA$ $NA$ $32400.000$ $NA$ $NA$
$32410.000$ $10$ $10$ $32410.000$ $0$ $1$
$32415.000$ $5$ $4.9995$ $32414.9995$ $0$ $1$
$32415.000$ $0$ $0.0005$ $32415.0000$ $1$ $0$
$32415.001$ $0.001$ $0.00025$ $32415.00025$ $1$ $0$
$32415.001$ $0$ $0.00025$ $32415.00050$ $1$ $0$
$32415.001$ $0$ $0.00025$ $32415.00075$ $1$ $0$
$32415.001$ $0$ $0.00025$ $32415.00100$ $1$ $0$

取引開始時刻の午前9時は午前0を起点とするミリ秒単位で$32400.000$秒である.$\tau$は約定間隔である.$\tau$が0になっている時刻については擬約定間隔として単純に約定間隔を約定回数で除した値を入力する.例えば,時刻$32415.001$では4回の約定が記録されている.擬約定間隔として4つの$\tau^{\prime}$を作成し,それに応じて時刻情報も新たに$t^{\prime}$として更新する.以上の処理がステップ1である.1日の最初の約定と2番目の約定の間隔からデータ分析には利用する.$I_{1}$と$I_{2}$の意味と役割はステップ3で説明する.

2. 最小二乗法による回帰スプラインの推定

回帰スプラインの手法を利用してトレンド関数を推定する.この手法ではノットと呼ばれる時点を分析者が任意に選択する必要がある.ここでは多くの先行研究と同じく,30分間隔でノットを設定した(表8).ただし,日中立会では最後のノットから取引終了までの間隔は10分で,夜間のそれは25分である.また,取引開始時点や終了時点にはノットは設定しない.

表8 ノットの設定
立会 ノットの時点(30分間隔) ノットの個数
日中(9:00-15:10) 9:30から15:00まで 12個
夜間(16:30-26:55) 17:00から26:30まで 21個

回帰スプラインの一般形は次の通りである.$i$は約定時点の通し番号で,$j$はノットの番号である.

  
\begin{equation} \phi\left( t_{i}\right) =p_{m}\left( t_{i}\right) +\sum_{j=2}^{n} c_{j}\left( t_{i}-k_{j}\right) _{+}^{2} \label{regsp} \end{equation} (8)

日中立会で考えると$p_{m}\left( x\right) $は左端の9:00-9:30の第一番目の区間にフィットさせる二次関数,$c_{j}$はスプライン関数の跳び量と呼ばれるもので,ここではフィットによって推定する.$k_{j}$はノットの時点,$t_{i}$は各約定時点の情報である.例として日中立会の第二番目の区間9:30-10:00の項$\left(t_{i}-k_{j}\right) _{+}^{2}$を作成する方法を説明する.仮にこれを$f_{2,i}$とし,9:40(34800秒)に約定が発生したとする.この時間帯のノットは9:30(34200秒)なので$f_{2,i}$の値は

  
\[ f_{2,i}=\left( 34800-34200\right) ^{2} \]

となる.このようにして各時点ごとにノットの値を考慮してシリーズ$f$を作成する.しかし,回帰スプラインの場合、当該のノットより前の時点では$f_{2,i}=0$でなければならない.つまり,9時30分から10時までのシリーズ$f$を作成する場合,9時30分より前の値はすべて$0$とすることに注意する必要がある.もちろん,第一区間の9時から9時半の間は単純に$f_{1,i}$を作成すれば良い.日中立会の回帰スプラインの仕様を具体的に書くと次のようになる.

  
\begin{equation} \phi\left( t_{i}\right) =\beta_{0}+\beta_{1}f_{1,i}+\beta_{2}f_{1,i} ^{2}+\sum_{j=2}^{12}c_{j}\left( t_{i}-k_{j}\right) _{+}^{2} \end{equation} (9)

3. $\Delta$を考慮したトービット型ACDモデルの推定

例えば簡単な消費関数を推定する場合,消費$Y_{i}$と所得$X_{i}$がともに観測されていれば,パラメータの推定は最小二乗法を用いて簡単に行える.

  
\[ Y_{i}=\alpha+\beta X_{i}+u_{i} \]

しかし,消費$Y_{i}$のデータが上限$c_{high}$と下限$c_{low}$で各カテゴリーに纏められているようなデータの場合,OLS推定ではバイアスが生じてしまう.そのようなケースでは真の消費を示す潜在変数$Y_{i}^{\ast}$を想定する.つまり,

  
\begin{equation*} Y_{i}= \begin{cases} c_{low} & & \text{if }Y_{i}^{\ast}\leq c_{low}\\ Y_{i}^{\ast} & & \text{if }c_{low}<Y_{i}^{\ast}\leq c_{high}\\ c_{high} & & \text{if }c_{high}<Y_{i}^{\ast} \end{cases} \end{equation*}

3つのカテゴリーを示すダミー変数$I_{1},I_{2},I_{3}$を用意して,次に示す尤度関数を利用して推定を行えばよい.

  
\begin{align} LL & =\sum\log\left[ F\left( \left( c_{low}-x_{i}^{\prime}\beta\right) /\sigma\right) \right] \cdot I_{1}\\ & +\sum\log\left[ f\left( \left( Y_{i}-x_{i}^{\prime}\beta\right) /\sigma\right) \right] \cdot I_{2}\nonumber\\ & +\sum\log\left[ 1-F\left( \left( c_{high}-x_{i}^{\prime}\beta\right) /\sigma\right) \right] \cdot I_{3}\nonumber \end{align} (10)

トービットモデルのメリットは具体的な値が分からなくても,閾値$c_{low}$と$c_{high}$を決めて,ダミー変数の値によって密度関数の代わりに分布関数を利用することで,適切なモデル推定が実行できる所にある.

話を約定間隔の分析に戻す.ミリ秒単位のデータを用いたACDモデルの推定では下限だけが問題となるので,尤度関数は次のようになる.11式は$\epsilon_{i}$に指数分布の分布関数と密度関数を利用した時の例である.

  
\begin{equation} LL=\sum\left\{ \log\left( 1-\exp\left( -\frac{x_{i}}{\Psi_{i}}\right) \right) \right\} I_{1}-\sum\left\{ \frac{x_{i}}{\Psi_{i}}+\log\Psi _{i}\right\} I_{2} \end{equation} (11)

擬約定間隔$\tau_{i}^{\prime}$を含むすべての約定間隔に対して9式のスプライン関数をフィットさせて,トレンド調整済みの約定間隔$x_{i}$を得る事ができる.擬約定間隔に対応する$x_{i}$に対しては第一項の分布関数による尤度関数,そして,閾値$1\times10^{-3}$以上のミリ秒単位の約定間隔に対応する$x_{i}$に対しては第二項の密度関数による尤度関数が適用される.$I_{1}$は調整前の約定間隔$1\times10^{-3}$が未満となる擬約定間隔の場合に1をとり,それよりも大きなときはゼロを取るダミー変数である.$I_{2}$はその逆のダミー変数である.2つのダミー変数の関係は表7でも確認できる.

指数分布の代わりにワイブル分布を利用した時の尤度関数は次のようになる.

  
\begin{align} LL & =\sum\left\{ \log\left( 1-\exp\left( -\left( \frac{x_{i}}{\Psi_{i}% }\right) ^{\gamma}\right) \right) \right\} I_{1}+\\ & \sum\left\{ \log\gamma+\left( \gamma-1\right) \log\frac{x_{i}}{\Psi_{i}% }-\left( \frac{x_{i}}{\Psi_{i}}\right) ^{\gamma}-\log\Psi_{i}\right\} I_{2}\nonumber \end{align} (12)

このようにして作成した$t^{\prime}$と$\tau^{\prime}$を用いてステップ2の回帰スプラインによるフィットを実行すると,トレンドを調整した$x$を得る事ができる.最後にダミー変数$I_{1},I_{2}$を利用してステップ3のトービット型ACDモデルの推定を行う.トービット型ACDモデルではなく,通常のACDモデルを利用してしまうと$\tau^{\prime}$に存在する均等間隔の擬約定間隔を推定に利用することになり,約定間隔の自己相関を過大評価して推定値$\alpha$に強いバイアスを生じさせてしまう.この擬約定間隔のバイアスについては高 (2016)を参照されたい.

数値実験

トービット型ACDモデルの有用性を確認するために,表2と同じ要領で数値実験を行った結果を表9に示す.表2の実験ではほとんど,ゼロ約定間隔は存在しなかったが,ここではその割合が現実の日経平均オプションと同程度になるようなパターンになるように設定値を選択した.

表9 ミリ秒データによるバイアス比較
$\omega$ $\alpha$ $\beta$ Err. zero$\left( \%\right) $
ベースライン $0.0003$ $0.2521$ $0.7010$ $-$ $-$
ゼロ削除 $0.0004$ $0.2582$ $0.6882$ $0.0189$ $11.2$
トービット $0.0003$ $0.2471$ $0.7056$ $0.0096$ $-$
ベースライン $0.0003$ $0.2019$ $0.7018$ $-$ $-$
ゼロ削除 $0.0004$ $0.2068$ $0.6787$ $0.0282$ $16.8$
トービット $0.0003$ $0.1945$ $0.7108$ $0.0163$ $-$
ベースライン $0.0003$ $0.1516$ $0.7035$ $-$ $-$
ゼロ削除 $0.0005$ $0.1531$ $0.6662$ $0.0390$ $22.3$
トービット $0.0003$ $0.1394$ $0.7240$ $0.0205$ $-$
ベースライン $0.0003$ $0.1520$ $0.8002$ $-$ $-$
ゼロ削除 $0.0004$ $0.1568$ $0.7903$ $0.0148$ $9.17$
トービット $0.0003$ $0.1509$ $0.8015$ $0.0023$ $-$
ベースライン $0.0003$ $0.0515$ $0.8055$ $-$ $-$
ゼロ削除 $0.0004$ $0.0500$ $0.7787$ $0.0284$ $21.4$
トービット $0.0003$ $0.0464$ $0.8226$ $0.0171$ $-$
ベースライン $0.0003$ $0.1015$ $0.7540$ $-$ $-$
ゼロ削除 $0.0005$ $0.1012$ $0.7191$ $0.0353$ $21.8$
トービット $0.0003$ $0.0933$ $0.7715$ $0.0257$ $-$
ベースライン $0.0003$ $0.1018$ $0.8014$ $-$ $-$
ゼロ削除 $0.0004$ $0.1046$ $0.7829$ $0.0215$ $15.4$
トービット $0.0003$ $0.0987$ $0.8071$ $0.0088$ $-$
ベースライン $0.0003$ $0.1019$ $0.8498$ $-$ $-$
ゼロ削除 $0.0003$ $0.1044$ $0.8428$ $0.0095$ $8.4$
トービット $0.0003$ $0.1013$ $0.8506$ $0.0014$ $-$
ベースライン $0.0003$ $0.0268$ $0.8991$ $-$ $-$
ゼロ削除 $0.0004$ $0.0265$ $0.8929$ $0.0066$ $11$
トービット $0.0003$ $0.0262$ $0.9014$ $0.0030$ $-$
ベースライン $0.0003$ $0.0518$ $0.8991$ $-$ $-$
ゼロ削除 $0.0004$ $0.0531$ $0.8930$ $0.0073$ $8$
トービット $0.0003$ $000515$ $0.8997$ $0.0006$ $-$

トービット型とゼロ削除型ACDのパラメータのバイアスを評価する.ベースラインの項目は表2に示した実験と同じく乱数を使って作成した元データでACDモデルを推定した結果である.ゼロ削除はミリ秒単位に整形したデータでゼロ約定間隔を削除した時の推定値である.トービットはゼロの約定間隔を削除せずに,微小な約定間隔を代入して推定したトービット型ACDモデルの推定値である.

3つのパラメータのバイアス(絶対値)を7式で評価すると,Err.の列においてすべてトービット型の誤差の方がが小さいことが分かる.また,利用した10通りのデータにおけるゼロ約定間隔の割合をzero$\left(\%\right) $の列に示した.この数値実験におけるゼロ削除の割合は凡そ,$8\sim23\%$である.

6 トービット型ACDモデルによる実証分析

最初にゼロ約定間隔を削除したときの約定間隔データにおける約定間隔の5分平均を示す.図1,2と比較すると明らかなように,各立会おいて確定的なトレンド成分が除去されている様子が分かる.一見,夜間立会ではデータの変動が激しいように見えるが,これは取引時間を示す横軸を,より取引時間の短い日中立会に合わせていることによる.

図3 トレンド調整後の約定間隔(日中)

図4 トレンド調整後の約定間隔(夜間)

9式に示したスプライン関数によるトレンド曲線を次に示す.

図5 イントラデイトレンド(日中)

日中立会では昼休みの前後でトレンドは変化している.ここでは東証の前場,昼休み,後場に相当する時間帯に対応したダミー変数を利用して不連続な曲線を推定した.

図6 イントラデイトレンド(夜間)

夜間立会は北米市場の取引開始前後に約定間隔が短くなっている様子を捉えている.

トービット型ACDモデルの推定結果

日中立会いのデータによるトービット型ACDモデルの推定結果を次に示す.1式における$\epsilon$の密度関数として指数分布とワイブル分布を用いた.

表10 日中立会におけるトービット型ACDモデルの推定結果
密度関数 $\omega$ $\alpha$ $\beta$ $\gamma$ AIC
指数分布 $0.098$ $0.460$ $0.538$ $1$ $5.966$
$\left( 0.000\right) $ $\left( 0.000\right) $ $\left( 0.001\right) $ $-$
ワイブル分布 $0.007$ $0.498$ $0.158$ $0.277$ $2.225$
$\left( 0.003\right) $ $\left( 0.005\right) $ $\left( 0.002\right) $ $\left( 0.000\right) $

トービット型ACDモデルで指数分布を利用した時のAICは$5.966$,一方,ワイブル分布の場合は$2.225$でワイブル分布のモデルが優れていると考えられる.ここではワイブル分布の場合,$\omega$の推定値には非負制約を課した.

次に示す夜間立会の推定でも指数分布よりもワイブル分布に従うという結果を得た.

表11 夜間立会におけるトービット型ACDモデルの推定結果
密度関数 $\omega$ $\alpha$ $\beta$ $\gamma$ AIC
指数分布 $0.070$ $0.275$ $0.692$ $1$ $5.430$
$\left( 0.000\right) $ $\left( 0.001\right) $ $\left( 0.000\right) $ $-$
ワイブル分布 $0.025$ $0.367$ $0.166$ $0.298$ $1.873$
$\left( 0.000\right) $ $\left( 0.005\right) $ $\left( 0.003\right) $ $\left( 0.000\right) $

今回提案したトービット型ACDモデルはミリ秒単位のデータにおけるゼロ約定間隔への対応方法のひとつである.表9に示したように約定間隔の閾値である0.001よりも微小な$\Delta t\left( 10^{-3}\text{秒未満}\right) $をゼロ約定間隔のセルに代入しても,約定間隔の自己相関構造への影響はゼロ削除の場合に比べ,小さいという結果を利用してACDモデルを推定した.

7 まとめ

本稿ではミリ秒単位の約定データを利用したACDモデルの推定において,ゼロ約定間隔を考慮したトービット型ACDモデルの推定方法を提案した.数値実験を積極的に利用して,最初に秒単位とミリ秒単位のデータを利用した時のそれぞれの推定結果に明確な差異がある事を確認した.次に10セットのミリ秒単位の仮想データにおいて,ゼロ削除による推定と,トービットモデルの推定手法を応用したACDモデルの推定結果を比較し,トービット型ACDモデルの推定結果の誤差が小さいことを確認した.

ACDモデルの推定において約定間隔の日中トレンドを除去するというプロセスが存在するが本研究ではスムーズなトレンドの変化を考慮して回帰スプラインを利用した.先行研究にみられる線形スプラインの場合に比べ,トレンドはより効果的に除去できたものと考えられる.

今回,実証分析に利用した日経平均先物のミリ秒データでは日中立会では最大64回,夜間立会では最大23回の同時約定が存在する.同一タイムスタンプのついた約定間間隔をその時の約定関数で除すことで擬約定間隔を作成する.もちろん,これらをそのまま利用したのでは自己相関を過大評価してACDモデルのパラメータにバイアスをもたらしてしまう.本研究ではトービットモデルの考え方をACDモデルに利用してモデル推定を行った.約定間隔の下限の閾値はタイムスンプの下限である0.001秒を利用した.

この閾値を利用したトービット型ACDモデルによる推定の結果,撹乱項の分布関数としてはワイブル分布を用いたモデルが支持される結果となった.ただし,モデル推定のフレームワークとして日中と夜間の立会は独立であるという仮定を利用している.各ACDモデルを推定する場合,その取引時間内の約定データだけを利用しており,相互に影響を及ぼすような状況はここでは考えていない.しかし,実際には日中立会の終盤の取引情報が夜間立会の取引開始直後にも影響し,その逆も考えられるので,この点は改良が必要である.

Footnotes

1 研究協力: 乾 孝治教授,明治大学 総合数理学部

References
  • Bauwens, Luc., Pierre Giot.,(2001), Econometric modeling of stock market intraday activity. Kluwer Academic Publishers.
  • Engle, R.F, (2000), “ The econometrics of ultra-high frequency data.” Econometrica, 68 (1).
  • Engle, R.F., Russell, J.R., (1998), “Autoregressive conditional duration :A new model for irregularly spaced transaction data.” Econometrica 66 (5).
  • Pacurar,Maria,(2008), “Autoregressive conditional duration models in finance:A survey of the theoretical and empirical literature.” Journal of Economic Surveys (22).
  • Racicot, F., Théoret, R. & Coën, (2008) “A. Forecasting Irregularly Spaced UHF Financial Data: Realized Volatility vs UHF-GARCH Models.” Int Adv Econ Res 14: 112.
  • Tsay, R.S., (2010), Analysis of financial time series. Wiley.
  • Zhang, M. Y., Russell, J.R., Tsay, R.S. (2001) A nonlinear autoregressive conditional duration model with applications to financial transaction data. Journal of Econometrics 104 179-207
  • 宇野淳,柴田舞 (2012),「取引の高速化と流動性へのインパクト」,現代ファイナンス (31)
  • 高英模 (2012),「高速取引下の約定間隔と価格形成」,早稲田大学大学院 ファイナンス研究科 修士論文.
  • 高英模 (2016),「ACDモデルにおけるパラメータ修正の効果」,横浜国立大学 国際社会科学府 博士論文.
  • 森保洋 (2006).「金先物市場の日中取引変動と取引時間間隔」,『経営と経済』,第85巻,第34号
 
© 2020 The Japanese Association of Financial Econometrics and Engineering
feedback
Top