ジャフィー・ジャーナル
Online ISSN : 2434-4702
ニュースを用いた金融市場分析のためのマルチラベル教師ありトピックモデル
姫野 知也横内 大介
著者情報
ジャーナル フリー HTML

2023 年 21 巻 p. 1-28

詳細
概要

本論文では,テキストアナリティクスのファイナンス分野への応用を念頭に,金融経済ニュースおよびそのラベル情報を活用する新たなトピックモデルを開発,提案した.本研究が提案するモデルは,文書に付与されたラベルを文書分類のための補助情報として取り込みつつ,文書に割り当てられたトピックからその文書に対応する複数の教師データを予測する点が大きな特徴である.とりわけ,予測部分について,パラメータが銘柄間でランダムな値をとりうるマルチラベルモデルを導入している点が,本研究での最も重要な貢献となっている.また,実際のニュースデータと提案モデルを用いた実証分析では,算出したスコアをもとに株価とニュースの関係を調査した.その結果,将来にわたって株価への影響が持続する企業のファンダメンタルズに関する情報が,ニュースの中に含まれる可能性があることを示した.

1 はじめに

近年,金融市場の分析において,伝統的に用いられてきた財務データ,市場データ,経済指標などのデータに加えて,ニュースデータ,POS データ,企業間ネットワークデータなどといった,非伝統的なオルタナティブデータの活用が急速に拡大しており,業界のトレンドとなっている.

ことニュースに関しては,ファイナンス領域において,兼ねてより金融市場との関係について盛んに研究が行われている.かつては,ニュースの金融市場へのインパクトは限定的であるとの見方が主流であった.代表的な先行研究として,Roll (1988)は,ニュースの有無によってサンプル期間を分割しても,サンプル間でファクターモデルの株価リターンに対する説明力にほとんど違いがみられないことを示した.Mitchell and Mulherin (1994)Berry and Howe (1994)は,ニュース件数と,株価の変動および市場の取引量の相関関係は無いかそれほど強くないことを実証した.

しかし,近年になって,理論的背景やニュースの内容を踏まえた詳細な分析が行われ,金融市場分析におけるニュースの重要性を示唆する研究が蓄積している.ニュース件数を用いて,Tetlock (2010)はより詳細な分析を行っており,銘柄のサイズおよび流動性別にニュース件数と株価リターンおよび取引量との関連性を分析し,ニュースの発生が情報の非対称性を解消する効果を持ち,非対称性が大きいと考えられる小型の低流動性銘柄では,ニュースが取引量やニュース発生後の株価変動パターンに影響を与えていることを指摘した.ニュースの内容を考慮した先駆的な研究として,Tetlock (2007)は,新聞のコラムから,語句とセンチメントを紐づけた辞書と主成分分析によって市場センチメントを定量化する手法を提案した.その手法によって算出した悲観度合いに関するスコアの騰落がノイズトレーダーの投資行動を通じて,短期的に取引量と資産価格に影響を与えることを指摘した.これ以後,テキストの内容に注目した研究が活発化し,スコアリング手法が数多く提案されている.これらについては、Kearney and Liu (2014)によるサーベイを参照されたい.

内容に即したニュースの定量化には,ニュースや語句の分類が肝となる.Tetlock (2007)のように辞書をベースにした手法であるルールアプローチは使用する辞書に依存するという弱点があり,本来であれば,用途に応じた辞書を構築することが望ましい.Baker et al. (2016)は,経済不確実性指数の構築にあたって,人間の手で経済政策に関連する語句群を新たに定義している.この方法は正攻法ではあるものの,分析コストが高くなってしまう点は否めない.Li (2010)は,一部のデータにのみポジティブ,ネガティブ等の極性とカテゴリーを人力で付与し,それを訓練データとして学習したナイーブベイズ分類器によって,残りのテキストデータをラベリングしている.このように統計モデルや機械学習モデルによって分類する手法は統計的アプローチとよばれる.効率的に独自の基準でラベリングすることができるので,もし適当な訓練データがあれば,すべて機械的に処理することが可能である.

以上の手法では,人間が明示的に付与したラベルに基づいたニュース分類が用いられるので,ニュースの持つ情報がポジティブとネガティブの 2 つの分類に縮約されてしまう傾向にある.これは,ラベルが一定の客観性や一貫性が担保される基準で分類できるものに限定され,そこにはめ込まれる過程で,文書や語句の持つ潜在的な意味を捨象してしまうためであると我々は推察する.実際に先行研究で算出されている多くのスコアが,その「上昇/低下」と,「ポジティブ/ネガティブ」の他,「リターン上昇/下落」や「リスクオン/オフ」とが対応した作りになっている点はその証左であろう.しかし,実際の金融市場はそこまで単純ではなく,一口に負のインパクトをもたらすネガティブニュースといっても,トピックの違いによって下落幅や変動パターン別に様々な反応を示す.以上の論点を踏まえて,我々は,分析対象や用途に最適化した分類軸で多元的に評価できる新たなデータ分析手法が必要であると考える.

文書を複合的で潜在的なトピックによって分類する手段としては,トピックモデルが有名である.Blei et al. (2003)によって,潜在ディリクレ配分モデル(Latent Dirichlet Allocation; LDA)として提案されたトピックモデルは,文書における語句の出現パターンによって,各文書が持つ潜在的なトピックを確率的に割り振る確率モデルであり,様々な拡張が行われている.Blei and Mcauliffe (2007)は,各文書に教師データを付与する,教師ありトピックモデル(Supervised LDA; sLDA)に拡張した.文書に割り当てられたトピックを入力とした予測関数の出力として教師データを与えることで,教師データの変化をよく説明するトピックを学習する効果がある.1数少ないファイナンス領域への応用例として,Yono et al. (2020)は,マクロ経済ニュースを対象に,sLDAを用いて,VIXを教師データとし,不確実性に関連するトピックを抽出し,文書数とトピックの構成比率から不確実性指数の算出を試みている.sLDAは,人間があらかじめ指定したラベル等を用いずに,分析の目的に応じた教師データを軸として,多元的に文書を分類するという意味で,上述の問題点を克服した手法であるといえる.

しかし,現実の金融経済ニュースの分析に用いるには,いくつかの点において不備がある.まず,sLDAは文書と教師データが一対一で対応付けされていなくてはならない.金融経済ニュースは,特定の金融データとの紐づけがなされていないか,逆に,アセットクラスや個別銘柄などが複数紐づけされていることが多い.したがって,複数のデータについて横断的に分析しようとするとき,一つの文書に対して,複数の教師データを対応させる必要がある.また,金融経済ニュースには,カテゴリーやテーマ等に関するラベルが付与されていることが多い.こうしたラベルのみを用いて,ニュースを分類することは,必ずしも分析の目的に沿ったものとはならないため,適切とは言えないが,トピックモデルにおけるトピックの学習の一助になる可能性はあり,一切参照しないというのは得策ではない.

本研究では,こうした問題意識から,トピックモデルをファイナンス分野への応用を念頭に拡張する.本研究で提案するモデルでは,記事に付与されたラベルを文書分類のための補助情報として取り込みつつ,文書に割り当てられたトピックからその文書に対応する複数の教師データを予測する構造を持つ.特に予測部分について,パラメータが銘柄間でランダムな値をとりうるマルチレベルモデルを導入する点が,本研究の最も重要な貢献である.

また,実際のニュースデータを用いた実証分析によって,提案モデルの有用性を確認する.さらに,提案モデルをベースに算出したスコアをもとに株価とニュースの関係について分析し,将来にわたって株価への影響が持続する企業のファンダメンタルズに関する情報が,ニュースに含まれる可能性があることを示す.

本論文の構成は次の通りである.第2節でトピックモデルに関する先行研究のサーベイを行った後,第3節で提案モデルについて説明する.第4節にて検証に使用するデータセットおよびその前処理の方法について述べる.第5節ではデータ分析の結果を示し,その解釈を行う.最後に第6節において本論文の結論を述べる.

2 先行研究

Blei et al. (2003)によって,LDAとして最初に考案されたトピックモデルは,文書および語句が,観測されない潜在的なトピックに基いて生成されるように定式化した確率モデルである.語句の頻度を要素として文書をベクトル変換するBag of Words (BoW)型の文書について,文書内の語句の頻度や共起パターンから,各文書についてトピックの構成比率(文書-トピック分布)と,各トピックにおける語彙の出現確率(トピック-語句分布)によって表現する.LDAでは,文書において,文書-トピック分布(多項分布)からトピックを発生させ,そのトピックをもとに,トピック-語句分布(多項分布)から,語句を発生させる.これを語句の数だけ,文書の数だけ繰り返すことで,文書集合すなわちコーパスが生成される.ここで,トピックの数については分析者が指定する必要がある.また,文書-トピック分布およびトピック-語句分布について,それぞれディリクレ分布が事前分布として仮定される.観測される文書および語句の生成に,階層構造を持つ潜在変数を導入した,いわゆる階層ベイズモデルである.

LDAは,学習にあたってトピックの数以外の情報を必要としない,教師無し学習モデルである.しかし,実際の文書には,ニュース記事等のようにその内容を理解したり,検索したりするためのラベルやキーワードが付与され,評価レビュー等のようにテキストの内容に応じたスコアが振られていることが少なくない.トピックの学習において,こうした付加的な情報を考慮できる拡張トピックモデルが多く考案された.付加情報の導入の仕方は大きく2つに分類できる.

第一に,付加情報にトピックや語句の発生確率を依存させるタイプである.同タイプのモデルは数多く提案されている.文書-トピック分布に付加情報を反映させた例として,著者トピックモデル(Author Topic Model)(Rosen-Zvi et al., 2004)は文書の著者を付加情報として,著者ごとに異なる文書-トピック分布を学習する.ラベル付きトピックモデル(Labeled LDA)(Ramage et al., 2009)は,付加情報である複数のラベルからデザイン行列を作成し,文書に割り当てるトピックを直接制約する.ディリクレ多項回帰(Dirichlet Multinomial Regression)(Mimno and McCallum, 2008)は文書-トピック分布のパラメータを付加情報によって予測させることで,トピックの出現パターンに付加情報を反映させる.トピック-語句分布に付加情報を反映させた例として,Eisenstein et al. (2011)は語句の発生確率の共変量として付加情報を導入する(Sparse Additive Generative Model; SAGE).Roberts et al. (2016)の構造トピックモデル(Structural Topic Model)は,文書-トピック分布とトピック-語句分布の両方に付加情報を考慮できる.トピック-語句分布にはSAGEを採用し,文書-トピック分布に多変量の正規分布を仮定する(Blei and Lafferty, 2007)ことで相関構造を取り入れつつ,期待値を付加情報の線形結合で表現する.

第二に,トピックを入力とした予測関数の出力として付加情報を付与するタイプである.sLDA (Blei and Mcauliffe, 2007)は,付加情報がトピックの割合の線形結合として生成される.したがって,付加情報の変化にとって重要なトピックを学習することができる.また,トピックの学習時に推定した回帰係数のパラメータの大小をもとに,用途に応じて注目するべきトピックを選別することができる.Zhu et al. (2012)はより強力な予測器として,ソフトマージン法による教師ありトピックモデル(Maximum Margin Supervised Topic Model)を提案している.Perotte et al. (2011)は階層構造をもつ付加情報を教師データとして取り入れられるように拡張した(Hierarchically sLDA).

以上のように,トピックの学習に付加情報を考慮するための様々な手法が提案されているが,金融市場分析を念頭に拡張されたモデルは我々が調べた限りでは見当たらない.金融経済ニュースには,トピックの内容を表すラベルが付与されていることが多いため,トピックの発生確率を依存させる手法の応用が考えられる.さらに,トピックを入力とした予測関数の出力として付加情報を付与し,トピックによる予測モデルを構築することで,金融市場の予測分析を実現できる可能性がある.ただし,しばしば金融経済ニュースには,複数の企業やアセットクラスが関連付けされているので,1つのニュースに対して複数の銘柄を対応させる工夫が必要になる.ナイーブな対応策として,複数銘柄のデータ集約か,あるいは銘柄別のモデル構築が考えられる.前者については,必ずしも全ての銘柄に対して,同じトピックが同じ影響を与えるとは限らないため問題がある.後者については,モデルごとに異なるトピックが学習されるため,銘柄横断的な比較分析ができないという弱点がある.以上の論点を踏まえ,Roberts et al. (2016)の構造トピックモデルとBlei and Mcauliffe (2007)のsLDAのハイブリッドモデルを土台に,予測部分に銘柄固有のランダム効果を許容することによって,複数銘柄の同時分析を実現するモデルであるマルチラベル教師ありトピックモデル(Multi Labeled and Supervised Topic Model; MLSTM)を提案する.このモデルの詳細は次節で説明する.

3 提案モデルMLSTM

観測できる変数について,文書数を$M$とし,インデックスを$d\in\{1,2,...,M\}$とする.文書$d$の語句数を$n_{d}$とし,$i$番目の語句を$w_{d,i} (i\in\{1,2,...,n_{d}\})$とする.語彙数を$V$とし,インデックスを$v\in\{1,2,...,V\}$とする.また,$w_{d,i}\in\{1,2,...,V\}$である.教師データのグループ数を$J$とし,インデックスを$j\in\{1,2,...,J\}$とする.文書$d$に紐づけられている教師データのグループとデータの集合をそれぞれ$J_{d}$,$\{y_{d,j}\mid j\in J_{d}\}$とする.ここで,必ずしも$J_{d}=\{1,2,...,J\}$でなくても良い.文書$d$のラベルに基づくベクトルを$\boldsymbol{x}_{d}$とする.

語句の生成過程において,潜在変数として$K$種類のトピック($k\in\{1,2,...,K\}$)を導入する.$w_{d,i}$に対応する潜在トピックを$z_{d,i}\in\{1,2,...,K\}$とする.文書$d$におけるトピック$k$の発生確率を$\theta_{d,k}$とし,ベクトル$\boldsymbol{\theta}_{d}=(\theta_{d,1},\theta_{d,2},...,\theta_{d,K})^{\top}$を文書-トピック分布のパラメータとする.トピックが$k$となった語句($\{w_{d,i}\mid z_{d,i}=k\}$)における語彙$v$の発生確率を$\phi_{k,v}$とし,確率ベクトル$\boldsymbol{\phi}_{k}=(\phi_{k,1},\phi_{k,2},...,\phi_{k,V})^{\top}$をトピック-語句分布とする.$\boldsymbol{\theta}_{d}$と$\boldsymbol{\phi}_{k}$を,それぞれトピックと語句に関する多項分布のパラメータとして,文書$d$における語句$w_{d,i}=v$の発生確率を$\sum^{K}_{k=1}p(z_{d,i}=k\mid\boldsymbol{\theta}_{d})p(w_{d,i}=v\mid\boldsymbol{\phi}_{k})$によって表現する.これが潜在変数$z_{d,i}$を介して語句が生成されるトピックモデルのコアである.

トピック-語句分布$\boldsymbol{\phi}_{k}$には,ベーシックモデルと同様に,パラメータ$\boldsymbol{\beta}=(\beta_{1},\beta_{2},...,\beta_{V})^{\top}$のディリクレ分布を事前分布として仮定する.これは,多項分布とディリクレ分布の共役性による.

文書-トピック分布のパラメータ$\boldsymbol{\theta}_{d}$の事前分布として,トピックの発生パターンに相関構造を導入するため,多変量の正規分布を仮定する.ディリクレ分布と異なり正規分布に従う確率変数ベクトルは合計が1であることを保証しないため,$\boldsymbol{\theta}_{d}$をソフトマックス関数,   

\begin{align} \mathrm{softmax} (\boldsymbol{\theta}_{d})= \frac{1}{\sum^{K}_{k=1}\exp(\theta_{d,k})} (\exp(\theta_{d,1}),\exp(\theta_{d,2}),...,\exp(\theta_{d,K}))^{\top}, \end{align}
によって単体に射影し,文書-トピック分布とする.正規分布の分散を$\Sigma$とし,平均を$\boldsymbol{x}_{d}$の回帰係数$\Gamma$による線形結合とする.ここで,他の観測変数とは異なり,$\boldsymbol{x}_{d}$は確率変数ではなく,外生的な変数である.

教師データ$y_{d,j}$の生成確率として正規分布を仮定する.分散を$\nu^2_{j}$とする.平均は$\bar{\boldsymbol{z}}_{d}$の回帰係数$\boldsymbol{\eta}_{j}$による線形結合とする.ここで,$\bar{\boldsymbol{z}}_{d}$は$\vec{\boldsymbol{z}}_{d,i}=(\vec{z}_{d,i,1},\vec{z}_{d,i,2},...,\vec{z}_{d,i,K})^{\top}$として,   

\begin{align} \bar{\boldsymbol{z}}_{d}&=\frac{1}{n_{d}}\sum^{n_{d}}_{i=1}\vec{\boldsymbol{z}}_{d,i},\\ \vec{z}_{d,i,k}&= \begin{cases} 1,& z_{d,i} = k \\ 0,& z_{d,i} \neq k, \end{cases} \end{align}
である.添字からわかる通り,回帰係数$\boldsymbol{\eta}_{j}$はグループによって異なる値をとりうる.$\boldsymbol{\eta}_{j}$の事前分布として,平均$\boldsymbol{\mu}$,分散$\Lambda$の多変量の正規分布を仮定する.さらに,$\Lambda$について,自由度$\upsilon$,スケール$\Omega$の逆ウィシャート分布を事前分布として仮定する.ここで,逆ウィシャートモデル(Gelman and Hill, 2006)) にならい,$\upsilon$と$\Omega$をそれぞれ$K+1$,$K\times K$の単位行列$\boldsymbol{I}_{K}$とする.

以上より,外生変数$\boldsymbol{x}=\{\boldsymbol{x}_{1},\boldsymbol{x}_{2},...,\boldsymbol{x}_{M}\}$およびハイパーパラメータ$\upsilon$,$\Omega$,$\boldsymbol{\mu}$,$\boldsymbol{\beta}$,$\Gamma$,$\Sigma$, $\boldsymbol{\nu}^{2}=\{\nu_{1}^{2},\nu_{2}^{2},...,\nu_{J}^{2}\}$を所与としたとき,$w_{d,i}$と$y_{d,j}$の生成過程は以下の通りである.

  • 1. Draw $\Lambda\sim\mathcal{IW}(\upsilon,\Omega)$

    2. For each group $j\in\{1,2,...,J\}$,

    •  (a) Draw $\boldsymbol{\eta}_{j}\sim\mathcal{N}(\boldsymbol{\mu},\Lambda)$

    3. For each topic $k\in\{1,2,...,K\}$,

    •  (a) Draw $\boldsymbol{\phi}_{k}\sim\mathcal{D}(\boldsymbol{\beta})$

    4. For each document $d\in\{1,2,...,M\}$,

    •  (a) Draw $\boldsymbol{\theta}_{d}\sim\mathcal{N}(\Gamma\boldsymbol{x}^{\top}_{d},\Sigma)$

       (b) For each word $i\in\{1,2,...,n_{d}\}$,

      •    i. Draw $z_{d,i}\sim\mathcal{M}(\mathrm{softmax}(\boldsymbol{\theta}_{d}))$

          ii. Draw $w_{d,i}\sim\mathcal{M}(\boldsymbol{\phi}_{z_{d,i}})$

       (c) For each group $j\in J_{d}$,

      •    i. Draw $y_{d,j}\sim \mathcal{N}(\boldsymbol{\eta}^{\top}_{j}\bar{\boldsymbol{z}}_{d},\nu^{2}_{j})$

ここで,$\mathcal{IW}(\cdot)$,$\mathcal{N}(\cdot)$,$\mathcal{D}(\cdot)$,$\mathcal{M}(\cdot)$は,それぞれ逆ウィシャート分布,正規分布,ディリクレ分布,多項分布による生成分布である.

グラフィカルモデルを図1に示す.観測される確率変数を色付きの円,潜在変数を色無しの円で囲んでいる.

図1: グラフィカルモデル

$\boldsymbol{w}=\{\boldsymbol{w}_{1},\boldsymbol{w}_{2},...,\boldsymbol{w}_{M}\}=\{\{w_{1,1},...,w_{1,n_{1}}\},\{w_{2,1},...,w_{2,n_{2}}\},...,\{w_{M,1},...,w_{M,n_{M}}\}\}$,$\boldsymbol{z}=\{\boldsymbol{z}_{1},\boldsymbol{z}_{2},...,\boldsymbol{z}_{M}\}=\{\{z_{1,1},...,z_{1,n_{1}}\},\{z_{2,1},...,z_{2,n_{2}}\},...,\{z_{M,1},...,z_{M,n_{M}}\}\}$,$\boldsymbol{\theta}=\{\boldsymbol{\theta}_{1}, \boldsymbol{\theta}_{2},...,\boldsymbol{\theta}_{M}\}$,$\boldsymbol{\phi}=\{\boldsymbol{\phi}_{1}, \boldsymbol{\phi}_{2},...,\boldsymbol{\phi}_{K}\}$,$\boldsymbol{y}=\{\{y_{1,j}\mid j\in J_{1}\},\{y_{2,j}\mid j\in J_{2}\},...,\{y_{M,j}\mid j\in J_{M}\}\}$,$\boldsymbol{\eta}=\{\boldsymbol{\eta}_{1},\boldsymbol{\eta}_{2},...,\boldsymbol{\eta}_{J}\}$として,全ての確率変数の結合分布をベイズの定理により展開すると,   

\begin{align} \label{jointprob} &p(\boldsymbol{w},\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{y},\boldsymbol{\eta},\Lambda|\Gamma,\boldsymbol{x},\Sigma,\boldsymbol{\beta},\boldsymbol{\nu}^2,\boldsymbol{\mu},\upsilon,\Omega)\\ &\quad= p(\boldsymbol{w}|\boldsymbol{z},\boldsymbol{\phi}) p(\boldsymbol{z}|\boldsymbol{\theta}) p(\boldsymbol{\theta}|\boldsymbol{x},\Gamma,\Sigma) p(\boldsymbol{\phi}|\boldsymbol{\beta}) p(\boldsymbol{y}|\boldsymbol{z},\boldsymbol{\eta},\boldsymbol{\nu}^2) p(\boldsymbol{\eta}|\boldsymbol{\mu},\Lambda)p(\Lambda|\upsilon,\Omega)\\ &\quad= \Biggl( \prod_{d=1}^{M}\prod_{i=1}^{n_{d}} p(w_{d,i}|\boldsymbol{\phi}_{z_{d,i}}) p(z_{d,i}|\boldsymbol{\theta}_{d}) \Biggl) \Biggl(\prod_{d=1}^{M} p(\boldsymbol{\theta}_{d}|\boldsymbol{x}_{d},\Gamma,\Sigma)\Biggl) \Biggl(\prod_{k=1}^{K} p(\boldsymbol{\phi}_{k}|\boldsymbol{\beta})\Biggl)\\ &\quad\quad\times \Biggl(\prod_{d=1}^{M}\prod_{j\in J_{d}} p(y_{d,j}|\boldsymbol{z}_{d},\boldsymbol{\eta}_{j},\nu^2_{j})\Biggl) \Biggl(\prod_{j=1}^{J} p(\boldsymbol{\eta}_{j}|\boldsymbol{\mu},\Lambda)\Biggl) p(\Lambda|\upsilon,\Omega), \end{align}
が得られる.提案モデルのオリジナリティは,構造トピックモデルによる拡張 $p(\boldsymbol{\theta}|\boldsymbol{x},\Gamma,\Sigma)$ と,教師ありトピックモデルによる拡張 $p(\boldsymbol{y}|\boldsymbol{z},\boldsymbol{\eta},\boldsymbol{\nu}^2)$ を組み合わせ,教師データの生成に関する部分をマルチラベルモデル $p(\boldsymbol{y}|\boldsymbol{z},\boldsymbol{\eta},\boldsymbol{\nu}^2)p(\boldsymbol{\eta}|\boldsymbol{\mu},\Lambda)p(\Lambda|\upsilon,\Omega)$ に拡張した点にある.

なお,本研究では提案モデルをフィッティングするための学習アルゴリズムの実装に変分ベイズ法を用いている.実装の詳細については本論文の付録を参照されたい.

4 データセット

4.1 ニュースデータ

本研究で用いるニュースデータは,日本経済新聞社の「日本経済新聞 電子版」の「日経会社情報DIGITAL」2から,スクレイピングによって取得した.「日経会社情報DIGITAL」では企業ごとのページが提供されており,各企業がタグ付けされたニュースの一覧にアクセスすることができる.スクレイピングのステップは以下の通りである.

  • 1. ホームページの業界一覧より,NEEDS業種(中)分類コードを取得.

    2. 業種ページより,業種に属する企業コードを取得.

    3. 企業ページより,企業がタグ付けされたニュース記事のIDを取得.

    4. ニュース記事ページより,本文,見出し,キーワード,公開/更新日時を取得.

取得した記事の中には,明らかに金融市場に無関係なニュースも含まれているため,ルールベースで検知できるものについてはあらかじめ除外する.具体的には,人事異動,首相官邸,予定,クイズ,音楽を除外した.例えば,人事異動ニュースであれば,見出しについて「^(人事)」や「^(新社長」といった正規表現,首相官邸ニュースについてはキーワード「首相官邸」で検知することができる.また,リンクや動画コンテンツのみで構成されているニュースも除外した.

日本語の文書をBoW表現に変換するためには,形態素解析によって文章を語句に分割しなくてはならない.本研究ではオープンソースの形態素解析ツールMeCab3(Kudo et al., 2004)を用いる.形態素解析のための辞書として,新語にも対応したmecab-ipadic-NEologd (NEologd)4(Sato, 2015)(佐藤他, 2016)(佐藤他, 2017)をベースとする.さらにニュースソースに即した辞書に改良するための工夫として,スクレイピングによって取得したキーワードおよび企業名をユーザー辞書として追加する.これにより,NEologdでは分割してしまうが,日本経済新聞の記事のキーワードとして扱われている「日経平均先物」,「脱ガソリン」といった語句(約15,000語)や,NEologdが判別できない企業名(約500社)を分割せずに解析することができる.URLリンクを除外し,記号,アルファベット,数字を半角に統一した後,各ニュース記事について,見出しと本文に形態素解析を施す.解析結果から,「名詞」,「動詞」,「形容詞」,「副詞」をピックアップし,名詞の「数」,「接尾」,「非自立」を除外する.ここに,各ニュース記事のキーワードをそれぞれ加える.さらに,「5%」や「10%」といった語句を同一に扱うため,数値は「#」に変換した.5改めて数値(「#」)を除外し,最後に文書全体における頻度が上位1%となる頻出語句を除外し,各ニュースの語句集合とする.

分析対象は,タグ付けニュース件数上位20社($J=20$)とし,各銘柄をグループとする.20社のニュースを抽出した後,頻度が20回未満の語句を除外し,語句が5個未満の文書を除いた.サンプル期間は2019年12月27日から2021年11月21日である.表1に分析対象銘柄とそれぞれのニュース件数をまとめた.

表1: ニュース件数上位20 銘柄 (注)各銘柄のニュース件数は延べ件数.
銘柄コード 企業名 業種 ニュース件数
4755 楽天グループ インターネットサイト運営 1,111
5401 日本製鉄 製鉄・金属製品 1,127
6501 日立製作所 総合電機 1,495
6502 東芝 総合電機 1,323
6701 NEC 総合電機 1,140
6702 富士通 総合電機 1,003
6752 パナソニック 総合電機 1,587
6758 ソニーグループ 総合電機 2,139
7201 日産自動車 自動車 2,116
7203 トヨタ自動車 自動車 5,114
7267 ホンダ 自動車 2,206
8035 東京エレクトロン 製造用機械・電気機械 1,239
9020 JR東日本 陸運 1,650
9021 JR西日本 陸運 1,052
9201 日本航空 空運 1,442
9432 NTT 通信サービス 1,265
9433 KDDI 通信サービス 1,448
9503 関西電力 電力・ガス 960
9983 ファーストリテイリング 衣料品・服飾品 1,370
9984 ソフトバンクグループ 通信サービス 3,441
(合計) 24,964

4.2 ラベルデータ

各文書のラベルデータ$\boldsymbol{x}_{d}$には,ニュースにタグ付けされている企業の業種データをダミー変数に変換し,定数項と合わせたベクトルを使用する.これにより,業種内で共通するトピックを学習する効果が見込まれる.複数の銘柄がタグ付けされているニュースもあり,複数の業界を組み合わせたようなトピックにも対応できる.

極端な例として,市況や複数社へのインタビューをまとめた記事には,雑多に銘柄がタグ付けされていることが多い.その際,無暗に業種ダミー変数が文書-トピック分布の期待値に影響してしまう.しかし,提案モデルはラベルによる予測誤差を計測し,学習へのラベルの影響度合いを調整する仕組みを持つ.そのため,このようなニュースには相対的にラベルに依存しないトピックの比率が大きくなることが期待される.すなわち,無関係なラベルが付与されたニュースを,ラベルとは関係のないニュースとして学習することができる.

4.3 教師データ

教師データ$\boldsymbol{y}$には,ニュースに対する投資家の反応のプロキシーとして取引金額を使用する.6ニュースソースの非速報性や市場の反応ラグを考慮して,当日と前後2日間を含む3日間の平均値をとる.取引金額は市況および銘柄間で水準が異なるため,次の方法で基準化を行う.まず,市場全体の影響を取り除くため,東証1部の取引金額で除す.次に,過去20日平均を差し引き,取引金額の変化を求める.最後に各銘柄について,サンプル期間で平均0,分散1となるように標準化する.

更新日時が平日の大引け(午後3時)までのニュースについては当日,大引け以降のニュースおよび休日のニュースについては翌営業日の教師データに対応させる.なお,同タイミングのニュースは同じ教師データを共有している.

5 データ分析

5.1 モデルのセットアップ

今回の分析ではトピック数$K$を50に設定する.$\boldsymbol{\beta}$は全要素について0.1,$\boldsymbol{\mu}$は全要素について0に固定する.初期値として,$\hat{\boldsymbol{\theta}}_{d}$は$[0,1]$の一様乱数に対数をとり,$K$番目の要素を0に基準化した値,$\boldsymbol{\phi}_{k}$は各要素に対応する語彙の頻度を全語句数で除した値,$\Sigma$は$\hat{\boldsymbol{\theta}}_{d}$の初期値の分散共分散行列,$\hat{\boldsymbol{\eta}}_{j}$は$\boldsymbol{\mu}$,$\hat{\Lambda}$は単位行列$\boldsymbol{I}_{K}$,$\nu^2_{j}$は教師データの分散を設定する.なお,本提案モデルのフィッティングには付録でも説明しているように変分ベイズ法を用いており,その反復数は100回としている.7

図2: 各トピックの発生確率上位の語句によるワードクラウド(1)

図3: 各トピックの発生確率上位の語句によるワードクラウド(2)

表2: 各トピックの構成比率が最も高いニュースの見出し(1)
トピック 構成比率 見出し
1 80% 海外投資家の出資を事前審査する重点企業
2 93% 「東芝総会 公正でなかった」 弁護士調査報告
3 25% オンキヨー再建、車載に活路 祖業売却益どう生かす
4 61% 日立、小島氏が社長兼COOに昇格 東原氏は会長兼CEOに
5 38% SMS詐欺、筆者が追跡 偽サイトに誘うURL巧妙に
6 63% いすゞ、米社からエンジン調達 コスト削減で電動車集中
7 86% ホンダ、鈴鹿製作所の稼働停止2日延長
8 33% 代表幹事 大先輩に思い
9 100% 東証後場寄り 500円高、ソフトバンクGなど高い
10 84% ソフトバンクG、通信子会社株の一部売却で3300億円調達
11 82% 経営者「規制緩和を」9割 「景気拡大」38%に増加
12 55% ユニクロ、ネット注文後2時間で店舗に商品
13 29% 新潟の酒蔵改革は異業種から 「稲盛経営」で再建
14 50% 富士通「ご迷惑かけおわび」 東証のシステム障害で
15 60% JR西日本、連続最終赤字
16 32% SBI・新生銀行、深まる対立 まとめ読み
17 78% 新型コロナ: NTT、ワクチン接種7月にも開始 21年内4万人分を計画
18 92% 新車販売、1月ヤリス首位
19 89% 米に2人引き渡し請求
20 47% 日経広告賞の贈賞式、ヤフーが大賞受賞
21 82% 日立、ブロックチェーンを使ったシステム開発支援
22 42% 〈Nextストーリー 宇宙大航海に挑む〉(5)ロケットの「スーパーカブ」
23 68% 半導体製造装置 進む世代交代
24 94% KDDI、主力「au」で値下げ方針 ドコモに対抗
25 58% ソフトバンク、マレーシアの広告会社と提携 65億円出資
表3: 各トピックの構成比率が最も高いニュースの見出し(2)
トピック 構成比率 見出し
26 40% がんや認知症、血液1滴で早期発見 分析技術が進展
27 96% 新型コロナ: AIRDO ANA  JAL、2月は北海道内発着5割減便
28 54% 全国商業地55%で下落、大阪で市況悪化 21年基準地価
29 81% トヨタ労組、賃上げ1万100円要求へ
30 32% トヨタ販売改革の成算 全車種併売の衝撃(中) いずれは「家電量販店型」も
31 51% 新潟の海と砂が育むワイン 栽培醸造家・本多孝氏
32 69% トヨタと森ビル、お台場で再開発 アリーナや商業施設
33 29% 新型コロナ: 大阪4楽団、生き残りに地域密着 格安公演などファン開拓
34 47% 保有特許に注目 「輸送用機器」関連の技術成長株
35 93% 関電 原発再稼働へ一歩
36 35% 香りの器 高砂コレクション展
37 86% 東北新幹線が通常復旧 所要時間や本数
38 79% 楽天ペイ、新規中小の手数料1年無料
39 45% 民主派香港紙、深まる苦境 創業者服役・資産70億円凍結
40 36% 新潟―庄内の料亭・イタリアンの味満喫 観光列車「海里」
41 79% 大崎電気工業社長 渡辺光康さん
42 25% 新型コロナ: コロナで脚光 日本発トイレ革新、世界へ TOTO・LIXIL
43 61% 持続可能な社会へ解決力
44 73% あつ森、マリオに迫る 任天堂のスイッチソフト累計販売
45 47% ダイムラー、全ルノー株売却へ
46 60% 大手町や霞が関… 赤門は東大だけじゃなかった
47 57% 秋の叙勲4100人 旭日大綬章に仲井真元沖縄知事ら
48 39% スエズ座礁事故 物流目詰まり懸念
49 76% 東芝系など6社、ジェット燃料にCO2再利用
50 81% ホンダ、常識覆す車体設計 鋼板強度下げても試験満点

5.2 トピックの評価

トピック-語句分布$\boldsymbol{\phi}$と文書-トピック分布$\boldsymbol{\theta}$を確認することで,学習したトピックの評価を行う.図23に,トピック-語句分布をもとにワードクラウドを描画した.ワードクラウドは各トピックの確率上位の語句によって構成されており,文字のサイズは確率の大きさを表す.また,表23に,文書-トピック分布において,各トピックの確率が最大となるニュースの見出しをまとめた.これらの図表より,トピックについて解釈を行うことができる.例えば,トピック1は「業績」,「見通し」等の語句が並び,企業業績に関するトピックであることがわかる.トピック2は「株主総会」,「取締役会」,「企業統治」等の語句が並び,東芝の株主総会に係る不正に関するニュース記事が当トピックの代表的な文書として示されていることから,株主総会やガバナンスに関するトピックであると考えられる.同様に,トピック4は経営トップ人事,トピック5は燃料電池自動車,トピック6は自動運転技術や電気自動車など次世代の自動車開発,トピック7は生産工場の停止・再開,トピック9は市況,トピック10はM&Aやコーポレートアクション,トピック11はアンケート,トピック12は小売業界,トピック13はパンデミック禍の医療体制,トピック15はパンデミックによる業績悪化,トピック16は金融業界の再編,トピック17は企業のパンデミック対応,トピック18は自動車販売,トピック19は日産自動車元会長による不正問題,トピック21はテクノロジー,トピック22は宇宙開発,トピック23は半導体,トピック24は携帯キャリア,トピック25はスタートアップ企業,トピック27は旅客および空運・陸運業界,トピック29は労使交渉,トピック32は自治体,都市開発,トピック33はオリンピック,演劇,トピック34は総合電機業界,トピック35は電力業界,トピック36は中国における人権問題,トピック37は陸運業界,トピック38はキャッシュレス決済,トピック39は中国におけるビジネス,トピック43はESG,SDGs,トピック44はエンターテインメント,トピック45は欧米の自動車業界,トピック49は環境対策,トピック50はロボット技術に関するトピックと解釈できる.中には,人間が解釈困難なトピック(3,8,20,30,31,40,41,46,47,48)や複数のテーマが混合したようなトピック(14: バッテリーとシステム障害,26: 小売と医療,28: 景気・需要と鉄鋼・製鉄,42: トイレとタイヤ)もみられる.

提案モデルは,$\Sigma$によってトピック間の相関も許容しているため,相関関係について分析をすることもできる.8なお,ここでいう相関係数はトピックの潜在的な意味に関する類似度ではなく,発生パターンに関する類似度を表している.相関係数が高いトピックのペアとしては,トピック15-28 (0.92),トピック1-28 (0.88),トピック1-15 (0.88),トピック2-19 (0.83),トピック1-10 (0.82)がある.例えば,トピック1,15,28は業績や景気に関するトピック,トピック2,19はガバナンスや経営陣の不正に関するトピックであり,それぞれ共起しやすいトピックとして現実のニュースと合っている.

表4: トピックと業種ラベルの関係(1)
1 2 3 4 5 6 7 8 9 10
電力・ガス -0.29$^*$ 1.27$^*$ 0.86$^*$ 0.65$^*$ 0.57$^*$ 0.03 0.32$^*$ 0.29$^*$ -0.39$^*$ -0.20$^*$
(0.07) (0.07) (0.04) (0.05) (0.04) (0.03) (0.05) (0.04) (0.09) (0.07)
製鉄・金属製品 0.85$^*$ 0.13$^*$ -0.22$^*$ 0.06 -0.62$^*$ -0.37$^*$ 0.55$^*$ 0.19$^*$ 1.22$^*$ 0.24$^*$
(0.06) (0.06) (0.04) (0.05) (0.03) (0.03) (0.05) (0.04) (0.09) (0.06)
製造用機械・電気機械 1.86$^*$ 0.40$^*$ 0.40$^*$ -0.07 -0.27$^*$ 0.15$^*$ 0.48$^*$ 0.87$^*$ 3.64$^*$ 1.09$^*$
(0.06) (0.06) (0.04) (0.05) (0.03) (0.03) (0.05) (0.04) (0.09) (0.06)
総合電機 -0.34$^*$ 0.29$^*$ -0.16$^*$ 0.15$^*$ -0.76$^*$ 0.05$^*$ -0.65$^*$ -0.06$^*$ -0.68$^*$ -0.28$^*$
(0.04) (0.04) (0.02) (0.03) (0.02) (0.02) (0.03) (0.03) (0.05) (0.04)
自動車 0.03 -0.54$^*$ -0.14$^*$ 0.05 0.32$^*$ 1.60$^*$ 0.95$^*$ 0.30$^*$ 0.13$^*$ -0.14$^*$
(0.04) (0.04) (0.02) (0.03) (0.02) (0.02) (0.03) (0.03) (0.05) (0.04)
衣料品・服飾品 0.98$^*$ -0.01 0.81$^*$ 0.26$^*$ -0.16$^*$ -0.53$^*$ 0.43$^*$ 0.40$^*$ 2.59$^*$ 0.70$^*$
(0.07) (0.07) (0.04) (0.05) (0.04) (0.03) (0.05) (0.05) (0.1) (0.07)
陸運 -0.35$^*$ -0.94$^*$ -0.37$^*$ -0.58$^*$ 0.48$^*$ -0.86$^*$ -0.95$^*$ -0.09$^*$ -0.94$^*$ -0.78$^*$
(0.05) (0.05) (0.03) (0.04) (0.03) (0.02) (0.04) (0.03) (0.07) (0.05)
空運 0.51$^*$ -0.15$^*$ 0.37$^*$ 0.27$^*$ 0.89$^*$ -0.27$^*$ 0.72$^*$ 0.34$^*$ 0.73$^*$ 0.40$^*$
(0.06) (0.07) (0.04) (0.05) (0.03) (0.03) (0.05) (0.04) (0.09) (0.06)
通信サービス 0.58$^*$ 0.89$^*$ 0.61$^*$ 0.38$^*$ 0.18$^*$ 0.28$^*$ -0.47$^*$ 0.16$^*$ 1.27$^*$ 2.00$^*$
(0.04) (0.04) (0.03) (0.03) (0.02) (0.02) (0.03) (0.03) (0.06) (0.04)
インターネットサイト運営 0.58$^*$ 0.57$^*$ 0.40$^*$ 0.53$^*$ 0.67$^*$ 0.06$^*$ 0.08 0.15$^*$ 0.88$^*$ 0.63$^*$
(0.06) (0.06) (0.04) (0.05) (0.03) (0.03) (0.04) (0.04) (0.08) (0.06)
$R^2$ 0.29 0.17 0.35 0.27 0.56 0.43 0.28 0.34 0.37 0.31
11 12 13 14 15 16 17 18 19 20
電力・ガス 0.62$^*$ 0.15$^*$ 0.05 0.66$^*$ 0.50$^*$ 0.08 0.58$^*$ -0.31$^*$ 0.31$^*$ 1.12$^*$
(0.04) (0.04) (0.04) (0.04) (0.07) (0.05) (0.05) (0.04) (0.06) (0.04)
製鉄・金属製品 0.27$^*$ -0.67$^*$ -0.12$^*$ 0.56$^*$ 0.52$^*$ 0.26$^*$ -0.63$^*$ -0.40$^*$ -0.26$^*$ -0.68$^*$
(0.04) (0.04) (0.04) (0.04) (0.06) (0.05) (0.05) (0.04) (0.06) (0.04)
製造用機械・電気機械 0.39$^*$ -0.24$^*$ 0.67$^*$ 1.10$^*$ 0.66$^*$ 0.66$^*$ -0.20$^*$ 0.12$^*$ -0.12$^*$ -0.09$^*$
(0.04) (0.04) (0.04) (0.04) (0.06) (0.05) (0.05) (0.04) (0.06) (0.04)
総合電機 -0.02 -0.87 -0.30$^*$ 0.18$^*$ -0.94$^*$ -0.15$^*$ -0.20$^*$ -0.89$^*$ -0.82$^*$ -0.12$^*$
(0.02) (0.02) (0.03) (0.03) (0.04) (0.03) (0.03) (0.03) (0.04) (0.02)
自動車 -0.28$^*$ -0.01 0.11$^*$ 0.36$^*$ 0.15$^*$ -0.51$^*$ -0.50$^*$ 2.77$^*$ -0.08$^*$ -0.32$^*$
(0.02) (0.02) (0.03) (0.03) (0.04) (0.03) (0.03) (0.03) (0.04) (0.02)
衣料品・服飾品 0.32$^*$ 2.35$^*$ 0.44$^*$ 0.48$^*$ 0.77$^*$ 0.46$^*$ 0.15$^*$ 0.73$^*$ 0.05 0.38$^*$
(0.04) (0.04) (0.05) (0.05) (0.07) (0.05) (0.05) (0.05) (0.07) (0.04)
陸運 0.70$^*$ 0.08$^*$ 0.12$^*$ -0.73$^*$ 0.65$^*$ -0.17$^*$ 0.54$^*$ -0.04 -0.60$^*$ 0.38$^*$
(0.03) (0.03) (0.03) (0.03) (0.05) (0.04) (0.04) (0.03) (0.05) (0.03)
空運 0.40$^*$ 0.45$^*$ 0.67$^*$ 0.30$^*$ 1.66$^*$ 0.39$^*$ 1.28$^*$ 0.00 0.00 0.31$^*$
(0.04) (0.04) (0.04) (0.04) (0.06) (0.05) (0.05) (0.04) (0.06) (0.04)
通信サービス 0.70$^*$ 0.02 0.47$^*$ 0.39$^*$ 0.32$^*$ 1.14 0.56$^*$ 0.05$^*$ 1.27$^*$ 0.44$^*$
(0.02) (0.02) (0.03) (0.03) (0.04) (0.03) (0.03) (0.03) (0.04) (0.02)
インターネットサイト運営 0.40$^*$ 1.07$^*$ 0.70$^*$ 0.67$^*$ 0.50$^*$ 0.76$^*$ 0.69$^*$ 0.41$^*$ 0.88$^*$ 0.67$^*$
(0.03) (0.03) (0.04) (0.04) (0.06) (0.04) (0.05) (0.04) (0.06) (0.03)
$R^2$ 0.49 0.36 0.45 0.47 0.28 0.45 0.33 0.50 0.20 0.44
21 22 23 24 25 26 27 28 29 30
電力・ガス 0.11$^*$ 0.21$^*$ -0.45$^*$ 0.37$^*$ 0.02 -0.02 0.37$^*$ -0.02 0.23$^*$ 0.32$^*$
(0.03) (0.04) (0.04) (0.05) (0.05) (0.04) (0.05) (0.06) (0.06) (0.05)
製鉄・金属製品 -0.93$^*$ 0.29$^*$ -0.45$^*$ -1.19$^*$ -0.57$^*$ -0.61$^*$ 1.79$^*$ 2.28$^*$ 0.27$^*$ 0.30$^*$
(0.03) (0.03) (0.04) (0.04) (0.05) (0.03) (0.05) (0.05) (0.05) (0.04)
製造用機械・電気機械 -0.42$^*$ 0.45$^*$ 2.29$^*$ 0.01 -0.22$^*$ 0.14$^*$ -0.31$^*$ 1.72$^*$ 0.10 0.94$^*$
(0.03) (0.03) (0.04) (0.04) (0.05) (0.03) (0.05) (0.05) (0.06) (0.04)
総合電機 0.86$^*$ -0.30$^*$ 0.19$^*$ -0.04 -0.18$^*$ -0.31$^*$ -1.43$^*$ -0.51$^*$ 0.33$^*$ -0.62$^*$
(0.02) (0.02) (0.03) (0.03) (0.03) (0.02) (0.03) (0.03) (0.03) (0.03)
自動車 -0.63$^*$ -0.34$^*$ -0.58$^*$ -0.84$^*$ -0.57$^*$ -0.08$^*$ -0.88$^*$ 0.17$^*$ -0.12$^*$ 0.51$^*$
(0.02) (0.02) (0.02) (0.03) (0.03) (0.02) (0.03) (0.03) (0.03) (0.03)
衣料品・服飾品 -0.57$^*$ 0.31$^*$ -0.56$^*$ -0.72$^*$ -0.53$^*$ 0.47$^*$ -0.12$^*$ 0.71$^*$ 0.15$^*$ 0.47$^*$
(0.04) (0.04) (0.05) (0.05) (0.05) (0.04) (0.05) (0.06) (0.06) (0.05)
陸運 -0.27$^*$ -0.37$^*$ -0.95$^*$ -0.55$^*$ -0.39$^*$ 0.00 1.54 0.16$^*$ 0.34$^*$ 0.12$^*$
(0.03) (0.03) (0.03) (0.03) (0.04) (0.03) (0.04) (0.04) (0.05) (0.04)
空運 -0.09$^*$ 0.24$^*$ -0.26$^*$ 0.11$^*$ 0.53$^*$ 0.22$^*$ 4.01$^*$ 0.89$^*$ 1.28$^*$ 0.75$^*$
(0.03) (0.03) (0.04) (0.04) (0.05) (0.03) (0.05) (0.05) (0.06) (0.04)
通信サービス 0.99$^*$ 0.75$^*$ 0.85$^*$ 2.98$^*$ 1.26$^*$ 0.17$^*$ -0.36$^*$ 0.51$^*$ 0.27$^*$ 0.52$^*$
(0.02) (0.02) (0.03) (0.03) (0.03) (0.02) (0.03) (0.03) (0.04) (0.03)
インターネットサイト運営 0.73$^*$ 0.31$^*$ 0.37$^*$ 1.53 1.06$^*$ 0.60$^*$ 0.13$^*$ 0.45$^*$ 0.21$^*$ 0.51$^*$
(0.03) (0.03) (0.04) (0.04) (0.04) (0.03) (0.05) (0.05) (0.05) (0.04)
$R^2$ 0.52 0.49 0.33 0.52 0.24 0.27 0.46 0.33 0.13 0.45
表5: トピックと業種ラベルの関係(2)
31 32 33 34 35 36 37 38 39 40
電力・ガス 0.25$^*$ 0.53$^*$ 0.42$^*$ 0.10$^*$ 4.39$^*$ 0.32$^*$ 0.53$^*$ -0.27$^*$ -0.17$^*$ 0.37$^*$
(0.04) (0.04) (0.04) (0.04) (0.04) (0.05) (0.04) (0.05) (0.05) (0.05)
製鉄・金属製品 -0.31$^*$ -0.75$^*$ -0.36$^*$ -0.18$^*$ 0.34$^*$ 0.55$^*$ -0.33$^*$ -0.78$^*$ 0.29$^*$ -0.26$^*$
(0.04) (0.04) (0.04) (0.03) (0.04) (0.04) (0.04) (0.04) (0.05) (0.05)
製造用機械・電気機械 0.43$^*$ -0.47$^*$ -0.19$^*$ -0.21$^*$ 0.30$^*$ 1.07$^*$ 0.17$^*$ -0.19$^*$ 0.62$^*$ 0.74$^*$
(0.04) (0.04) (0.04) (0.03) (0.04) (0.04) (0.04) (0.04) (0.05) (0.05)
総合電機 -0.41$^*$ -0.78$^*$ -0.21$^*$ 0.31$^*$ -0.49$^*$ -0.33$^*$ -0.95$^*$ -0.68$^*$ -0.41$^*$ 0.01
(0.02) (0.02) (0.02) (0.02) (0.03) (0.03) (0.02) (0.03) (0.03) (0.03)
自動車 -0.39$^*$ -0.61$^*$ -0.30$^*$ -0.49$^*$ -0.33$^*$ 0.18$^*$ -0.42$^*$ -0.69$^*$ 0.54$^*$ -0.45$^*$
(0.02) (0.02) (0.02) (0.02) (0.03) (0.03) (0.02) (0.03) (0.03) (0.03)
衣料品・服飾品 0.71$^*$ -0.39$^*$ -0.04 -0.16$^*$ -0.37$^*$ 1.63$^*$ -0.03 0.13$^*$ 1.49$^*$ 0.38$^*$
(0.04) (0.04) (0.04) (0.04) (0.05) (0.05) (0.04) (0.05) (0.05) (0.05)
陸運 0.94$^*$ 1.54$^*$ 0.90$^*$ -0.49$^*$ -0.18$^*$ -0.61$^*$ 3.45$^*$ -0.04 -0.59$^*$ 0.60$^*$
(0.03) (0.03) (0.03) (0.03) (0.03) (0.04) (0.03) (0.04) (0.04) (0.04)
空運 0.63$^*$ 0.63$^*$ 0.66$^*$ 1.36$^*$ -0.14$^*$ 0.39$^*$ 1.16$^*$ 0.29$^*$ 0.45$^*$ 0.84$^*$
(0.04) (0.04) (0.04) (0.03) (0.04) (0.04) (0.04) (0.04) (0.05) (0.05)
通信サービス 0.61$^*$ 0.73$^*$ 0.97$^*$ 0.67$^*$ 0.13$^*$ 0.60$^*$ 0.25$^*$ 1.35$^*$ 0.71$^*$ 0.64$^*$
(0.02) (0.02) (0.03) (0.02) (0.03) (0.03) (0.03) (0.03) (0.03) (0.03)
インターネットサイト運営 0.39$^*$ 0.41$^*$ 0.41$^*$ 0.52$^*$ 0.03 0.39$^*$ 0.24$^*$ 2.53$^*$ 0.38$^*$ 0.44$^*$
(0.03) (0.04) (0.04) (0.03) (0.04) (0.04) (0.04) (0.04) (0.04) (0.04)
$R^2$ 0.48 0.38 0.39 0.34 0.42 0.42 0.48 0.40 0.20 0.38
41 42 43 44 45 46 47 48 49 50
電力・ガス 0.27$^*$ 0.82$^*$ 0.64$^*$ -0.26$^*$ 0.53$^*$ 0.07 1.46$^*$ -0.27$^*$ 1.86$^*$
(0.05) (0.04) (0.05) (0.03) (0.06) (0.05) (0.04) (0.04) (0.04)
製鉄・金属製品 -0.36$^*$ 0.62$^*$ -0.13$^*$ -0.66$^*$ -0.02 0.08 0.09$^*$ -0.63$^*$ 0.68$^*$
(0.04) (0.04) (0.04) (0.03) (0.05) (0.04) (0.04) (0.03) (0.04)
製造用機械・電気機械 0.05 0.99$^*$ 0.00 -0.10$^*$ 0.56$^*$ 0.66$^*$ 0.02 0.24$^*$ -0.48$^*$
(0.04) (0.04) (0.05) (0.03) (0.05) (0.04) (0.04) (0.03) (0.04)
総合電機 -0.23$^*$ -0.26$^*$ 0.35$^*$ 0.89$^*$ -0.62$^*$ -0.47$^*$ -0.04 -0.56$^*$ -0.57$^*$
(0.03) (0.03) (0.03) (0.02) (0.03) (0.03) (0.02) (0.02) (0.02)
自動車 -0.20$^*$ -0.02 -0.16$^*$ -0.59$^*$ 1.30 -0.30$^*$ -0.27$^*$ 0.02 -0.02
(0.03) (0.02) (0.03) (0.02) (0.03) (0.03) (0.02) (0.02) (0.02)
衣料品・服飾品 0.61$^*$ 0.12$^*$ 0.36$^*$ -0.12$^*$ 0.61$^*$ 0.91$^*$ 0.62$^*$ 0.17$^*$ 0.02
(0.05) (0.05) (0.05) (0.04) (0.06) (0.05) (0.04) (0.04) (0.04)
陸運 0.21$^*$ -0.28$^*$ -0.67$^*$ 0.06$^*$ -0.81$^*$ 0.49$^*$ 0.40$^*$ -0.16$^*$ -0.13$^*$
(0.03) (0.03) (0.04) (0.03) (0.04) (0.04) (0.03) (0.03) (0.03)
空運 0.66$^*$ 0.54$^*$ 0.22$^*$ 0.19$^*$ 0.14$^*$ 0.51$^*$ 0.74$^*$ 0.50$^*$ 0.16$^*$
(0.04) (0.04) (0.05) (0.03) (0.05) (0.04) (0.04) (0.04) (0.04)
通信サービス 0.69$^*$ 0.43$^*$ 0.84$^*$ 0.69$^*$ 0.28$^*$ 0.45$^*$ 0.52$^*$ 0.67$^*$ -0.15$^*$
(0.03) (0.03) (0.03) (0.02) (0.04) (0.03) (0.03) (0.02) (0.03)
インターネットサイト運営 0.70$^*$ 0.19$^*$ 0.76$^*$ 0.45$^*$ 0.39$^*$ 0.36$^*$ 0.02 0.95$^*$ -0.19$^*$
(0.04) (0.04) (0.04) (0.03) (0.05) (0.04) (0.04) (0.03) (0.04)
$R^2$ 0.44 0.50 0.48 0.35 0.21 0.47 0.36 0.53 0.26

図4: ラベルによる予測精度

(注) 縦軸はトピックの番号であり,予測誤差分散について降順で並べている.

5.3 文書-トピック分布の期待値と業種ダミー変数の関係

ラベルによる文書-トピック分布への線形回帰モデル部分($\mathbb{E}[\boldsymbol{\theta}_{d}|\boldsymbol{x}_{d}]=\Gamma\boldsymbol{x}^{\top}_{d}$)における回帰係数$\Gamma$と誤差項の分散$\Sigma$を確認することで,ラベルと各トピックの関係を調べることができる.分析対象の銘柄が属する「電力・ガス」,「製鉄・金属製品」,「製造用機械・電気機械」,「総合電機」,「自動車」,「衣料品・服飾品」,「陸運」,「空運」,「通信サービス」,「インターネットサイト運営」に絞り,推定結果を観察する(表45).ここで,回帰係数がゼロであるという帰無仮説について仮説検定($t$検定)を行っており,有意水準5%で帰無仮説を棄却した場合に,推定値に「$^*$」を付与した.また,ラベルとトピック発生の関係を確認するため,各業種ラベルにおいて,推定値が大きかった上位3つを太字にしている.なお,括弧内に標準誤差,各列の最終行に調整済み決定係数$R^2$を記述している.ラベルを参考に学習しているため,ほとんどの回帰係数について有意な結果が得られている.電力・ガスではトピック35,製鉄・金属製品ではトピック28,製造用機械・電気機械ではトピック23,総合電機ではトピック21や44,自動車ではトピック18,衣料品・服飾品はトピック12,陸運はトピック37,空運はトピック27,通信サービスはトピック24,インターネットサイト運営はトピック38の発生に相対的に大きく寄与している.それぞれの業種に対応した業界や製品・サービスに関連するトピックであることから,いずれもすでに述べたトピックの解釈と整合的である

図4は$\Sigma$の対角要素であり,ラベルによる予測精度として解釈できる.値が高ければ,特定の業種とは無関係のトピックであり,値が低ければ,業種固有のトピックである可能性が高い.トピック9は著しく高い値を示しており,ラベルの影響をあまり受けていないトピックである.すでに述べた解釈を踏まえると,トピック9は市況に関するトピックであるため,業種ラベルをノイズとして,あまり重視しないように学習したと考えられる.反対に,低い値を示したトピック6,21,44などは特定の業界の製品や技術に関連した業種固有のトピックとして学習されていることがわかる.

図5: 銘柄別の取引金額の変化に対する各トピックの回帰係数(1)

(注) 縦軸はトピック番号,横軸は点推定値(棒),95% 信用区間(実線).

図6: 銘柄別の取引金額の変化に対する各トピックの回帰係数(2)

(注) 縦軸はトピック番号,横軸は点推定値(棒),95% 信用区間(実線).

5.4 トピックと取引金額の関係

各トピックに対する各銘柄の取引金額の反応を,文書内のトピック構成比率による教師データへの線形回帰モデル部分($\mathbb{E}[y_{d,j}|\boldsymbol{z}_{d}]=\boldsymbol{\eta}^{\top}_{j}\bar{\boldsymbol{z}}_{d}$)における回帰係数$\boldsymbol{\eta}$によって確認する.図56に各銘柄について点推定値が大きい順にトピックを10個ピックアップし,降順で95%信用区間とともに示した.回帰係数の値が大きければ大きいほど,取引金額へのインパクトが大きいトピックであると解釈できる.銘柄によって,影響のあるトピックの序列が異なっており,また,同じトピックであっても影響度合いが異なっている.これは提案モデル独自の分析結果である.

トピック1は業績に関するトピックであったが,製造業を中心に上位に現れている.今回の分析対象銘柄が,ニュース件数の多い大型銘柄を中心に構成されているため,トピック9も同様に多くの銘柄で確認することができ,市況に関するトピックと取引金額の上昇が同時発生していることを反映していると考えられる.コーポレートアクションに関連するトピック10もいくつかの銘柄において際立っている.トピック14はバッテリーに関するトピックであるが,自動車セクターと総合電機セクターというようにサプライチェーンにわたって,上位トピックとなっている.自動車セクターでは,中国におけるビジネスに関するトピック39が共通して上位に現れている.電力・ガスセクターでは,同業界に関するトピック35と環境対策に関するトピック49が特徴的である.衣料品・服飾品セクターでは,小売業界に関するトピック12が上位となっている.

サンプル期間に発生した事象もトピックおよび回帰係数の学習に影響を与えている.パンデミック禍における人流抑制政策の影響を受けた陸運セクター,空運セクターのJR東日本,JR西日本,日本航空では,パンデミックに関するトピック15やトピック17が上位に並ぶ.東芝と関西電力はトピック2の回帰係数が最大となっており,ガバナンスに関する不祥事の発生を反映していると考えられる.

その他,個別銘柄について特徴的な結果について述べる.楽天グループでは,携帯キャリアに関するトピック24が上位となっており,同社がモバイルセグメントを持つことによるものと考えられる.ゲーム事業を軸とするソニーグループでは,ゲームやエンターテインメントに関連するトピック44がみられる.日産自動車では,同社の元会長による不正問題に関するトピック19が確認できる.また,他の自動車メーカーとは異なり,欧米の自動車業界に関するトピック45や環境に関連するトピック49が上位に入っており,同社の欧州自動車メーカーとのアライアンスと電気自動車生産への注力を反映したもの考えられる.NTTは携帯キャリアに関連するトピック24が上位に現れている一方で,KDDIではキャッシュレス決済,電力に関する他セグメントのトピック(35,38)が目立っている.

以上のように,概ねトピックと銘柄の特色やイベントと整合的な結果が得られている.一部解釈が困難であった結果についても,さらに詳しく考察を行うことで解釈できる可能性がある.しかし,本研究ではこれ以上の解釈に立ち入らず,学習したトピックの株価予測性能についての分析に移る.

5.5 トピックと株価リターンの関係

多くの銘柄において回帰係数上位に共通して現れたトピック1,トピック9,トピック10と株価リターンとの関係について分析する.分析にあたって,学習したトピックを次の手法によって定量化する.ニュースの文書-トピック分布を日次で合計し,同日の株価変化の方向性によって符号を調整した値をスコアとする.具体的には,$t$期における対東証株価指数(TOPIX)相対対数株価と銘柄$j$のニュース集合をそれぞれ$P_{j,t}$,$D_{j,t}$とし,銘柄$j$のトピック$k$による$t$期におけるスコアを,ニュース$d$におけるトピック$k$の比率$\theta_{d,k}$を用いて,   

\begin{align} \xi_{j,k,t}= \mathrm{sgn}(P_{j,t}-P_{j,t-1})\sum_{d\in D_{j,t}} \theta_{d,k}, \end{align}
によって定義する.ここで,$\mathrm{sgn}(\cdot)$は符号関数である.トピックの発生が同時点の株価に与えるインパクトについては株式市場を参照し,期先のパスへの影響分析を行う.

分析モデルにはローカル・プロジェクション(Jordà, 2005)を用いて,インパルス反応分析を行う.具体的には,次の線形回帰モデルを推定する.   

\begin{align} \Delta^{h}P_{j,t}= \alpha^{h}_{j,k} + \gamma^{h}_{j,k}\xi_{j,k,t} + \epsilon^{h}_{j,k,t}. \end{align}
ここで,$\Delta^{h}P_{j,t}=P_{j,t+h}-P_{j,t-1}$とし,$\gamma^{h}_{j,k}$をスコア$\xi_{j,k,t}$に対する$h$期先までの銘柄$j$の累積株価リターンの反応とし,これを$h=0,1,...,20$について推定し,インパルス反応関数とする.なお,$\alpha^{h}_{j,k}$と$\epsilon^{h}_{j,k,t}$は,それぞれ回帰式の定数項と誤差項である.推定値の信頼区間は誤差項の不均一分散と系列相関に頑健なHACによる標準誤差から計算する.また,株価のモメンタム効果をコントロールするため,$\Delta^{0}P_{j,t}$の5次までのラグ項を含めて推定する.以上の設定より,本分析によるインパルス反応関数は各トピックの構成比率が100%となるニュースが1件発生したときの超過収益率への累積効果として解釈できる.

分析結果を図7に示した.全体的な傾向として,トピック1およびトピック10と比較して,トピック9への株価の反応は限定的である.すなわち,トピック9は取引金額との関連性は高いものの,株価リターンへの影響は小さく,投資家のセンチメントへ作用する部分が大きい可能性がある.一方で,各トピックの株価へのインパクトは一過性ではなく,短期的な株価のリバウンドは見られない. ニュースが将来の株価形成に対するファンダメンタルズ情報を持つという理論を情報理論(Information Theory)という.概ね全ての銘柄について,明らかに業績や企業活動等のファンダメンタルズに関するトピック1とトピック10だけでなく,市況に関するトピック9も期先の株価に影響を与えており,情報理論をサポートする結果となった.これは,Tetlock (2007)を日本のデータに応用した沖本・平澤 (2014)と同様の結果であるが,個別銘柄を分析対象としている点,既存のカテゴリーではなく,ニュースの潜在的なトピックをスコアのベースとしている点で分析の前提が異なる.最後に銘柄固有の結果として,NTTや関西電力は5日程度で影響が収束し,東芝やソフトバンクグループは影響が逓増するような傾向が確認できる.共通のトピックに対して,銘柄の特性によってニュースへの反応が異なる可能性が示唆された.

図7: トピックと株価リターンのインパルス反応関数

(注) 縦軸はインパルス反応関数の点推定値(線) と95% 信頼区間(エラーバンド),横軸は期間.

6 むすび

本研究では,金融市場分析のためのニュースデータのスコアリングの従来手法についての問題点と,既存モデルのファイナンス領域における応用上の不備を指摘し,それらを克服する新しいモデルを開発した.ニュースと金融市場の関連性を分析するためには,単なる件数カウントのような内容を無視した手法ではなく,ニュースの内容と分析の目的を両方考慮した分析が必要である.また,内容の考慮にあたっては,二元的な評価ではなく,金融市場の複雑性やニュースの多義性を踏まえた多元的な評価を行わなくてはならない.左記に部分的に適うモデルとしてトピックモデルがある.ただし,ファイナンス分野におけるニュースは,複数のラベルと複数の銘柄が同時に関連付けられており,前者については補助情報として,後者については予測対象として分析する必要がある.さらに後者については,同じニュースであっても,銘柄によって異なる反応を示すことがあり,そのような構造を全て表現できるトピックモデルは,我々の知りうる限りこれまで提案されていない.そこで,Roberts et al. (2016)の構造トピックモデルおよびBlei and Mcauliffe (2007)のsLDAのハイブリッドモデルを土台に,予測部分にマルチラベルモデルを導入することで,銘柄固有のランダム効果を許容し,複数ラベルの考慮と複数銘柄の同時分析を実現するモデルを提案した.また,変分ベイズ法による学習アルゴリズムを示した.

「日本経済新聞 電子版」のニュースと日本の株式市場の個別銘柄のデータを使用した実証分析では,ラベルデータをニュースに紐づく銘柄の業種,教師データを各銘柄の取引金額として,提案モデルを応用した.各トピックの特徴的なパラメータを考察することで,分析対象銘柄やラベルに整合的なトピックが学習されたことを確認し,機械的に学習したトピックについて解釈を与えた.提案モデル独自の分析結果として,ニュースが取引金額に与える影響について,トピック・銘柄固有の反応を示すことを定量的に示し,提案モデルの有用性を確認する結果を得た.また,提案モデルによって学習したトピックを用いてスコアを作成し,将来の株価リターンへの影響を分析した.ニュースのトピックの違いによって,影響の大きさが異なり,業績や企業活動に関するトピックの影響が大きく,市況に関するトピックは影響が限定的であることを示した.また,市況に関するトピックも含めて,概ね全てのトピック・銘柄について,ニュースの株価へのインパクトは持続的であり,ニュースが将来の株価のファンダメンタルズに関する情報を持つという情報理論をサポートする結果を得た.

脚注

1 ここで,分類を教師データとして与える統計アプローチのような手法とは異なることに注意されたい.

2 「日経会社情報DIGITAL」(https://www.nikkei.com/nkd/).

3 MeCab 0.996.

4 2021/8/26時点の辞書を使用.

5 「S&P500」や「5G」等の数字を含む固有名詞も,「S&P#」や「#G」と変換されてしまうが,モデル学習上はあくまで記号的に処理を行うため,特に問題はなく,重要な語句については考察の際に数値を補えばよい.

6 株式市場に関するデータは全てDatastreamから取得した.

7 反復終了時点において,各パラメータが十分収束していることを確認している.

8 識別制約のため,$K-1$個についてのみ分析することができる.

9 本稿で省略した各推定式とその導出については佐藤 (2015)に詳しい.

参考文献
付録

付録A モデル学習アルゴリズム

本提案モデルの学習アルゴリズムには,トピックモデルの学習でよく用いられる変分ベイズ法を採用している.変分ベイズ法では,対数周辺尤度と近似事後分布から導出した下限(変分下限)を,近似事後分布とハイパーパラメータによって最大化する.本章では,対数周辺尤度と変分下限,近似事後分布とハイパーパラメータの更新式を導出する.

A.1 対数周辺尤度と変分下限の導出

対数尤度を潜在変数によって周辺化すると,対数周辺尤度,   

\begin{align} \label{loglikelihood} L &=\log p(\boldsymbol{w},\boldsymbol{y}|\Gamma,\boldsymbol{x},\Sigma,\boldsymbol{\beta},\boldsymbol{\nu}^2,\boldsymbol{\mu},\upsilon,\Omega)\\ &=\log \iiiint\sum_{\boldsymbol{z}} p(\boldsymbol{w},\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{y},\boldsymbol{\eta},\Lambda |\Gamma,\boldsymbol{x},\Sigma,\boldsymbol{\beta},\boldsymbol{\nu}^2,\boldsymbol{\mu},\upsilon,\Omega) d\boldsymbol{\theta}d\boldsymbol{\phi}d\boldsymbol{\eta}d\Lambda\\ &=\log \iiiint\sum_{\boldsymbol{z}} \Biggl[ \Biggl( \prod_{d=1}^{M}\prod_{i=1}^{n_{d}} p(w_{d,i}|\boldsymbol{\phi}_{z_{d,i}}) p(z_{d,i}|\boldsymbol{\theta}_{d}) \Biggl) \\ &\qquad\times \Biggl( \prod_{d=1}^{M} p(\boldsymbol{\theta}_{d}|\boldsymbol{x}_{d},\Gamma,\Sigma) \Biggl) \Biggl( \prod_{k=1}^{K} p(\boldsymbol{\phi}_{k}|\boldsymbol{\beta}) \Biggl)\\ &\qquad\times \Biggl( \prod_{d=1}^{M}\prod_{j\in J_{d}} p(y_{d,j}|\boldsymbol{z}_{d},\boldsymbol{\eta}_{j},\nu^2_{j}) \Biggl) \Biggl( \prod_{j=1}^{J} p(\boldsymbol{\eta}_{j}|\boldsymbol{\mu},\Lambda) \Biggl) p(\Lambda|\upsilon,\Omega) \Biggl] d\boldsymbol{\theta}d\boldsymbol{\phi}d\boldsymbol{\eta}d\Lambda, \end{align}
が得られる.対数関数の中に積分と総和・総乗演算子を含む複雑な式となっており,直接に尤度最大化問題を解くことができない.そこで,潜在変数の近似事後分布$q(\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{\eta},\Lambda)$を用いて,イェンセンの不等式から対数周辺尤度の下限を次の通り求める.   
\begin{align} L &=\log \iiiint\sum_{\boldsymbol{z}} q(\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{\eta},\Lambda)\\ &\quad\times \frac{ p(\boldsymbol{w},\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{y},\boldsymbol{\eta},\Lambda |\Gamma,\boldsymbol{x},\Sigma,\boldsymbol{\beta},\boldsymbol{\nu}^2,\boldsymbol{\mu},\upsilon,\Omega) }{ q(\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{\eta},\Lambda) }d\boldsymbol{\theta}d\boldsymbol{\phi}d\boldsymbol{\eta}d\Lambda\\ &\geq \iiiint\sum_{\boldsymbol{z}} q(\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{\eta},\Lambda)\\ &\quad\times \log \frac{ p(\boldsymbol{w},\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{y},\boldsymbol{\eta},\Lambda |\Gamma,\boldsymbol{x},\Sigma,\boldsymbol{\beta},\boldsymbol{\nu}^2,\boldsymbol{\mu},\upsilon,\Omega) }{ q(\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{\eta},\Lambda) }d\boldsymbol{\theta}d\boldsymbol{\phi}d\boldsymbol{\eta}d\Lambda\\ &\equiv F[q(\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{\eta},\Lambda)]. \end{align}
$F[q(\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{\eta},\Lambda)]$を変分下限という.

ここで,近似事後分布$q(\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{\eta},\Lambda)$について,次の因子分解の仮定をおく.   

\begin{align} &q(\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{\eta},\Lambda)\\ &\quad=q(\boldsymbol{z})q(\boldsymbol{\theta})q(\boldsymbol{\phi})q(\boldsymbol{\eta})q(\Lambda)\\ &\quad= \Biggl( \prod^{M}_{d=1}\prod^{n_{d}}_{i=1}\prod^{K}_{k=1}q(z_{d,i}=k) \Biggr) \Biggl( \prod^{M}_{d=1}q(\boldsymbol{\theta}_{d}) \Biggr) \Biggl( \prod^{K}_{k=1}q(\boldsymbol{\phi}_{k}) \Biggr) \Biggl( \prod^{J}_{j=1}q(\boldsymbol{\eta}_{j}) \Biggr) q(\Lambda). \end{align}
これにより,変分下限について計算を進めると,   
\begin{align} &F[q(\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{\eta},\Lambda)]\\ &\quad=\iiiint\sum_{\boldsymbol{z}}q(\boldsymbol{z})q(\boldsymbol{\theta})q(\boldsymbol{\phi})q(\boldsymbol{\eta})q(\Lambda)\\ &\quad\quad\times\log \frac{ p(\boldsymbol{w}|\boldsymbol{z},\boldsymbol{\phi}) p(\boldsymbol{z}|\boldsymbol{\theta}) p(\boldsymbol{\theta}|\boldsymbol{x},\Gamma,\Sigma) p(\boldsymbol{\phi}|\boldsymbol{\beta}) p(\boldsymbol{y}|\boldsymbol{z},\boldsymbol{\eta},\boldsymbol{\nu}^2) p(\boldsymbol{\eta}|\boldsymbol{\mu},\Lambda)p(\Lambda|\upsilon,\Omega) }{ q(\boldsymbol{z})q(\boldsymbol{\theta})q(\boldsymbol{\phi})q(\boldsymbol{\eta})q(\Lambda) }d\boldsymbol{\theta}d\boldsymbol{\phi}d\boldsymbol{\eta}d\Lambda\\ &\quad= \iint\sum_{\boldsymbol{z}}q(\boldsymbol{z})q(\boldsymbol{\theta})q(\boldsymbol{\phi}) \log p(\boldsymbol{w}|\boldsymbol{z},\boldsymbol{\phi})p(\boldsymbol{z}|\boldsymbol{\theta})d\boldsymbol{\theta}d\boldsymbol{\phi} -\sum_{\boldsymbol{z}}q(\boldsymbol{z})\log q(\boldsymbol{z})\\ &\quad\quad- \int q(\boldsymbol{\theta})\log\frac{q(\boldsymbol{\theta})}{p(\boldsymbol{\theta}|\boldsymbol{x},\Gamma,\Sigma)}d\boldsymbol{\theta} -\int q(\boldsymbol{\phi})\log\frac{q(\boldsymbol{\phi})}{p(\boldsymbol{\phi}|\boldsymbol{\beta})}d\boldsymbol{\phi}\\ &\quad\quad +\int\sum_{\boldsymbol{z}}q(\boldsymbol{z})q(\boldsymbol{\eta})\log p(\boldsymbol{y}|\boldsymbol{z},\boldsymbol{\eta},\boldsymbol{\nu}^2)d\boldsymbol{\eta}\\ &\quad\quad -\iint q(\boldsymbol{\eta})q(\Lambda)\log \frac{q(\boldsymbol{\eta})}{p(\boldsymbol{\eta}|\boldsymbol{\mu},\Lambda)}d\boldsymbol{\eta}d\Lambda -\int q(\Lambda)\log\frac{q(\Lambda)}{p(\Lambda|\upsilon,\Omega)}d\Lambda\\ &\quad=\iint\sum^{M}_{d=1}\sum^{n_{d}}_{i=1}\sum_{z_{d,i}} q(z_{d,i})q(\boldsymbol{\theta}_d)q(\boldsymbol{\phi}) \log p(w_{d,i}|z_{d,i},\boldsymbol{\phi})p(z_{d,i}|\boldsymbol{\theta}_{d})d\boldsymbol{\theta}_{d}d\boldsymbol{\phi}\tag{1}\\ &\quad\quad-\sum^{M}_{d=1}\sum^{n_{d}}_{i=1}\sum^{K}_{k=1}q(z_{d,i}=k)\log q(z_{d,i}=k)\tag{2}\\ &\quad\quad-\sum^{M}_{d=1}\int q(\boldsymbol{\theta}_{d})\log\frac{q(\boldsymbol{\theta}_{d})}{p(\boldsymbol{\theta}_{d}|\boldsymbol{x}_{d},\Gamma,\Sigma)}d\boldsymbol{\theta}_{d}\tag{3}\\ &\quad\quad-\sum^{K}_{k=1}\int q(\boldsymbol{\phi}_{k})\log\frac{q(\boldsymbol{\phi}_{k})}{p(\boldsymbol{\phi}_{k}|\boldsymbol{\beta})}d\boldsymbol{\phi}_{k}\tag{4}\\ &\quad\quad+\sum^{M}_{d=1}\sum_{j\in J_{d}}\int\sum_{\boldsymbol{z}_{d}}q(\boldsymbol{z}_{d})q(\boldsymbol{\eta}_{j})\log p(y_{d,j}|\boldsymbol{z}_{d},\boldsymbol{\eta}_{j},\nu^2_{j})d\boldsymbol{\eta}_{j}\tag{5}\\ &\quad\quad-\sum^{J}_{j=1}\iint q(\boldsymbol{\eta}_{j})q(\Lambda)\log \frac{q(\boldsymbol{\eta}_{j})}{p(\boldsymbol{\eta}_{j}|\boldsymbol{\mu},\Lambda)}d\boldsymbol{\eta}_{j}d\Lambda\tag{6}\\ &\quad\quad-\int q(\Lambda)\log\frac{q(\Lambda)}{p(\Lambda|\upsilon,\Omega)}d\Lambda,\tag{7} \end{align}
が得られる.(1)(2)(4)式はベーシックなトピックモデルと共通する項であり,(3)(5)(6)(7)式は拡張によって修正または追加された項である.

変分ベイズ法では,近似事後分布の更新とハイパーパラメータの更新を順に繰り返すことによって,変分下限を最大化する.次節以降で,提案モデルにおける拡張によって,先行研究から修正が必要となる固有の近似事後分布とパラメータの更新式の導出を行う9

A.2 近似事後分布の更新

A.2.1 周辺分布 $q(\boldsymbol{\eta}_{j})$

$q(\boldsymbol{\eta}_{j})$を平均$\hat{\boldsymbol{\mu}}_{j}$,分散$\hat{\Lambda}$の正規分布$N(\boldsymbol{\eta}_{j}|\hat{\boldsymbol{\mu}}_{j},\hat{\Lambda})$と仮定し,変分下限を最大化するパラメータ$\hat{\boldsymbol{\mu}}_{j}$と$\hat{\Lambda}$を求める.まず,変分下限のうち$\hat{\boldsymbol{\mu}}_{j}$に関係する項は,   

\begin{align} \tilde{F}[\hat{\boldsymbol{\mu}}_{j}] &=\frac{1}{2\nu^2_{j}}\sum_{d\in D_{j}} \biggl( 2y_{d,j}\hat{\boldsymbol{\mu}}^{\top}_{j}\mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}] -\hat{\boldsymbol{\mu}}^{\top}_{j} \mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}\bar{\boldsymbol{z}}^{\top}_{d}] \hat{\boldsymbol{\mu}}_{j} \biggr)\\ &\qquad\qquad\qquad\qquad -\frac{1}{2}(\hat{\boldsymbol{\mu}}_{j}-\boldsymbol{\mu})^{\top}\mathbb{E}_{q(\Lambda)}[\Lambda]^{-1}(\hat{\boldsymbol{\mu}}_{j}-\boldsymbol{\mu}). \end{align}
ここで,$\mathbb{E}[\cdot]$は期待値を表し,$D_{j}=\{d\mid j \in J_{d}\}$である.$\hat{\boldsymbol{\mu}}_{j}$について,1階条件より,   
\begin{align} &\frac{\partial\tilde{F}[\hat{\boldsymbol{\mu}}_{j}]}{\partial\hat{\boldsymbol{\mu}}_{j}}=0\\ &\quad\Leftrightarrow \hat{\boldsymbol{\mu}}_{j}= \Biggl( \frac{1}{\nu^2_{j}}\sum_{d\in D_{j}} \mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}\bar{\boldsymbol{z}}^{\top}_{d}] +\mathbb{E}_{q(\Lambda)}[\Lambda]^{-1} \Biggr)^{-1}\\ &\qquad\qquad\qquad \times \Biggl( \frac{1}{\nu^2_{j}}\sum_{d\in D_{j}} y_{d,j}\mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}] +\mathbb{E}_{q(\Lambda)}[\Lambda]^{-1}\boldsymbol{\mu} \Biggr). \end{align}

次に,変分下限のうち$\hat{\Lambda}$に関係する項は,   

\begin{align} \tilde{F}[\hat{\Lambda}]=-\frac{J}{2} \Biggl( -\log|\hat{\Lambda}| +\mathrm{Tr}(\mathbb{E}_{q(\Lambda)}[\Lambda]^{-1}\hat{\Lambda}) \Biggr) -\sum^{M}_{d=1}\sum_{j\in J_{d}} \frac{1}{2\nu^2_{j}} \mathrm{Tr}( \mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}\bar{\boldsymbol{z}}^{\top}_{d}] \hat{\Lambda} ). \end{align}
$\hat{\Lambda}$について,1階条件より,   
\begin{align} &\frac{\partial\tilde{F}[\hat{\Lambda}]}{\partial\hat{\Lambda}}=0 \Leftrightarrow \hat{\Lambda} = \Biggl( \mathbb{E}_{q(\Lambda)}[\Lambda]^{-1} +\frac{1}{J} \sum^{M}_{d=1}\sum_{j\in J_{d}} \frac{1}{\nu^2_{j}} \mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}\bar{\boldsymbol{z}}^{\top}_{d}] \Biggr)^{-1}. \end{align}

A.2.2 周辺分布 $q(\Lambda)$

変分下限のうち$q(\Lambda)$に関係する項は,   

\begin{align} \tilde{F}[q(\Lambda)] &= \int q(\Lambda) \sum^{J}_{j=1} \int q(\boldsymbol{\eta}_{j}) \log p(\boldsymbol{\eta}_{j}|\boldsymbol{\mu},\Lambda)d\boldsymbol{\eta}_{j}d\Lambda\\ &\quad -\int q(\Lambda)\log\frac{q(\Lambda)}{p(\Lambda|\upsilon,\Omega)}d\Lambda. \end{align}
変分法により,   
\begin{align} \frac{\delta\tilde{F}[q(\Lambda)]}{\delta q(\Lambda)}=0 \Leftrightarrow \sum^{J}_{j=1} \int q(\boldsymbol{\eta}_{j}) \log p(\boldsymbol{\eta}_{j}|\boldsymbol{\mu},\Lambda)d\boldsymbol{\eta}_{j} -\log\frac{q(\Lambda)}{p(\Lambda|\upsilon,\Omega)}-1=0. \end{align}
これを解くと,   
\begin{align} q(\Lambda)=IW(\Lambda|\hat{\upsilon},\hat{\Omega}). \end{align}
ここで,$IW(\cdot)$は逆ウィシャート分布の確率密度関数であり,スケールと自由度パラメータはそれぞれ,   
\begin{align} \hat{\upsilon} &=\upsilon+J,\\ \hat{\Omega} &=\Omega+\sum^{J}_{j=1}(\hat{\boldsymbol{\mu}}_{j}-\boldsymbol{\mu})(\hat{\boldsymbol{\mu}}_{j}-\boldsymbol{\mu})^{\top}. \end{align}
期待値は,   
\begin{align} \mathbb{E}_{q(\Lambda)}[\Lambda] =\frac{1}{\hat{\upsilon}-K-1}\hat{\Omega}. \end{align}

A.2.3周辺分布 $q(z_{d,i}=k)$

変分下限のうち$q(z_{d,i}=k)$に関係する項は,   

\begin{align} \tilde{F}&[q(z_{d,i}=k)]\\ &=\sum^{K}_{k=1}q(z_{d,i}=k)\iint q(\boldsymbol{\theta}_{d})q(\boldsymbol{\phi}_{k}) \log p(w_{d,i}|\boldsymbol{\phi}_{k})p(z_{d,i}=k|\boldsymbol{\theta}_{d})d\boldsymbol{\phi}_{k}d\boldsymbol{\theta}_{d}\\ &\quad-\sum^{K}_{k=1}q(z_{d,i}=k)\log q(z_{d,i}=k)\\ &\quad+\sum_{j\in J_{d}} \frac{1}{2\nu^2_{j}} \biggl( 2y_{d,j}\hat{\boldsymbol{\mu}}^{\top}_{j}\mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}] -\hat{\boldsymbol{\mu}}^{\top}_{j} \mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}\bar{\boldsymbol{z}}^{\top}_{d}] \hat{\boldsymbol{\mu}}_{j} -\mathrm{Tr}( \mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}\bar{\boldsymbol{z}}^{\top}_{d}] \hat{\Lambda} ) \biggr). \end{align}
ここで,$(\hat{\Lambda})_{k,k}$と$(\hat{\Lambda})_{k}$をそれぞれ$\hat{\Lambda}$の$k$番目の対角要素,$k$列目を抜き出したベクトルとすると,   
\begin{align} \hat{\boldsymbol{\mu}}^{\top}_{j}\mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}] &=\frac{1}{n_{d}}\sum^{n_{d}}_{i=1}\sum^{K}_{k=1}\hat{\mu}_{j,k}q(z_{d,i}=k),\\ \hat{\boldsymbol{\mu}}^{\top}_{j} \mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}\bar{\boldsymbol{z}}^{\top}_{d}] \hat{\boldsymbol{\mu}}_{j} &=\frac{1}{n^2_{d}}\sum^{n_{d}}_{i=1} \left( \sum^{K}_{k=1}\hat{\mu}^2_{j,k}q(z_{d,i}=k) +\sum^{K}_{k=1}\hat{\mu}_{j,k}q(z_{d,i}=k) \sum^{n_{d}}_{i'\neq i}\boldsymbol{\zeta}^{\top}_{d,i'}\hat{\boldsymbol{\mu}}_{j} \right),\\ \mathrm{Tr}( \mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}\bar{\boldsymbol{z}}^{\top}_{d}] \hat{\Lambda} ) &=\frac{1}{n^2_{d}}\sum^{n_{d}}_{i=1} \left( \sum^{K}_{k=1}(\hat{\Lambda})_{k,k}q(z_{d,i}=k) +\sum^{K}_{k=1}q(z_{d,i}=k) \sum^{n_{d}}_{i'\neq i}\boldsymbol{\zeta}^{\top}_{d,i'} (\hat{\Lambda})_{k} \right). \end{align}
これらを用いて,1階条件より,   
\begin{align} &\frac{\partial\tilde{F}[q(z_{d,i})]}{\partial q(z_{d,i}=k)}=0\\ &\quad\Leftrightarrow \int q(\boldsymbol{\phi}_{k})\log\phi_{k,w_{d,i}}d\boldsymbol{\phi}_{k} +\int q(\boldsymbol{\theta}_{d}) \log\frac{\exp(\theta_{d,k})}{\sum^{K}_{k'=1}\exp(\theta_{d,k'})}d\boldsymbol{\theta}_{d}\\ &\quad\quad-\log q(z_{d,i}=k)-1\\ &\quad\quad+\sum_{j\in J_{d}} \Biggl[ \frac{y_{d,j}\hat{\mu}_{j,k}}{\nu^2_{j}n_{d}} -\frac{1}{2\nu^2_{j}n_{d}^2} \biggl( \hat{\mu}^2_{j,k} +2\hat{\mu}_{j,k} \sum^{n_{d}}_{i\neq i'}\boldsymbol{\zeta}^{\top}_{d,i'} \hat{\boldsymbol{\mu}}_{j}\\ &\qquad\qquad\qquad\qquad\qquad\qquad\qquad\quad +(\hat{\Lambda})_{k,k} +2\sum^{n_{d}}_{i'\neq i}\boldsymbol{\zeta}^{\top}_{d,i'} (\hat{\Lambda})_{k} \biggr) \Biggr]=0. \end{align}
これを解くと,   
\begin{align} q(z&_{d,i}=k)\\ &\propto \exp\left(\mathbb{E}_{q(\boldsymbol{\phi}_{k})}[\log\phi_{k,w_{d,i}}]\right) \exp\left(\mathbb{E}_{q(\boldsymbol{\theta}_{d})}[\theta_{d,k}]\right)\\ &\quad\times \prod_{j\in J_{d}} \exp \Biggl( \frac{y_{d,j}\hat{\mu}_{j,k}}{\nu^2_{j}n_{d}} -\frac{1}{2\nu^2_{j}n_{d}^2} \biggl( \hat{\mu}^2_{j,k} +2\hat{\mu}_{j,k} \sum^{n_{d}}_{i\neq i'}\boldsymbol{\zeta}^{\top}_{d,i'} \hat{\boldsymbol{\mu}}_{j}\\ &\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad +(\hat{\Lambda})_{k,k} +2\sum^{n_{d}}_{i'\neq i}\boldsymbol{\zeta}^{\top}_{d,i'} (\hat{\Lambda})_{k} \biggr) \Biggr). \end{align}

A.3 ハイパーパラメータの更新

A.3.1 パラメータ $\boldsymbol{\mu}$

変分下限のうち,$\boldsymbol{\mu}$に関係する項は,   

\begin{align} \tilde{F}[\boldsymbol{\mu}] &=-\frac{1}{2}\sum^{J}_{j=1} \Biggl( (\hat{\boldsymbol{\mu}}_{j}-\boldsymbol{\mu})^{\top} \mathbb{E}_{q(\Lambda)}[\Lambda]^{-1} (\hat{\boldsymbol{\mu}}_{j}-\boldsymbol{\mu}) \Biggr). \end{align}
$\boldsymbol{\mu}$について,1階条件より,   
\begin{align} \frac{\partial\tilde{F}[\boldsymbol{\mu}]}{\partial\boldsymbol{\mu}}=0 &\Leftrightarrow \boldsymbol{\mu}=\frac{1}{J}\sum^{J}_{j=1}\hat{\boldsymbol{\mu}}_{j}. \end{align}

A.3.2 パラメータ$\boldsymbol{\nu}^{2}$

変分下限のうち$\nu^{2}_{j}$に関係する項は,   

\begin{align} \tilde{F}[\nu^{2}_{j}] &= -\frac{1}{2} \sum_{d\in D_{j}} \Biggl( \log(\nu^2_{j}) +\frac{1}{\nu^2_{j}} \mathbb{E}_{q(\boldsymbol{z}_{d})q(\boldsymbol{\eta}_{j})} \left[(y_{d,j}-\boldsymbol{\eta}^{\top}_{j}\bar{\boldsymbol{z}}_{d})^2\right] \Biggr). \end{align}
$\nu^{-2}_{j}$について,1階条件より,   
\begin{align} &\frac{\partial\tilde{F}[\nu^{2}_{j}]}{\partial\nu^{-2}_{j}}=0\\ &\quad\Leftrightarrow \nu^2_{j}=\frac{1}{\sum_{d\in D_{j}}1} \sum_{d\in D_{j}} \biggl( y^{2}_{d,j} -2y_{d,j}\hat{\boldsymbol{\mu}}^{\top}_{j}\mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}]\\ &\qquad\qquad\qquad\qquad\qquad\qquad +\hat{\boldsymbol{\mu}}^{\top}_{j} \mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}\bar{\boldsymbol{z}}^{\top}_{d}] \hat{\boldsymbol{\mu}}_{j} +\mathrm{Tr}( \mathbb{E}_{q(\boldsymbol{z}_{d})}[\bar{\boldsymbol{z}}_{d}\bar{\boldsymbol{z}}^{\top}_{d}] \hat{\Lambda} ) \biggl). \end{align}

 
© 2023 一般社団法人日本金融・証券計量・工学学会(ジャフィー)
feedback
Top