本論文ではテキスト媒体として決算短信と会社四季報に着目し,それらの媒体から共通のテキストマイニング手法で投資情報を抽出することで,両媒体のテキスト情報の特性を比較してその投資情報としての価値を評価した.
その結果,両媒体は企業の業績情報を示す類似のテキスト情報ではあるが,含まれている情報は異なっており,投資情報としても異なる効果を持つことが分かった.また両媒体のテキスト情報から抽出された投資情報は,既存の投資戦略とは異なる高い有効性を持ち,特に両媒体に含まれる数値情報の効果を除いても有効性が高い,つまりテキスト情報そのものに投資価値が含まれていることが分かった.これらの効果はサイズ,業種の要因を調整し,売買コストを考慮したものであり,本論文の分析で決算短信,会社四季報から抽出した投資情報は新しい超過収益の源泉になりえることが分かった.
近年,テキスト解析手法の進展とともにファイナンス分野においても様々なテキスト情報が分析されており,株価との関係など投資情報としての価値が明らかになってきている.これらの研究は従来マクロ情報や企業の財務情報,アナリスト等の業績予想情報,株価や出来高のテクニカル情報など数値情報しか利用できなかった資産運用分野,特にクオンツ運用においてテキスト情報が新たな投資収益の源泉となる可能性を示しており,注目を集めている.
テキスト情報の有用性については2000年前半から指摘されており,例えばAntweiler and Frank (2004)ではインターネット掲示板情報と株式売買との関係を分析しており,投稿数の増加と株価との関係性を指摘している.また同様の分析は国内市場でも丸山ら(2008)が行っている.これらの研究をはじめとし,様々なテキスト情報から投資情報を抽出する研究が行われてきた.まず代表的なテキスト情報として扱われるのがニュースや新聞記事である.Telock et a. (2007)ではWall Street journal,Garcia (2013)ではNew York Timesに注目して分析を行っており,それぞれテキストから抽出した情報と株価指数との関連性を指摘している.国内株式市場においても沖本・平澤 (2014)が日経ニュースに含まれる肯定語・否定語とTOPIXの関係を分析しており,テキスト情報が翌日の株価に強い影響を及ぼしていることを指摘している.また一瀬・嶋田 (2015)では様々な媒体のWebニュースと日経平均の関係を,五島・高橋 (2016)ではロイターニュースとTOPIXの関係を機械学習手法を用いて解析しており,どちらもテキスト情報は短期的には株価指数に影響を与えることを指摘している.
次によく扱われるテキスト情報として挙げられるのはアナリストレポートである.アナリストレポートは証券会社に所属するアナリストが,主に機関投資家に向けて担当する企業や業界について調査した結果を発信するものである.アナリストレポートには長い経験を持つ専門家の考察や企業へのヒアリング情報が含まれるため,有効な投資情報の1つとして機関投資家によく利用されている.このようなアナリストレポートに関する研究としては,Twedt and Lee (2012)やHuang et a. (2014)が挙げられる.これらの研究はアナリストレポートを解析し肯定的なレポートと否定的なレポートに分類しており,肯定的なレポートはその発表とともに該当企業の株価が正に反応し,否定的なレポートは負に反応すると述べている.国内市場では平松ら (2018)が主要証券会社の約16万本のアナリストレポートを用いた検証を行っている.具体的には深層学習を用いてアナリストレポートとレーティング情報を学習し,テストデータのアナリストレポートに肯定/否定という極性を付与した.その結果,肯定的と判断したレポートは発表日直後に正の超過リターンが発生し,否定的と判断したレポートは負の超過リターンが発生することを確認した.また工藤ら (2017)は1078社に対する約2万本のアナリストレポートの解析を行っており,自然言語処理でレポートが出ている企業のセンチメントスコアを作成することで投資判断変更を事前に予想できる可能性があることを指摘している.平松ら (2017)では酒井ら (2015)で提案された深層学習モデルを用いてアナリストレポートをその推奨度で5段階に分類し,高い推奨度の銘柄はレポート発表日はもちろんそれ以降も高い超過リターンを得られることを指摘している.従来の資産運用で利用されている業績予想などの数値情報は,アナリストが課せられている様々な制約条件のためにバイアスがあることが知られている(Libby et a. (2007)).これらの研究は,テキスト情報にはそのような制約条件がないため,アナリストが持つ真の情報が含まれていることを示唆するものである.
また企業情報が記載されている代表的なテキスト情報として決算短信がある.決算短信は上場企業が3ヵ月に一度公表する企業の財務状態を記した媒体であり,財務や予想利益のような数値情報の他にその企業の業績の振り返りや今後の見通しが記載されている.酒井ら (2015)では決算短信PDFを自動取得し,その中から業績に関する文章を自動抽出する技術を提案している.また栗田 (2019)では決算短信に含まれる肯定語/否定語をカウントした投資スコアを作成し,その有効性を検証している.その結果,イベントスタディで60日の長期にわたり超過リターンが得られること,いくつかのサイズユニバースにおいて高いファクターリターンが獲得できることを確認している.
この他にも掲示板情報を解析する研究も存在しており,VIXなどと関連性の高い用語の抽出などが行われている(柿木ら (2016)).
これらの研究はどれもテキスト情報を解析することで何らかの投資の意思決定に有益な情報を抽出できることを述べており,その検証方法としてほとんどの先行研究は情報発表日前後の異常リターンを計測するイベントスタディを利用している.それらの研究では短期的なものであれば情報発表日当日の異常リターン,長いものであれば発表後30日や60日程度までの異常リターンを計測している.
標準的な機関投資家の場合,情報の入手から発注までには時間がかかるため,短期的なイベントスタディの有効性は実際の運用に反映することは難しい.また長期のイベントスタディで有効性が確認されても,実際の運用で利用するためにはどのような期間でリバランスを行うのか,ポジションを解消した後の現金をどの資産に割り当てるのか,コストや流動性をどのように考慮するのかなど様々な条件を勘案することが必要となる.
またテキスト情報を実際の運用に利用する場合には投資対象銘柄間の情報の偏りも注意すべきである.ニュースや掲示板を情報源として利用した場合,すべての投資対象銘柄について情報が発信されているわけではない.日経平均などの指数の情報や大型企業の情報はある程度の頻度で表れるが,中小型企業の情報はあまり発表されず投資対象にはなりにくい.したがって,多くの研究は市場指数との関係などを対象としている.
アナリストレポートについてはある程度の企業数の情報が収集できるものの証券会社のアナリストが見ている企業が注目度の高い大型企業に偏っているため,中小型株式の情報は発信頻度も低い.例えば工藤ら (2017)では約2万件のアナリストレポートを分析しているが,それらのほとんどはTOPIX500に採用される大型企業である.
このような情報を大きな資金を運用する機関投資家がそのままの形で利用するのは難しいと考えられ,望ましい情報源は大半の投資対象銘柄についてある程度の頻度で更新される必要がある.
この条件を満たすテキスト情報として挙げられるのが決算短信である.上述のように決算短信は上場企業が3ヵ月に一度公開することを義務付けられており,必ず入手できる情報となる.栗田 (2019)では東証1部上場企業の決算短信を分析し,長期のイベントスタディやファクターリターン分析などでその有用性を述べている.
またこれまで分析されていない情報媒体として会社四季報がある.会社四季報は東洋経済新報社が3ヵ月に1回出版する発行物であり,全上場企業について過去の業績や株価,財務諸表,将来の業績予想とともにアナリストによる業績の見通しやコメントも掲載されている.機関投資家やファンドマネージャーにも広く認知されており,その業績予想数値は広く資産運用業界で利用されている.会社四季報は上記の資産運用への利用のしやすさについての条件を満たしている情報媒体であり,そのテキスト情報に有効性が見いだせれば資産運用における大きな貢献になるはずである.
そこで本論文では投資対象となる全上場企業の情報が定期的に収集できるテキスト情報として決算短信,会社四季報に着目し,そのテキスト情報の特性を比較しながら,投資戦略への適用可能性を検証する.
特に本論文で新規性となるのは次の2点である.1つ目は決算短信,会社四季報という情報媒体に含まれる投資情報をできるだけ公平に比較することを目的とし,Bag of Words方式を用いて共通の辞書を用いてテキスト解析を行ったことである.特に会社四季報に含まれるテキスト情報の検証は先行研究では行われておらず,決算短信という類似のテキスト情報と比較することで,その特性を明らかにすることは高い新規性を有している.2つ目は投資戦略への利用可能性を実際のファンド運営を意識して行ったことである.先行研究では情報の発表日に関するイベントスタディでその収益性の検証を行っているものが多い.本論文ではより実運営を意識した検証として情報入手から発注までのラグ,サイズや業種の偏りの調整,回転率や売買コストなどを考慮して実証分析を行った.さらにその効果をクオンツ運用で用いられる標準的な他の投資戦略と比較してその評価を行った.本論文により,決算短信や会社四季報という全上場企業について発信されるテキスト情報の投資戦略への利用可能性が明らかになるものと考える.
本論文の構成は以下の通りである.まず次章では使用したテキスト情報として決算短信と会社四季報について説明を行い,テキスト情報の抽出方法や抽出した投資情報の特性を検証していく.その際,決算短信と会社四季報の特性の違いを比較することで2つの媒体が持つ情報の違いを明らかにする.
第3章では投資戦略への利用可能性を検証するため,標準的なクオンツ運用で利用される月次リバランスを意識したスプレッドリターン分析を用いてその有効性を確認する.またアクティブ運用を意識して,回転率や売買コストも考慮した分析を行うことで実際の運用実務での利用可能性の高い分析も行った.最後に第4章で結論と今後の課題を述べる.
まずはじめに決算短信と会社四季報について簡単な解説を行う.上述の通り,決算短信は上場企業が3ヵ月に一度,決算期末後45日以内に公表することを義務付けられている企業の財務状態を記した報告書であり,3ヵ月間の業績や決算期末時点の財務状況,該当年度の業績予想のような数値情報を示すものである.決算短信にはそのような数値情報だけではなく,3ヵ月間の業績の要因についての説明,当該年度の業績予想の理由などが記載されている.国内企業は3月決算企業が多いため,5月,8月,11月,2月に公表する企業が多いが,決算期は企業によって異なっている.
一方,会社四季報(以下,四季報)は東洋経済新報社が3ヵ月に一度,3月,6月,9月,12月の中旬に出版する発行物であり,全上場企業について直近決算期の基本財務項目,ROEなどの投資関連指標,直近3期の実績及び次期2期の業績予想値,株価や大株主情報などの情報が記載されている.またテキスト情報として事業の特色や東洋経済アナリストによる直近の業績や株価の材料になりそうな業績記事,及びコメントなどがまとめられている.これらの情報は全上場企業について過不足なく,同様の形式でまとめられており,決算短信とは異なり全企業の情報が同時に発表される.
本論文では,これらのテキスト情報から投資情報を抽出し,その有効性を検証する.次節では投資情報の抽出方法について説明を行う.
2.2 データソース本論文では(株)金融データソリューションズの提供するNPMService®「決算短信テキストマイニング分析用データ」ならびに「会社四季報テキスト・データ解析サービス」のテキスト情報を利用した.決算短信テキストマイニング分析用データは,PDF等で配信される決算短信から文書(テキスト)箇所だけを正規化し,「マシーン・リーダブル・データ」として構造化した後に,市場関連データ(調整済株価等)と時系列方向に紐付けしたものである.
会社四季報テキスト・データ解析サービス1は,株式会社東洋経済新報社(以下,東洋経済)の会社四季報のテキストデータ「四季報テキストデータサービス」ならびに(株)金融データソリューションズが独自に開発したテキスト解析エンジンにより同テキストデータから計算した個別株式の評価データ「解析データサービス」の2つから成り立っている.本論文ではこれらのデータ及びデータサービスを用いて分析を行った.
なお,テキスト解析の方法は(株)金融データソリューションズが独自に開発した辞書先決型アプローチ,いわゆるBag of Words方式で作成されている.具体的には対象とする文章に含まれる辞書内の単語(キーワード)をカウントして肯定語・否定語スコアを算出するというルールに基づいている.当然ながらこのデータの投資戦略への有効性は元になる辞書に依存することになる.本論文では(株)金融データソリューションズが2018年4月現在リリースしている4種類の辞書32語,64語,128語,200語の肯定語/否定語辞書から得られる肯定語・否定語スコアを使用した.例えば128語の辞書を用いる場合,128語程度の単語が含まれる肯定語辞書と否定語辞書がそれぞれ存在し,ある企業の決算短信(または四季報の当該企業業績記事)内に含まれる肯定語と否定語の数をその企業の肯定語スコア,否定語スコアとしている.その際,重複した単語は複数回カウントしていない.
これらの辞書については,Taboada et a. (2011)やIm et a. (2014)に従い構築している.Taboada et a. (2011)ではコパースを,Im et a. (2014)ではGeneral Inquirer Dictionaryというテキストマイニング向け辞書をベースにし,金融経済関連ニュースのセンチメント解析用の単語をマニュアルでピックアップすることで辞書を構築している.本論文で使用した辞書は定型句が多く特殊な単語が多くない四季報をベースにし,頻度の多い業績判断表現を表す単語(例えば増益,減益など)を抽出したのち,株価の予見に対する潜在力がなさそうな単語を除外することで作成している.
更にもう少し辞書(並びにその素となったコパース)の特性を把握するために,四季報を形態素解析分析ソフトJANOMEを用いて形態素解析を行った結果を述べる.まず2005年3月以降に発刊された会社四季報で1回以上登場した単語を確認した結果,その数は約2万7千語であり,その登場回数の統計量は表1のようになっている.
平均 | 標準偏差 | 最大 | 75%点 | 50%点 | 25%点 | 最小 |
1097 | 9064 | 417902 | 58 | 7 | 2 | 1 |
表1より,単語の登場回数の分布が大きく正に歪んでいることから,登場する単語は頻繁に登場する一方,登場しない単語はほぼ登場しないという偏りを持っていることが判明した.これは会社四季報の業績記事が割と決まった表現を用いて書かれていることに起因すると考えられる.この結果から会社四季報は辞書に採用する単語をある程度決めやすい媒体であることが分かる.
次に表2に形態素解析結果の登場回数上位の意味のある単語を1位から30位まで示した2
順位 | 単語 | 登場回数 | 順位 | 単語 | 登場回数 | 順位 | 単語 | 登場回数 | ||
1 | 営業 | 238974 | 11 | 関連 | 53829 | 21 | 回復 | 43531 | ||
2 | 増益 | 109335 | 12 | 工場 | 52634 | 22 | 主力 | 43089 | ||
3 | 拡大 | 92143 | 13 | 堅調 | 52299 | 23 | 改善 | 42733 | ||
4 | 会社 | 91419 | 14 | 減益 | 51521 | 24 | 赤字 | 42269 | ||
5 | 開発 | 69936 | 15 | 中国 | 47746 | 25 | 製品 | 41685 | ||
6 | 事業 | 67343 | 16 | 利益 | 46816 | 26 | 自動 | 41657 | ||
7 | 前期 | 66123 | 17 | 受注 | 45224 | 27 | 生産 | 40360 | ||
8 | 販売 | 63258 | 18 | 海外 | 44670 | 28 | 好調 | 39597 | ||
9 | 採算 | 57642 | 19 | 国内 | 44184 | 29 | 投資 | 39588 | ||
10 | 強化 | 57041 | 20 | 需要 | 43953 | 30 | 増配 | 38849 |
この中で32語の辞書にある単語は肯定語辞書が「増益」「堅調」「回復」「改善」「好調」「増配」であり,否定語辞書は「減益」である.このように本論文で扱った辞書は四季報にある程度多く表れる単語で構成されている.また表2から四季報の特性として主に肯定的な単語が多く,肯定的な単語が少ないことがわかる.
この方法は非常に単純な手法であり,酒井ら (2015)で行われているように深層学習を用いて決算短信の業績関連文章に肯定語・否定語スコアを自動的に付与する手法なども提案されている.ただし,このような手法を用いることで決算短信と四季報の比較の結果が,テキスト情報の差に起因するのか,解析手法との相性に起因するのか判断しにくい.本論文では,テキスト情報に含まれる投資情報に関して決算短信と四季報の比較を行うことを目的としているため,シンプルなBag of Words方式を用いている.
また本論文の分析結果が特定の辞書を使用した結果でないことを示すために辞書の単語数が異なる4種類の辞書を用いている.本論文の分析では四季報をベースに構築した辞書を用いて決算短信の分析も行っている.決算短信も四季報同様の業績に関する文章であり,定型文章で書かれている傾向があるため四季報をベースに作成した辞書は適用可能であるとともに,異なる媒体をベースに構築された辞書を用いることで辞書自体の汎用性の検証にもなると思われる.
このように本論文では共通の4種類の辞書を用いて同じ方法でテキスト情報から投資情報を抽出することで,情報媒体の違いを公平に比較できると考えた.本論文ではこの肯定語スコア,否定語スコアを総称して「テキストスコア」と呼ぶ.
また分析した媒体は2008年1月4日から2018年3月30日までに公表された決算短信,四季報であり,分析対象は東証1部上場銘柄とした.
2.3 テキストデータの概要 2.3.1 情報の発信タイミング決算短信,四季報ともに上場企業の情報は年に4回必ず発信されるが,その違いの1つは発表タイミングである.2.1節で述べた通り,決算短信は上場企業ごとの決算日に応じてその約2ヵ月後に公表される.東証1部上場企業では現在約7割の企業が3月決算であり,概ね5月,8月,11月,2月のタイミングで情報を決算短信を公表する.それに対し四季報はその発売月である3月,6月,9月,12月の中旬に一度に全上場企業の情報が公開される.
図1は各月における情報発表企業数をカウントし,2008年1月から2018年3月までの平均を計算したものである.
図1.月別平均発表企業数
図1より,決算短信は2ヵ月前に決算の少ない3月,6月,9月,12月に発表企業数が少なく,それ以外の月にはある程度満遍なく発表企業数が分布している.一方,四季報は当然ながら発刊月の3月,6月,9月,12月に発表企業数が集中することが分かる.
2.3.2 テキストスコアの統計量次に作成したテキストスコアの統計量を確認する.全サンプル期間に公表された東証1部上場企業のテキスト情報から抽出したテキストスコアの統計量を表3に示す.
媒体 | 決算短信 | ||||||||||||
辞書 | 32語 | 64語 | 128語 | 200語 | |||||||||
種類 | 肯定語 | 否定語 | 肯定語 | 否定語 | 肯定語 | 否定語 | 肯定語 | 否定語 | |||||
平均 | 3.76 | 3.98 | 3.82 | 4.55 | 5.07 | 4.81 | 5.93 | 5.13 | |||||
標準偏差 | 2.17 | 2.69 | 2.59 | 3.07 | 3.33 | 3.31 | 4.03 | 3.57 | |||||
最大 | 14 | 17 | 18 | 21 | 27 | 24 | 30 | 26 | |||||
75%点 | 5 | 6 | 5 | 6 | 7 | 7 | 8 | 7 | |||||
50%点 | 4 | 4 | 3 | 4 | 5 | 4 | 5 | 5 | |||||
25%点 | 2 | 2 | 2 | 2 | 3 | 2 | 3 | 2 | |||||
最小 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |||||
媒体 | 四季報 | ||||||||||||
辞書 | 32語 | 64語 | 128語 | 200語 | |||||||||
種類 | 肯定語 | 否定語 | 肯定語 | 否定語 | 肯定語 | 否定語 | 肯定語 | 否定語 | |||||
平均 | 2.23 | 1.03 | 2.79 | 1.33 | 3.27 | 1.59 | 3.69 | 1.81 | |||||
標準偏差 | 1.45 | 1.20 | 1.71 | 1.37 | 1.86 | 1.56 | 1.97 | 1.71 | |||||
最大 | 9 | 9 | 12 | 10 | 13 | 12 | 14 | 13 | |||||
75%点 | 3 | 2 | 4 | 2 | 4 | 2 | 5 | 3 | |||||
50%点 | 2 | 1 | 3 | 1 | 3 | 1 | 4 | 1 | |||||
25%点 | 1 | 0 | 2 | 0 | 2 | 0 | 2 | 0 | |||||
最小 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
表3より,全体的な語数として決算短信が四季報を上回っている.これは四季報が業績記事という少ない文章で書かれていることに対し,決算短信は文章全体を探索しているからだと考えられる.また当然ながら辞書の語数を増やすとテキストスコア,つまり辞書に一致する語数も高くなっている.
ここで特徴的なのは肯定語と否定語の差である.決算短信は肯定語と否定語ともに同程度であり,32語や64語の辞書では否定語の方が多く,自身の経営や環境を悲観的に見ていることが分かる.一方,四季報ではすべての辞書で肯定語の方が否定語を2倍近く上回っており,主に肯定的な文章が書かれていることが分かる.これは表2からも分かる通り,四季報という媒体そのものの性質であると思われる.
2.3.3 テキストスコアの時系列特性次に2つの媒体のテキスト情報がもつ時系列特性を確認する.まず企業ごとに肯定語スコアから否定語スコアを引くことで「総合スコア」を算出する.そして年度内に公表されている全ての総合スコアを平均することで,その年度内に公表されたテキスト情報の特徴量を作成し,その統計量を計算した.表4にその結果を示す.ここで自己相関は1次の自己相関を指す.
辞書 | 32語 | 64語 | 128語 | 200語 | ||||||||
媒体 | 決算短信 | 四季報 | 決算短信 | 四季報 | 決算短信 | 四季報 | 決算短信 | 四季報 | ||||
平均 | -0.28 | 1.15 | -0.80 | 1.40 | 0.18 | 1.62 | 0.73 | 1.82 | ||||
標準偏差 | 1.20 | 0.63 | 1.09 | 0.78 | 1.46 | 0.90 | 1.52 | 0.99 | ||||
歪度 | -0.20 | -1.51 | 0.25 | -1.41 | 0.00 | -1.41 | -0.10 | -1.43 | ||||
尖度 | -0.99 | 2.04 | -0.82 | 1.84 | -0.86 | 1.77 | -0.97 | 1.76 | ||||
自己相関 | 0.67 | 0.46 | 0.58 | 0.46 | 0.64 | 0.46 | 0.66 | 0.48 |
表4より,四季報と決算短信を比べるとどの辞書を用いても四季報の方が平均が高く,標準偏差が低く,歪度が低く,尖度が高い傾向が確認できる.つまり四季報は決算短信に比べ,肯定的な内容の記載が安定的に多いが,悪い時には極端に否定的な記載が多くなることを示している.それに比べると決算短信は平均的には否定的な記載が多いが,その記載は年度によって大きなばらつきがあることが分かる.また自己相関は両媒体とも正の値となっており,継続性も確認できる.
これらのテキスト情報は国内の景気や企業業績を反映して書かれていると想定される.そこで次に年度別に集計した総合スコアと景気に関する数値データとの関係を確認した.具体的には景気・企業業績関連指数として日経景気インデックス(日経景気IDX),リビジョンインデックス3(リビジョンIDX),TOPIX,日経平均ボラティリティインデックス(日経VI)の年度内変化率を計算し,2008年度から2017年度までの相関係数を計測した.表5に分析結果を示す.
辞書 | 32語 | 64語 | 128語 | 200語 | |||||||||
媒体 | 決算短信 | 四季報 | 決算短信 | 四季報 | 決算短信 | 四季報 | 決算短信 | 四季報 | |||||
日経景気IDX | 0.34 | 0.66 | 0.28 | 0.63 | 0.32 | 0.64 | 0.33 | 0.64 | |||||
リビジョンIDX | 0.74 | 0.88 | 0.69 | 0.86 | 0.73 | 0.86 | 0.74 | 0.86 | |||||
TOPIX | 0.76 | 0.87 | 0.69 | 0.88 | 0.73 | 0.89 | 0.74 | 0.89 | |||||
日経VI | -0.71 | -0.76 | -0.63 | -0.75 | -0.70 | -0.76 | -0.71 | -0.76 | |||||
媒体間 | 0.89 | 0.84 | 0.87 | 0.88 |
表5より,どちらのテキストスコアも日経景気インデックス,リビジョンインデックス,TOPIXとは正の相関を持ち,リスクを示す日経平均ボラティリティインデックスとは負の相関を持つことが分かる.つまり肯定語スコア,否定語スコアともに分布の違いは見られたが,年度を通じて景気指数に連動した肯定・否定文章を出していることが分かった.また両媒体の違いについては,四季報の方が若干ではあるが全体的に景気指数との相関が高い.両媒体とも景気と企業固有要因に基づいて文章を書いているが,四季報の方が全体的な景気に基づいて業績の見通しを書いているのに対して,決算短信はその要因が若干小さく企業固有の記載が多いと考えられる.そしてそれが両媒体間の相関が完全に連動していない要因であると考えられる.
2.3.4 企業属性との関連性次に企業ごとの総合スコアと企業属性との関係性を確認することで,それぞれの媒体がどのような企業特性を見て文章を書いているかを検証する.表3より総合スコアは株価や企業業績など景気に関する指標と関連性が高いことが想定される.このことから,以下の表4に示す企業特性と総合スコアの関係性を確認した.
カテゴリ | 意味 | 指標 | 定義 |
規模 | - | 対数時価総額 | - |
株価 | 成長 | 株価リターン | 直近1ヵ月を除く過去12ヵ月株価収益率 |
安定 | ボラティリティ | 株価収益率の過去60ヵ月標準偏差 | |
割安 | PBR | 株価純資産倍率 | |
収益 | 実績 | 実績ROE | 直近の実績利益を用いた自己資本利益率 |
予想 | 予想ROE | 1期先の業績予想を用いた自己資本利益率 | |
成長 | 実績 | 実績売上高成長率 | 1期前と直近の売上高成長率 |
予想 | 予想売上高成長率 | 直近と1期先予想の売上高成長率 | |
予想 | アナリストリビジョン | 1期先売上高予想の前月との変化 |
ここでコントロール変数として対数時価総額を使用し,株価関連の指標としては成長性を表す株価リターン,安定性を示すボラティリティ,割安性を示すPBRを使用した.また収益性の指標として実績のROEと東洋経済の1期先予想を用いた予想ROE,成長性の指標として実績売上高成長率,東洋経済の1期先予想を用いた予想売上高成長率,アナリストリビジョンを採用した.
これらの企業属性を使用して以下のパネル回帰を行い,総合スコアと企業特性との関係性を分析した.
\begin{eqnarray} Text_{i,t}=\alpha + \sum _{k=1}^9 \beta _k D_{i,t,k} +\sum _{s=1}^{32} \gamma _s S_{i,t,s} + \sum _{y=2008}^{2016} \theta _y Y_{i,t,y} + \varepsilon _{i,t}, i=1,2,\ldots,N;\,t=1,2,\ldots,T. \end{eqnarray} | (1) |
ここで$Text_{i,t}$は企業$i$の$t$期の決算短信/四季報から算出される総合スコア,$D_{i,t,k}$は企業$i$の$t$期末時点で入手できる第$k$ファクターのエクスポージャー4,$S_{i,t,s}$は企業$i$の$t$期末時点で東証33業種分類の業種$s$に所属すれば1,そうでなければ0となるダミー変数,$Y_{i,t,y}$は企業$i$の$t$期の情報が年度$y$に発表されれば1,そうでなければ0となるダミー変数である.このパネル回帰の結果を表7に示す.ここで回帰係数の検定についてはCluster-Robust標準誤差を用いている.
辞書 | 32語 | 64語 | ||||||||
媒体 | 決算短信 | 四季報 | 決算短信 | 四季報 | ||||||
係数 | $t$値 | 係数 | $t$値 | 係数 | $t$値 | 係数 | $t$値 | |||
切片 | 2.53 | 56.06 | 2.18 | 60.51 | 2.54 | 49.09 | 2.64 | 61.56 | ||
対数時価総額 | 0.18 | 17.08 | 0.09 | 10.25 | 0.28 | 23.86 | 0.08 | 8.46 | ||
株価リターン | 0.21 | 22.51 | 0.40 | 51.27 | 0.19 | 17.82 | 0.48 | 51.87 | ||
ボラティリティ | 0.02 | 1.82 | -0.12 | -14.24 | 0.06 | 4.65 | -0.11 | -10.86 | ||
PBR | 0.17 | 14.72 | 0.18 | 18.36 | 0.18 | 13.66 | 0.19 | 16.72 | ||
実績ROE | -0.01 | -0.34 | -0.23 | -12.50 | -0.02 | -0.72 | -0.24 | -11.07 | ||
予想ROE | 0.11 | 6.16 | 0.31 | 19.62 | 0.08 | 4.04 | 0.35 | 19.02 | ||
実績成長率 | 0.14 | 10.41 | 0.03 | 2.85 | 0.19 | 12.46 | 0.03 | 2.49 | ||
予想成長率 | 0.12 | 8.40 | 0.46 | 38.56 | 0.16 | 9.68 | 0.57 | 39.66 | ||
リビジョン | 0.09 | 8.21 | 0.04 | 2.98 | 0.12 | 9.75 | 0.09 | 5.16 | ||
自由度調整済$R^2$ | 0.26 | 0.20 | 0.21 | 0.21 | ||||||
辞書 | 128語 | 200語 | ||||||||
媒体 | 決算短信 | 四季報 | 決算短信 | 四季報 | ||||||
係数 | $t$値 | 係数 | $t$値 | 係数 | $t$値 | 係数 | $t$値 | |||
切片 | 4.09 | 69.51 | 2.89 | 60.42 | 4.98 | 75.40 | 3.19 | 62.15 | ||
対数時価総額 | 0.37 | 27.57 | 0.07 | 5.94 | 0.38 | 25.35 | 0.06 | 5.35 | ||
株価リターン | 0.23 | 19.48 | 0.55 | 53.04 | 0.23 | 17.45 | 0.60 | 53.36 | ||
ボラティリティ | 0.04 | 2.88 | -0.15 | -12.90 | 0.02 | 1.06 | -0.20 | -15.90 | ||
PBR | 0.19 | 13.37 | 0.21 | 16.39 | 0.24 | 15.16 | 0.22 | 15.69 | ||
実績ROE | -0.03 | -1.17 | -0.29 | -12.01 | 0.01 | 0.22 | -0.31 | -11.84 | ||
予想ROE | 0.08 | 3.47 | 0.42 | 19.92 | 0.09 | 3.65 | 0.46 | 20.18 | ||
実績成長率 | 0.18 | 10.35 | 0.00 | -0.01 | 0.18 | 9.64 | -0.01 | -0.40 | ||
予想成長率 | 0.15 | 7.78 | 0.65 | 44.42 | 0.12 | 5.95 | 0.72 | 40.73 | ||
リビジョン | 0.21 | 15.25 | 0.08 | 4.41 | 0.37 | 23.83 | 0.08 | 3.93 | ||
自由度調整済$R^2$ | 0.25 | 0.21 | 0.24 | 0.22 |
表7より,まず辞書についてはどの辞書も同様の傾向が見えており,辞書によってスコアの特性が変わることはないことが分かる.例えば64語の辞書を見ると,まず対数時価総額の$t$値はどちらの媒体も有意であるが,その水準は決算短信が高いことが分かる.つまりどちらも大型企業の方が肯定的なコメントが多いことを示しているが,特に決算短信はその傾向が強いことが見られる.
次に株価の指標をみると決算短信は株価リターンが両媒体とも正に有意,ボラティリティは決算短信は正に有意,四季報は負に有意である.つまり決算短信は大きく株価が上昇する企業で肯定的なコメントを書かれることが多く,四季報は安定的に株価が上昇している企業ほど肯定的なコメントが多く書かれている傾向がある.また両媒体とも株価の安い企業ほど否定的なコメントが書かれている.
収益性のROEに関しては,実績ROEが四季報のみ負に有意,予想ROEが両媒体とも正に有意であり,特に四季報の説明力が高い.これは四季報テキストの極性が実績ROEとは負の相関,予想ROEとは正の相関を持つことを表している.一般論としてROEには平均回帰性があることが知られているが,四季報テキストはROEの今後の変化に対する蓋然性を現時点で示唆している可能性がある.すなわち,四季報で肯定的と評価された銘柄群は低ROEから高ROEへと改善する蓋然性が高いグループと,反対に四季報で否定的と評価された銘柄群は高ROEから低ROEへと悪化する蓋然性が高いグループである可能性がある.
最後に成長性指標に関してはどちらの媒体も正に有意であり,成長性の高い企業ほど肯定的なコメントが多いことが分かる.興味深いことは決算短信が過去の実績成長率との関係性が高いことに対し,四季報は実績よりも次期の予想成長率との関係性が高いことである.これは決算短信がその期の業績の振り返りに関するコメントが多いのに対し,四季報は次期の業績に関するコメントが多いことを表している.
これより両媒体とも企業業績に関する類似のコメントをしていると思われるが,決算短信はより大型企業,株価が直近急激に上昇しており,業績も実績値として成長している企業が肯定的なコメントが多いことに対し,四季報は株価が安定的に上昇しており,次期のROEや成長率が高いと予想される企業により肯定的なコメントが多く,異なる特性を示すものであると言える.
本章では,計測したテキストスコアと株価リターンとの関連性を分析し,投資戦略への適用可能性を検証する.
3.1 イベントスタディ分析まずはじめに情報発表日前後の株価への影響を確認するために先行研究で行われているイベントスタディ分析を行った.具体的には肯定語スコアから否定語スコアを引いた総合スコアに対して,全サンプルについて正の部分の中央値と負の部分の中央値を計算する.そして正部分の中央値より大きいスコアをポジティブ,負部分の中央値より小さいスコアをネガティブと定義する.次に情報発表日は0日とし,その30日前から60日後までの対東証一部上場銘柄等ウェイトベンチマーク超過リターンを計測し,ポジティブとネガティブの超過リターン差(スプレッドリターン)で有効性を定義した.
表8に計測期間別のリターンと図2に辞書別の累和グラフを示す。表8は,発表日当日リターン「0-1」と運用への適用可能性を意識して発表翌日末からの累和リターンをいくつか計測した.
辞書 | 32 | 64 | 128 | 200 | ||||||||
計測期間 | 決算短信 | 四季報 | 決算短信 | 四季報 | 決算短信 | 四季報 | 決算短信 | 四季報 | ||||
0-1 | 0.63 | 0.22 | 0.58 | 0.24 | 0.53 | 0.23 | 0.50 | 0.23 | ||||
1-10 | 0.23 | 1.02 | 0.33 | 1.09 | 0.27 | 1.13 | 0.24 | 1.16 | ||||
1-20 | 0.28 | 1.48 | 0.33 | 1.47 | 0.23 | 1.54 | 0.14 | 1.44 | ||||
1-40 | 0.37 | 1.83 | 0.45 | 1.88 | 0.24 | 1.92 | 0.24 | 1.92 | ||||
1-60 | 1.05 | 1.36 | 1.01 | 1.42 | 0.77 | 1.31 | 0.71 | 1.37 |
図2.スプレッドリターンの累和推移
表8,図2より,決算短信は発表日当日に大きなリターンが発生し,その後30日まではリターンが横ばいになりその後徐々に60日までリターンが発生している.それに対し四季報は発表日当日から50日程度までリターンが徐々に発生しており,その後低下する傾向が確認できる.決算短信の傾向は栗田 (2019)と同様のものであるが,多くの先行研究がある決算短信は投資家の注目度も高く,発表日当日に投資行動を起こす投資家が多い一方,まだ定量的な研究が行われていない四季報については発売日以降徐々にそれを見た投資家が行動を起こし,価格に織り込まれていく様子が見られる.2つの媒体の注目度の違いがこの結果の違いに表れていると思われる.
3.2 スプレッドリターン分析イベントスタディ分析の結果はどちらも情報発表翌日にポジティブ銘柄を購入し,ネガティブ銘柄を空売りすることでリターンが得られることを示している.ただし,前節の分析では全期間の情報を集計しているためポジティブ銘柄と同程度のネガティブ銘柄が常にあるわけではないこと,業種やサイズの偏りが存在している可能性があること,また売買コストも含まれていないため,実際の投資戦略へ適用した場合の有効性が分かりにくい.
決算短信と四季報は上場全企業について情報が揃っており,どちらも3ヵ月に1度は更新されることから,クオンツ運用で用いられる標準的なファクター戦略の検証で利用されるスプレッドリターンによる月次リバランス分析で検証を行った5.
3.2.1 テキストスコアの有効性検証まず使用するテキストスコアに関しては,東証1部上場銘柄について毎月末に入手できる最新のテキストスコアを利用する.ただし,情報の入手からポートフォリオ構築のラグを考慮するため月末営業日に発表の情報は翌月初営業日入手として取り扱う.次にテキストスコアを実際の運用に使用するため投資スコアに変換する.投資戦略を構築する場合,流動性の問題やリスクコントロールの観点からサイズや業種の偏りを調整することが一般的である.そこで以下の2つのモデルを利用する.
1つ目はテキストスコアそのものの効果を検証するためのモデルであり,毎月末のテキストスコアを対数時価総額と東証33業種ダミーを用いて以下のクロスセクション回帰(モデル1)を行う.
\begin{eqnarray} Text_{i,t}=\alpha + \beta D_{i,t}^{size} +\sum _{s=1}^{32} \gamma _s S_{i,t,s} + \varepsilon _{i,t}, i=1,2,\ldots,N;\,t=1,2,\ldots,T. \end{eqnarray} | (2) |
ここで$Text_{i,t}$は企業$i$の$t$月末時点で入手できる最新の決算短信/四季報から算出される総合スコア,$D_{i,t}^{size}$は企業$i$の$t$月末時点で入手できる対数時価総額のエクスポージャー,$S_{i,t,s}$は企業$i$の$t$月末時点で業種$s$に所属すれば1,そうでなければ0となるダミー変数である.(2)式の計算で出力された残差$\varepsilon _{i,t}$をサイズ,業種調整後の投資スコアとする.この投資スコアはサイズ,業種の偏りがなくなっていることから標準的なアクティブ運用に利用しやすいものである.
2つ目はテキストスコアに含まれると思われる数値情報以外の要素を検証するモデルである.具体的には毎月末のテキストスコアを表3の9つのファクターを用いて以下のクロスセクション回帰(モデル2)を行った残差を使ったモデルである.
\begin{eqnarray} Text_{i,t}=\alpha + \sum _{k=1}^9 \beta _k D_{i,t,k} +\sum _{s=1}^{32} \gamma _s S_{i,t,s} + \varepsilon _{i,t}, i=1,2,\ldots,N;\,t=1,2,\ldots,T. \end{eqnarray} | (3) |
ここで$D_{i,t,k}$は企業$i$の$t$月末時点で入手できる第$k$ファクターのエクスポージャーである.(3)式の計算で出力された残差$\varepsilon _{i,t}$を業績数値情報,サイズ,業種調整後の投資スコアとする.このモデルにより決算短信や四季報に含まれる数値情報を除いたテキスト情報そのものに含まれる効果を検証することができる.
投資戦略の検証方法としては,標準的なスプレッドリターンを使用した.具体的には東証1部上場銘柄を毎月末に投資スコアで10分位に分割し,1分位の等ウェイトポートフォリオと10分位の等ウェイトポートフォリオの差をスプレッドリターンとして定義した.
表9に分析期間の2008年4月から2018年4月までのパフォーマンスを示す.またロング側(第1分位)とショート側(第10分位)の効果を明確にするため,第1分位(第10分位)の等ウェイトポートフォリオの対東証1部上場銘柄等ウェイトポートフォリオの超過リターンを内ロング,内ショートという記載で記した.ここで$t$値はスプレッドリターンがゼロである帰無仮説を検定する検定$t$値であり,相関は決算短信と四季報のスプレッドリターンの相関である.
モデル1 | ||||||||||||
辞書 | 32語 | 64語 | 128語 | 200語 | ||||||||
媒体 | 決算短信 | 四季報 | 決算短信 | 四季報 | 決算短信 | 四季報 | 決算短信 | 四季報 | ||||
リターン (年率%) |
5.33 | 3.72 | 4.29 | 4.70 | 4.82 | 3.96 | 5.74 | 4.15 | ||||
(内ロング) | 3.26 | 0.84 | 2.11 | 2.23 | 2.91 | 2.07 | 3.14 | 1.63 | ||||
(内ショート) | -2.08 | -2.88 | -2.17 | -2.47 | -1.91 | -1.89 | -2.60 | -2.52 | ||||
リスク (年率%) |
4.53 | 6.01 | 4.57 | 5.97 | 4.58 | 6.60 | 4.84 | 6.69 | ||||
リターン/リスク | 1.18 | 0.62 | 0.94 | 0.79 | 1.05 | 0.60 | 1.19 | 0.62 | ||||
$t$値 | 3.73 | 1.97 | 2.98 | 2.50 | 3.34 | 1.91 | 3.77 | 1.97 | ||||
相関 | 0.53 | 0.33 | 0.32 | 0.34 | ||||||||
モデル2 | ||||||||||||
辞書 | 32語 | 64語 | 128語 | 200語 | ||||||||
媒体 | 決算短信 | 四季報 | 決算短信 | 四季報 | 決算短信 | 四季報 | 決算短信 | 四季報 | ||||
リターン (年率) |
6.04 | 5.81 | 4.74 | 7.33 | 4.93 | 6.09 | 5.30 | 6.45 | ||||
(内ロング) | 3.41 | 1.79 | 2.39 | 2.91 | 2.80 | 2.33 | 2.71 | 2.56 | ||||
(内ショート) | -2.62 | -4.01 | -2.36 | -4.42 | -2.13 | -3.75 | -2.59 | -3.89 | ||||
リスク(年率) | 3.57 | 3.96 | 4.04 | 4.19 | 3.72 | 4.57 | 4.01 | 3.80 | ||||
リターン/リスク | 1.69 | 1.47 | 1.17 | 1.75 | 1.33 | 1.33 | 1.32 | 1.70 | ||||
$t$値 | 5.37 | 4.66 | 3.73 | 5.56 | 4.21 | 4.23 | 4.20 | 5.39 | ||||
相関 | 0.27 | 0.16 | 0.14 | 0.14 |
表9より,モデル1ではほぼすべての投資スコアは有意に正のスプレッドリターンを持つことが分かる.また全体的には四季報よりも決算短信の方がリターンが高い.これはイベントスタディとは異なる結果であるが,決算短信は図1に示したように企業により発表日が異なり,件数の多寡はあるものの毎月公表がされている.そのためポートフォリオに組み込まれる銘柄のタイミングが異なり,イベントスタディの結果とは異なっていると思われる.スプレッドリターンをロングとショートに分解すると,どちらの媒体も概ねロングとショート双方で有効性が見られるが,決算短信はロング側,四季報はショート側で若干高いリターンが獲得できていることが分かる.表3より,四季報は決算短信比べ肯定語の比率が平均的に高い特徴がある.また表4より四季報は時系列特性として負の歪度を持っている.つまり肯定的な文章が多い中で表れる極端な否定語に対して投資家が強く反応すると予想される.
また両媒体の相関は0.3$\sim $0.5であり,両媒体とも企業の業績に関する文章であるにもかかわらず,表7で示した通り異なる情報を有しているため,投資戦略としても異なる効果を有していると思われる.
次にモデル2を見ると全体的にモデル1よりパフォーマンスが上昇していることが分かる.これは四季報や決算短信に含まれている数値情報以外のテキストそのものの要因がまだ投資家に認知されていないファクターとして効果があることを示している.特に四季報の上昇が大きく,テキストそのものの効果としては,決算短信よりも四季報の方が認知されていないこともあり投資効果が大きいことが分かる.ロング,ショートに分解しても四季報はどちらの効果も高まっている.また両媒体の相関も低くなり,テキストそのものの内容は投資戦略として関連性が高くないことも分かる.図3に全辞書のパフォーマンスを平均した累和リターンのグラフを示す.
図3より,モデル1,モデル2ともに安定したパフォーマンスが得られていることが分かる.特にモデル2は安定性が上昇しており,局面に依らず高いパフォーマンスが得られている.
図3.スプレッドリターンの累和推移(左図:モデル1,右図:モデル2)
次にテキスト情報から得られる投資戦略の有効性を他の標準的なファクター戦略と比較することで検証する.ファクター戦略として,割安戦略で利用されるPBRとPER,成長戦略として予想ROE,予想売上高成長率,リビジョン,テクニカル戦略としてリバーサル,ボラティリティ(低ボラ)を使用した6.これらのファクターはテキスト情報と同様に情報発表日から1日のラグをつけて使用しており,(2)式を用いてサイズ,業種要因を調整したうえでスプレッドリターンを計測している7.決算短信,四季報に関しては全辞書のスプレッドリターンの平均値を使用した.計測したスプレッドリターンのパフォーマンスを表10に示す.
カテゴリ | ファクター | リターン(年率%) | リスク | リターン/リスク | $t$値 | ||
スプレッド | (内ロング) | (内ショート) | (年率 %) | ||||
モデル1 | 決算短信 | 5.05 | 2.86 | -2.19 | 4.21 | 1.20 | 3.80 |
四季報 | 4.13 | 1.69 | -2.44 | 6.00 | 0.69 | 2.19 | |
モデル2 | 決算短信 | 5.25 | 2.83 | -2.42 | 3.28 | 1.60 | 5.09 |
四季報 | 6.42 | 2.40 | -4.02 | 3.70 | 1.74 | 5.51 | |
割安戦略 | PBR | 9.41 | 9.56 | 0.15 | 7.97 | 1.18 | 3.75 |
PER | 3.99 | 5.86 | 3.61 | 8.93 | 0.45 | 1.42 | |
成長戦略 | 予想ROE | 0.25 | 2.49 | 2.23 | 9.56 | 0.03 | 0.08 |
予想成長率 | 0.12 | 1.42 | 1.31 | 7.79 | 0.02 | 0.05 | |
リビジョン | 4.96 | 3.55 | -1.42 | 6.76 | 0.73 | 2.33 | |
テクニカル | リバーサル | 5.92 | 3.69 | -2.23 | 14.19 | 0.42 | 1.33 |
低ボラ | -0.35 | -0.13 | 0.22 | 14.57 | -0.02 | -0.08 |
表10より,既存の代表的なファクター戦略に比べ高いリターン/リスク比を得られている.特に他のファクター要因を除去したモデル2のリターン/リスク比は最も高く,投資戦略として独自性を有する上にその効果が極めて高いことが確認できる.またロング,ショート別の分解を見ると特に四季報はショート側の有効性が高いが,これは他のファクター戦略にはない特徴である.
次に表11にスプレッドリターンの相関係数を示す.表11より,サイズ,業種要因しか除いていないモデル1は割安戦略とは負,成長戦略とは正の相関を有しており,成長戦略の1つとしてみることができる.またモデル2については他のファクターの要因を除いているため全体的に相関が低いことが分かる.
モデル1 | モデル2 | 割安戦略 | テクニカル | 成長戦略 | |||||||
決算短信 | 四季報 | 決算短信 | 四季報 | PBR | PER | リバーサル | 低ボラ | 予想ROE | 予想成長率 | リビジョン | |
決算短信 | 1.00 | ||||||||||
四季報 | 0.44 | 1.00 | |||||||||
決算短信 | 0.88 | 0.17 | 1.00 | ||||||||
四季報 | 0.28 | 0.71 | 0.24 | 1.00 | |||||||
PBR | -0.46 | -0.48 | -0.17 | -0.03 | 1.00 | ||||||
PER | -0.13 | -0.30 | 0.01 | 0.00 | 0.44 | 1.00 | |||||
リバーサル | -0.45 | -0.75 | -0.14 | -0.24 | 0.60 | 0.44 | 1.00 | ||||
低ボラ | -0.07 | 0.19 | -0.08 | -0.03 | 0.00 | -0.44 | -0.27 | 1.00 | |||
予想ROE | 0.21 | 0.51 | -0.08 | 0.16 | -0.52 | -0.32 | -0.45 | 0.12 | 1.00 | ||
予想成長率 | 0.33 | 0.52 | 0.04 | 0.15 | -0.49 | -0.32 | -0.45 | 0.18 | 0.77 | 1.00 | |
リビジョン | -0.06 | 0.09 | -0.18 | 0.01 | 0.05 | 0.16 | -0.08 | -0.02 | 0.17 | 0.22 | 1.00 |
この点からも決算短信や四季報によるテキスト情報は既存の投資戦略とは異なる独自の超過収益の源泉を有していると考えることができる.
3.3 アクティブ運用を意識した分析実際の投資戦略は空売りに規制があることもあり,ベンチマークを意識したロング戦略が多く,売買コストも発生する.また表7で見たように特に四季報はロングよりもショートのほうが高いリターンとなっている傾向があり,実際の投資戦略ではリターンが獲得できない可能性も考えられる.そこでこれらの制約条件を考慮したアクティブ運用分析を行った.具体的には空閑ら (2010)に倣い,まず東証1部上場銘柄を投資対象として上記の投資スコア(モデル2)について10分位に分割する.第1分位をベンチマーク比率(TOPIX),それ以外は非保有とし余ったウェイトを均等に第1分位に割り当てる簡易的なアクティブポートフォリオを構築する.このように構築されたアクティブポートフォリオの銘柄$i$の保有ウェイト$w_i$は以下のように記述できる.
\begin{eqnarray} w_{i}=\left\{ \begin{array}{ll} w_i^{TOPIX}+\delta, & i \in I \\ 0, & i \notin I. \end{array} \right. \end{eqnarray} | (4) |
ここで$w_i^{TOPIX}$は銘柄$i$のTOPIXウェイトであり,集合$I$は投資スコア(モデル2)の第1分位に含まれる銘柄を示している.またオーバーウェイト幅$\delta $は以下のように定義される.
\begin{eqnarray} \delta =\frac{1-\sum _{i\in I}w_i^{TOPIX}}{|I|}. \end{eqnarray} | (5) |
ここで$|\cdot |$は集合の要素数,つまり第1分位に含まれる銘柄数を示している.
このアクティブポートフォリオを毎月末構築しバックテストを行った.その際,売買コストはDomowitz et al. (2001)で取引手数料,マーケットインパクトを考慮したトータルコストが0.413%であると述べられていることから保守的に片側0.5%とした.
2008年4月から2018年4月までのコスト控除後の対TOPIX超過リターンの統計量を表12に示す.
辞書 | 32語 | 64語 | 128語 | 200語 | ||||||||
媒体 | 決算短信 | 四季報 | 決算短信 | 四季報 | 決算短信 | 四季報 | 決算短信 | 四季報 | ||||
超過リターン(年率) | 5.09 | 2.99 | 4.10 | 4.34 | 4.32 | 3.51 | 3.92 | 3.76 | ||||
T.E.(年率) | 6.02 | 6.37 | 6.01 | 6.43 | 5.83 | 6.64 | 5.99 | 6.49 | ||||
I.R. | 0.85 | 0.47 | 0.68 | 0.67 | 0.74 | 0.53 | 0.66 | 0.58 | ||||
回転率(年率) | 346.76 | 401.19 | 335.80 | 405.97 | 341.78 | 409.26 | 352.50 | 407.42 | ||||
$t$値 | 2.68 | 1.49 | 2.17 | 2.14 | 2.35 | 1.68 | 2.08 | 1.84 |
ここで超過リターンは対TOPIXの配当込み超過リターン,T.E.はトラッキングエラーであり,超過リターンの標準偏差,I.R.はインフォメーションレシオであり超過リターンとトラッキングエラーの比で定義している.また$t$値は超過リターンがゼロであることを帰無仮説とした検定$t$値である.
表12より,回転率は決算短信より四季報が高く,1年で350%-400%程度の高い回転率を有していることが分かる.しかし売買コストを控除しても10%の有意水準で有意であり,両媒体とも統計的に有意な超過リターンが得られており,投資戦略への適用可能性は十分あると考えられる.
本論文では,全上場企業で年に4回公表されている決算短信と会社四季報という情報媒体に着目し,そのテキスト情報からテキストマイニング手法を用いて投資情報を抽出した.そしてその情報の特性を調査し,投資戦略への利用可能性について流動性や売買コストなども考慮した上で検証を行った.特に会社四季報についてのテキストマイニングは先行研究では行われておらず,本論文の高い新規性となっている.また先行研究でよく利用されている情報発表日前後のイベントスタディに止まらず,実際の投資戦略への適用を意識して,サイズや業種要因を調整し,売買コストを意識した月次リバランス分析を行ったうえでその有効性を評価したことも先行研究とは異なる点である.
テキストマイニング手法としては,2つの情報媒体の投資情報としての価値をできるだけ公正に評価するため,シンプルなBag of Words方式を採用し,4つの共通の辞書を用いて投資情報を抽出している.
分析結果として,まず決算短信,会社四季報ともに上場企業の業績数値,当該期間や将来の業績についてのコメントが記載されている媒体ではあるが,そのテキスト情報は異なる特性を有していることが分かった.具体的には決算短信はより大型企業で株価が直近急激に上昇しており,業績も実績値として成長している企業が肯定的なコメントが多いことに対し,会社四季報は株価が安定的に上昇しており,次期のROEや成長率が高いと予想される企業により肯定的なコメントが多いことが分かった.これは決算短信が当該期間の業績要因を中心に文章が書かれているのに対し,会社四季報は将来の業績に関するコメントが中心であることが要因として考えられる.
投資戦略としての特徴としては,両テキストからなる戦略は成長特性を示すが,成長戦略で利用されるROEや売上高成長率,リビジョンなど数値情報を除いた後でも高い有効性を有していること,つまり既存の戦略とは異なる超過収益の源泉を有していることが分かった.
これらの結果は,決算短信と会社四季報というテキスト情報が既存戦略とは異なる新しい超過収益の源泉としての可能性を有していることを示すものであり,クオンツ運用実務において非常に重要な貢献を見出したということができる.
今後の課題としては,まずテキスト情報から投資情報を抽出するテキストマイニング手法についてより高度な手法を検討することが考えられる.特に酒井ら (2015)では深層学習手法を用いてテキスト文章に肯定/否定の極性情報を付与する方法を提案している.会社四季報にもこの手法を利用することで両媒体とも有効性が向上する可能性がある.
また今回検証した2つの情報媒体は,発表タイミングやその属性など異なる性質を有していることが分かった.この2つの情報を組合わせることでより有効な戦略が構築できる可能性もあり,テキストを用いた投資戦略はまだ十分に改善の余地があると考えている.
* 本研究は日本学術振興会の基盤研究(C) 19K04888 の助成を受けている. なお本論文の内容は著者らの所属する組織の見解を示すものではなく, 全て個人的な見解である. また本論文の分析は全て三井住友DS アセットマネジメントで行われたものである。
1 https://www.fdsol.co.jp/doc/Announce_20180911.pdf
2 形態素解析は単語の意味を考慮しないため単語をバラバラにカウントしてしまう.実際に形態素解析結果は「業」「増」「益」が登場回数上位3位であった. 表2は分かりやすさのため著者が意味の判別できる単語を抜き出したものである.
3 各企業のリビジョンを東洋経済の1期先売上高予想を用いて,月末時点で入手できる最新の業績予想値の1ヵ月変化として定義し,その東証1部上場銘柄の平均値でリビジョンインデックスを算出した.
4 エクスポージャーはt期末時点で入手できるファクターを東証1部上場銘柄でクロスセクション基準化をして,±4を上下限閾値として丸め処理をして作成した.
5 決算短信と四季報で情報が発信される月が異なるため月次リバランス分析で行ったが,3ヵ月リバランスでも大きな傾向は変わらなかった.
6 PERは東洋経済の1期先予想利益を用いて作成した株価収益率であり,リバーサルは表3の株価リターンの符号を反転したものを使用した.その他のファクターは表6の定義と同様である.
7 PBR,PER,ボラティリティは低い方が好ましいファクターであるため,1分位と10分位を入れ替えてスプレッドリターンを計測している.