企業の決算説明会では決算内容の説明や参加者との質疑応答が行われ,過去の業績や将来の見通しを知る重要な機会であると考えられる.本研究では決算説明会での発言を書き起こしたテキストデータの極性分析を行い,財務データや株価との関係を明らかにした.財務データが決算説明会の極性に与える影響を評価するため,売上高や利益率と極性の相関を分析した.次に決算説明会と株価リターンの関係をイベントスタディと回帰分析で検証した.その際,市場全体の影響を取り除くためFama-French 3ファクターモデルによって計算した株価の異常リターンを用いた.結果,イベントスタディから短期の異常リターンと極性との関係が明らかになった.特に質問・回答部分は付与された極性の割合が小さいにもかかわらず,それらの極性の違いが異常リターンの差につながった.ここから質疑応答は業績に関する重要な情報を持つことがうかがえる.これを踏まえて,異常リターンに最適化した極性指標の構成を試みた.最適化された極性指標は全体の極性より大きな異常リターンに繋がる可能性が示唆された.
(本論文は第59回2023年度夏季JAFEE大会(成城大学)での発表を発展させた内容を含む.)
企業活動や市場を理解するため様々なデータの分析が試みられてきた.近年では膨大なテキストデータの分析において自然言語処理技術の活用が進んでいる.特に市場の状況や企業の業績などを定量化する試みとして文章の極性分析が利用されている.極性分析とは,特定の観点に基づいたスコア(極性)を文章に対して計算する手法である.例えば,新聞記事の表現に対して企業業績の観点からポジティブ・ネガティブを判定する研究が行われてきた[1].極性の計算には,辞書を利用する方法[2]や機械学習モデルを利用する方法[3]などがある.近年では大規模言語モデルのBERT[4]を使った極性分類が研究されている[5][6].このように極性を数値計算することで,人手では時間がかかる大規模なテキストデータの統計的な分析が可能となる.国内の金融経済に関連する極性の研究として,新聞記事に対する分析[1],ニュースに対する分析[7],アナリストレポートに対する分析[8][9],決算短信の分析[10][11],決算説明会の分析[12][13]などがある.
本研究では決算説明会に注目して極性分析を行った.一般的な決算説明会では,経営者が業績に関するプレゼンテーションを行い,参加アナリストからの質問に回答する.質疑応答では参加アナリストの専門的な視点での質問に対して企業からの追加的な説明が回答される.対話的な情報交換を含むことが,有価証券報告書や決算短信にはない決算説明会の特徴の一つである.このように決算説明会は企業の過去の業績や将来の見通しを知る重要な機会であり,その情報について研究が行なわれてきた.関連する研究として,[12]では決算説明会のテキストデータを対象に金融ドメインに特化した極性辞書[14]による分析を行っている.同分析では決算説明会を説明セクションと質疑応答セクションの二つに分けてイベントスタディを行い,極性が株価の収益率と関係することを示した.また決算説明会の音声データに着目した研究[13]では,経営者の感情に関する特性と企業の業績との関連が指摘されている.
企業数 平均値 標準偏差 第一四分位数 中央値 第三四分位数 | |
対数時価総額 [円] | 482 25.3 2.1 23.7 25.2 26.7 |
業種 | 企業数 比率 [%] | 業種 | 企業数 比率 [%] | |||
情報通信・サービスその他 電機・精密 小売 商社・卸売 素材・化学 食品 不動産 建設・資材 機械 |
173 40 37 32 31 27 20 19 19 |
35.9 8.3 7.7 6.6 6.4 5.6 4.1 3.9 3.9 |
自動車・輸送機 医薬品 鉄鋼・非鉄 金融(除く銀行) 運輸・物流 銀行 電力・ガス エネルギー資源 |
19 18 14 13 8 7 4 1 |
3.9 3.7 2.9 2.7 1.7 1.5 0.8 0.2 |
本研究でも決算説明会のテキストデータが持つ極性を分析した.先行研究と比べた時の本研究の特徴は以下の点である.第一に,極性の計算にBERTを利用することで,決算説明会の質疑応答を含めた様々な文に対して柔軟に極性を計算することを試みた.第二に,極性の分析では決算説明会を説明部分・質問部分・回答部分の3つに分割し,それぞれに対して極性の傾向を分析した.質問部分と回答部分を分けることで,質疑応答での発言に関するアナリストと経営者の極性を区別して分析することができるようになった.第三に,売上高などの財務指標と極性との相関を分析し,極性に含まれる財務データの影響を評価した.第四に,得られた極性を組み合わせることで株価リターンに最適化した極性指標の構築を試みた.イベントスタディや回帰分析で極性と株価の関係を分析し,それを踏まえて部分ごとの極性を組み合わせることで異常リターンに対する最適化を行った.以上の分析により,決算説明会のテキストデータが持つ情報を明らかにすることが本研究の目的である.
分析にはSCRIPTS Asia株式会社が提供する,決算説明会での発言を書き起こしたテキストデータを用いた.4年分(2019年~2022年)の決算説明会の中から,分析に必要な条件を満たすイベントを抽出した.極性と財務データの関係を分析するため,決算短信の発表から15日以内に行われた決算説明会を用いた.また株価の分析のため,決算説明会の250営業日前から60営業日後までの株価が取得でき,説明部分・質問部分・回答部分の3つを持つイベントを対象にした.後述の分析で利用する財務データが取得できない企業のイベントは除いた.以上の条件で抽出できた2542件(482社)の決算説明会のデータを用いて分析を行った.対象となる482社について企業の規模と業種の分布は以下の通りである.自然対数による時価総額の要約統計量を表1に,TOPIX17業種分類に基づく業種の分布を表2に示した.それぞれ,分析期間中の最も新しい決算説明会に対応する時期の値を用いた.
本論文は以下のように構成される.2章では極性の計算方法を説明する.その方法に沿って3章では決算説明会の部分ごとの極性を計算し財務データとの相関を分析する.4章では極性と株価との関係を分析する.極性以外の影響を除くため,Fama-French 3ファクターモデルに基づいて異常リターンを導入し,イベントスタディを行った.その結果を踏まえて,5章では異常リターンに対して最適化した極性指標の作成を試みる.最後に6章で本研究の結論を述べる.
決算説明会の書き起こしテキストに対する極性の計算方法を以下では説明する.極性の計算には辞書[2][14][15][16][17]や機械学習モデル[3][8][18][19]を利用する方法が知られている.
leaning rate | batch size | warmup steps | weight decay |
16 | 100 | 0.01 |
分類対象 | 件数 | TN | FP | FN | TP | PRECISION | RECALL | F1 | WEIGHTED-F1 |
ポジティブ | 611 | 386 | 12 | 9 | 204 | 0.94 | 0.96 | 0.95 | 0.97 |
ネガティブ | 611 | 423 | 10 | 11 | 167 | 0.94 | 0.94 | 0.94 | 0.97 |
本研究では事前学習済みBERTに対して極性分類の追加学習を行った.事前学習済みモデルとして金融分野に特化したモデルを利用した[20]*.このモデルは2019年9月1日時点の日本語Wikipediaのデータで事前学習されたモデル†を元に,2020年12月31日までの金融関連テキストによる追加事前学習によって作成された.
次に,事前学習モデルに対して以下の追加学習を行った.極性分類のための学習データとして,TIS株式会社が公開しているchABSA-datasetを利用した‡.chABSA-datasetは2016年度の有価証券報告書のデータに基づいて作成されている.データセットでは,文中の単語に対して売り上げなどの観点からポジティブ・ネガティブを分類したラベルが記載されている.文単位での極性を評価するためにchABSA-datasetの各文に対してポジティブ(ネガティブ)な単語を含むか否かを判定する二値分類のラベルをそれぞれ作成した.これらのラベルに基づいて,ポジティブ・ネガティブを判定するBERTを別々に追加学習した.
追加学習ではBERTが持つパラメーターの内,追加した二値分類器と最終層の重みを調整した.chABSA-datasetに含まれる文を8:1:1に分けてそれぞれ訓練・評価・テスト用データに用いた.表3に追加学習で用いたハイパーパラメーターを示す.評価用データのLossが最小になったエポックでの重みを最終的な分類モデルとして採用した.テストデータによる性能評価の結果を表4に示す.表ではポジティブ(ネガティブ)に該当する文を正例として混同行列による評価を行った.ポジティブ,ネガティブそれぞれの分類タスクでF1値は0.95, 0.94となった.また,評価データに含まれるポジティブ(ネガティブ)文の比率は均等ではないため,正例・負例を入れ替えてラベル数で加重平均を取ったF1値(WEIGHTED-F1)を評価した.WEIGHTED-F1はどちらの場合でも0.96を超えることが確かめられた.以降の分析では,この分類モデルを用いて極性を評価する.
決算説明会では通常,経営者による業績の説明が行われた後に参加アナリストとの質疑応答の時間が設けられる.質疑応答ではアナリストの質問に答えるために説明部分にはない情報が含まれる可能性がある.本研究ではこれらの情報を区別するために決算説明会を次の3つの部分に分割した.決算説明会のテキストデータから司会進行に関わる文を除外し,企業からの説明部分('presentation'),アナリストからの質問部分('question'),質問に対する回答部分('answer')の3つに分割する.
(1) |
これらの文に対してBERTを用いて極性を判定する.決算説明会の各部分
(2) |
これらの比率は決算説明会の内容が業績について好意的か否定的かを表すと期待される.極性の平均的な傾向を確かめるため,平均化した比率を図1に示す.横軸は時期を表しており,時期による比率の違いは市場全体の景気などが影響していると考えられる.企業側からの発言(説明部分・回答部分)に比べて,アナリストからの発言(質問部分)はネガティブな極性の割合が高い傾向がある.これはアナリストが業績に対して厳しい視点で質問を行なっているためであると考えられる.同様の傾向は,[12]でも質疑応答部分に対して指摘されている
付与された極性の比率について,説明部分の10%程度に対して質問部分と回答部分は数%程度と大きな差がある.これは決算説明会の各部分で言及される内容の違いに起因すると考えられる.説明部分では直接的な表現で企業の業績に言及することが多い一方,質疑応答では業績に影響を与えた要因が様々な観点で表現される.そのため,有価証券報告書に基づいて追加学習を行ったBERTでは質疑応答部分の情報を十分に捉え切れなかった可能性がある.更に,説明部分と違い質疑応答では対話的に情報交換が行われるため,文体の違いが極性の判定に影響した可能性も考えられる.ただし,少ない割合ながらも極性が付与された文にはアナリストからの注目度が高い重要な業績の情報が含まれている可能性がある.後に株価リターンとの関係を用いてこの可能性を検証する.
次に,決算説明会の各部分
(3) |
以降では,
次に,各部分の極性と財務データとの関係を分析する.財務データは決算短信から読み取ることができる.決算短信は決算説明会の前に公表されるため,決算説明会の極性がある程度予測できる可能性がある.例えば,決算短信で売上高の増加が読み取れる場合,対応する内容が決算説明会でも言及されて極性に正の影響を与えると考えられる.そこで,決算説明会の極性と財務データを比較することで,決算説明会が持つ非数値的な情報の価値を分析する.ただし,本研究では決算短信に含まれる数値データを網羅的に調べることはせず,いくつかの代表的な財務データとの関係を分析する.
質問部分 | 回答部分 | |
説明部分 | 0.13* | 0.26* |
質問部分 | 1.00 | 0.16* |
利益率の変化幅 ( |
売上高の変化率 ( |
|
説明部分 | 0.32* | 0.40* |
質問部分 | 0.10* | 0.09* |
回答部分 | 0.13* | 0.10* |
財務データの中でも代表的な指標として売上高と利益率に注目する.企業ごとの規模の違いや水準の違いの影響を減らすため,以下のように指標を作成した.
(4) |
(5) |
ここで,∗は前年同四半期での数値を表す.
財務指標と極性の相関をスピアマンの順位相関係数で計算した結果を表6に示す.どの部分においても,極性は売上高や利益率と有意な相関を持つことがわかる.特に,説明部分は質問・回答部分に比べて大きな相関を持っている.これは,説明部分では財務指標について直接的に言及するためであると考えられる.一方で,質疑応答部分の相関係数は説明部分に比べて小さく,財務情報以外への言及が多いと示唆される.
次に,極性と株価の関係を分析する.企業の業績を反映して極性と株価は相関を持つと期待される.具体的には,企業の業績が良い場合に決算説明会の極性はポジティブになり,決算説明会の前後で企業の株価リターンも上昇すると考えられる.逆にネガティブな場合は,株価リターンは低下すると考えられる.このような極性と株価の関係を分析するため,以下では異常リターンを用いたイベントスタディを行う.
4.1 ファクターモデル異常リターンを計算するため,本研究ではFama-French 3ファクターモデルを用いて株価の期待リターンを推定する.ファクターモデルは[21]を参考に構成した.ファクターの計算は,東証プライム・スタンダード(2022年4月以前は東証一部・二部)上場銘柄を対象とする.リスクフリーレート(
このファクターを用いて株価のファクターエクスポージャーを計算した.ある企業が決算説明会
(6) |
ここで
係数を推定するためには推定ウィンドウを選ぶ必要がある.推定ウィンドウにおける株価と極性の相関に注意が必要である.極性は過去の業績を反映するため,決算説明会前の株価の動きと極性は相関を持つと考えられる.その場合,期待リターンと極性も相関を持ち,異常リターンの分析に影響する可能性がある.
ファクターモデルと極性の相関を以下のように分析した.決算説明会の前後の期間を60営業日ごとに分割し,それらを推定ウィンドウとしてファクターモデルの係数を推定した.このように得られた係数と極性の相関をスピアマンの順位相関係数で評価した.ただし,決算説明会前後の十分広い期間の株価を取得するため,この分析では2019年から2021年の3年間の決算説明会の中から,開催日の−490営業日から370営業日までの株価が取得できたイベントのみを対象としている.評価結果を図2に示す.三角で示される点は極性との相関が有意(
イベントスタディによって株価と極性の関係を分析する.分析は[11][12][22]を参考に極性が良い(悪い)グループの異常リターンの検定を行った.株価に影響を持ちうる要因を取り除くため,株価リターンから4.1章で議論したファクターモデルによって推定されるリターン(期待リターン)を除いた差(異常リターン)を対象に分析を行う.決算説明会
(7) |
括弧内の式はファクターモデルにより計算された期待リターンである.
(8) |
また,期間
(9) |
最初に,決算説明会の業績が良かった(悪かった)イベントの平均的な株価の推移を分析する.極性の値が上位20%(下位20%)となった決算説明会の集合を
(10) |
ここで,
(11) |
後者の式では,誤差項に時系列相関がないと仮定した.以上の式から
(12) |
同様に集合
説明部分,U | 説明部分,D | 質問部分,U | 質問部分,D | 回答部分,U | 回答部分,D | |
0 | 4.72*** | -4.81*** | 4.58*** | -3.60*** | 0.49 | -2.21** |
1 | 8.03*** | -8.22*** | 6.01*** | -8.33*** | 8.12*** | -11.67*** |
2 | -0.74 | -0.44 | -2.60*** | -1.06 | -0.51 | -1.74* |
3 | -1.30 | -1.08 | 1.05 | -1.02 | -0.95 | 0.76 |
4 | 1.73* | -1.65* | -1.47 | 1.45 | -0.17 | -1.38 |
5 | -0.39 | -0.59 | 0.83 | 0.08 | -0.44 | 0.03 |
6 | -1.06 | -0.08 | -0.92 | -1.91* | -0.08 | 0.49 |
7 | -2.19** | 0.40 | -1.75* | -0.17 | -2.07** | 1.13 |
8 | -1.43 | -0.76 | 0.35 | -1.19 | -0.29 | 0.90 |
9 | -1.68* | -0.60 | -1.34 | -0.86 | 0.42 | -1.04 |
説明部分,U | 説明部分,D | 質問部分,U | 質問部分,D | 回答部分,U | 回答部分,D | |
(1,10) | 0.15 | -4.17*** | -0.04 | -3.78*** | 1.55 | -3.74*** |
(11,30) | -0.37 | 1.77* | -0.24 | -0.44 | -0.64 | 0.56 |
(31,60) | -0.42 | 3.72*** | -0.29 | -0.01 | -0.14 | 1.22 |
決算説明会前後の累積異常リターンを図3に示す.破線,点線,実線はそれぞれ
一方,決算説明会から5日目以降では,異常リターンは短期とは異なる傾向を持つ.特に説明部分の極性について,図3や表8に示されるように極性が悪いほど株価が上昇している.この原因として決算説明会後の投資行動の影響が考えられる.例えば,先行研究[12]では質疑応答での厳しい視点が投資家の納得感に繋がり,追加的な収益の源泉となる可能性が議論されている.別の要因として,株価リターンのリバーサルが影響した可能性が考えられる.リバーサルとは過去の期間でリターンが高い(低い)銘柄はその後のリターンが低く(高く)なる現象であり,日本の株式市場では1カ月程度の短期間でもリバーサルが発生することが知られている[23].極性が良い決算説明会を行ったグループは,決算説明会前や直後の期間で高いリターンを持つ傾向があるため,リバーサルにより長期的な異常リターンが低下する傾向を持ったと解釈することができる.この場合,質問部分でこの効果が相対的に少ない理由は,4.1章で見たように質問部分の極性と過去のリターンの相関が低いからであると考えられる.
以降では,決算説明会の当日から5日以内で観測された短期的な異常リターンについて分析を行う.この際,長期的な異常リターンに影響した要因は,短期的な異常リターンの分析の結論に影響しないと期待される.なぜなら,長期的な傾向は短期的な傾向とは逆向きに働くため,長期的な要因の寄与は短期の異常リターンの変化をより厳しく評価することにつながるからである.
4.3 回帰分析イベントスタディでは極性が短期の株価の動きに影響することを確かめた.次に,決算説明会の極性と異常リターンの関係を回帰分析により比較する.3章で見たように,各部分の極性は別の部分の極性や財務情報と弱い相関を持つ.回帰分析を行うことにより,極性が株価に与える影響を定量的に評価する.
決算説明会の短期的な影響を分析する際には基準日の定義に注意が必要となる.例えば,決算説明会より前に公開された決算短信の内容は事前に株価に反映されることになる.逆に,決算説明会が証券取引所の終了後に行なわれた場合は,その影響が翌日の株価に反映されることになる.これらの要因によって,決算に関連する影響が株価に反映される時期は前後する可能性がある.本研究では決算説明会後に注目し,決算説明会の当日から5日以内の累積異常リターン(
(13) |
分析対象のすべての決算説明会に対して式(13)で回帰分析した結果を表9に示す.説明部分,質問部分,回答部分のそれぞれで回帰係数の
2019年~2022年2022年のみ
回帰係数 | t 値 | 回帰係数 | t 値 | |||
定数項 極性 (説明部分) 極性 (質問部分) 極性 (回答部分) 利益率の変化幅 売上高の変化率 対数時価総額 PBR |
0.14 6.55 18.65 14.10 7.73 1.84 -0.11 -0.03 |
0.03 3.60*** 2.38** 2.64*** 4.09*** 2.24** -1.24 -0.56 |
定数項 極性 (説明部分) 極性 (質問部分) 極性 (回答部分) 利益率の変化幅 売上高の変化率 対数時価総額 PBR |
4.31 6.67 7.65 18.26 9.51 1.60 -0.15 -0.01 |
2.10** 2.23** 0.70 2.47** 3.25*** 1.34 -1.02 -0.15 |
イベントスタディと回帰分析では,BERTの学習データと分析対象の時期が一部で重複している問題を考慮した.極性分類に用いたBERTは2020年までの情報を使って事前学習を行っている.一方,分析対象は2019年から2022年までの決算説明会であり,一部のデータは事前学習と時期が重複している.学習データと評価データに重複がある場合,機械学習モデルの性能は過剰に評価されてしまう恐れがある.本研究では極性を取り扱うため,直接的に学習データに極性分類の結果が含まれるとは考えにくいが,語彙の意味の変化を通じて間接的に極性分類に影響する可能性が考えられる.このような時期の重複の影響を評価するため,モデルの学習データと時期が重複しない2022年の決算説明会のみを用いた分析結果を表9と図3に示した.全ての年度を用いた場合と比較して,定性的に同様な傾向を持つことがわかる.ここから,データの時期の重複は分析結果に大きく影響しないと考えられる.
決算説明会の各部分が持つ極性はそれぞれ異なる傾向を持ち,異常リターンとの回帰係数も異なる値を取ることが分かった.これらの傾向の違いを利用して,各部分の極性を組み合わせた指標を構成し,企業の業績をより良く反映できるか検証を行う.決算説明会を前半(2019年,2020年)と後半(2021年,2022年)に分け,前半で極性指標の最適化を行い,後半で指標の評価を行う.
各部分の極性を組み合わせた指標として次の2つを用いた.一つ目の指標として,司会進行を除いた決算説明会のテキスト全体に対して式(3)で計算した極性を全体スコアと定義する.二つ目の指標として,決算説明会の各部分の極性に重みを付けて足し合わせた値を最適スコアと定義する.最適スコアの重みづけは,以下の回帰分析によって決定する.
(14) |
(15) |
これらの係数を式(14)の右辺に代入し,
最適スコアを評価するため,2021年と2022年の決算説明会に対して各指標を計算し,異常リターンとの関係を比較する.4.2章と同様に,最適スコア・全体スコア・説明部分の極性それぞれが上位・下位20%の決算説明会をグループに分けて,各グループの平均的な異常リターンを計算した.それぞれのグループの累積異常リターンの差(
本研究では決算説明会が持つ情報と株価との関係をテキストデータの極性分析により明らかにした.決算説明会の書き起こしテキストデータを説明,質問,回答の3つの部分に分け,それぞれの内容の極性を評価した.極性の評価には有価証券報告書の業績に関する極性で追加学習したBERTを用いた.SCRIPTS Asia株式会社が提供する決算説明会のテキストデータから,対象期間の株価と財務データが取得できるイベントを抽出して分析を行った.表5と表6より,各部分の極性が弱い相関を持つこと,売上高や利益率といった財務指標と相関を持つことを明らかにした.次に決算説明会と株価リターンの関係をイベントスタディで検証した.市場全体の影響を取り除くため,Fama-French 3ファクターモデルを用いて期待リターンの影響を除いた異常リターンに対して分析を行った.図3より決算説明会の極性が良かったグループは悪かったグループの平均的な異常リターンを短期的に超過する傾向が得られた.特に質問・回答部分は付与された極性の割合が小さいにもかかわらず,それらの極性の違いが異常リターンの差につながった.ここから質疑応答は業績に関する重要な情報を持つことがうかがえる.
更に,極性の傾向の違いを分析するため,株価リターンと各部分の極性の関係を回帰分析により調べた.コントロール変数として,年次,業種,売上高の変化率,利益率の変動幅を導入することで,極性の影響のみに注目した.2019年から2022年までの4年分の決算説明会を分析した結果,表9より決算説明会の各部分が持つ極性は短期の累積異常リターンに対して有意な正の回帰係数を持つことが分かった.
最後に,株価に対する極性指標の最適化を試みた.決算説明会のデータを2019年から2020年までと2021年から2022年までの二つの時期に分け,前半で指標を最適化し,後半で指標を評価した.前半の時期で短期の異常リターンを最適化するような極性の加重和を計算した.最適化した極性指標では質問部分の極性が重視されることが分かった.後半の時期で最適化した極性指標と異常リターンとの関係を検証した.図4に示すように,2021年と2022年では最適化された極性指標を使うことで全体の極性よりも大きな異常リターンの差が得られた.よって,決算説明会の各部分の極性を適切に組み合わせることで企業の業績をより反映した指標が作成できる可能性が示唆された.
* https://huggingface.co/izumi-lab/bert-base-japanese-fin-additional
† https://huggingface.co/cl-tohoku/bert-base-japanese
‡ https://github.com/chakki-works/chABSA-dataset