JAFEE Journal
Online ISSN : 2434-4702
[title in Japanese]
[in Japanese][in Japanese]
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2024 Volume 22 Pages 1-10

Details
概要

企業の決算説明会では決算内容の説明や参加者との質疑応答が行われ,過去の業績や将来の見通しを知る重要な機会であると考えられる.本研究では決算説明会での発言を書き起こしたテキストデータの極性分析を行い,財務データや株価との関係を明らかにした.財務データが決算説明会の極性に与える影響を評価するため,売上高や利益率と極性の相関を分析した.次に決算説明会と株価リターンの関係をイベントスタディと回帰分析で検証した.その際,市場全体の影響を取り除くためFama-French 3ファクターモデルによって計算した株価の異常リターンを用いた.結果,イベントスタディから短期の異常リターンと極性との関係が明らかになった.特に質問・回答部分は付与された極性の割合が小さいにもかかわらず,それらの極性の違いが異常リターンの差につながった.ここから質疑応答は業績に関する重要な情報を持つことがうかがえる.これを踏まえて,異常リターンに最適化した極性指標の構成を試みた.最適化された極性指標は全体の極性より大きな異常リターンに繋がる可能性が示唆された.

(本論文は第59回2023年度夏季JAFEE大会(成城大学)での発表を発展させた内容を含む.)

1 はじめに

企業活動や市場を理解するため様々なデータの分析が試みられてきた.近年では膨大なテキストデータの分析において自然言語処理技術の活用が進んでいる.特に市場の状況や企業の業績などを定量化する試みとして文章の極性分析が利用されている.極性分析とは,特定の観点に基づいたスコア(極性)を文章に対して計算する手法である.例えば,新聞記事の表現に対して企業業績の観点からポジティブ・ネガティブを判定する研究が行われてきた[1].極性の計算には,辞書を利用する方法[2]や機械学習モデルを利用する方法[3]などがある.近年では大規模言語モデルのBERT[4]を使った極性分類が研究されている[5][6].このように極性を数値計算することで,人手では時間がかかる大規模なテキストデータの統計的な分析が可能となる.国内の金融経済に関連する極性の研究として,新聞記事に対する分析[1],ニュースに対する分析[7],アナリストレポートに対する分析[8][9],決算短信の分析[10][11],決算説明会の分析[12][13]などがある.

本研究では決算説明会に注目して極性分析を行った.一般的な決算説明会では,経営者が業績に関するプレゼンテーションを行い,参加アナリストからの質問に回答する.質疑応答では参加アナリストの専門的な視点での質問に対して企業からの追加的な説明が回答される.対話的な情報交換を含むことが,有価証券報告書や決算短信にはない決算説明会の特徴の一つである.このように決算説明会は企業の過去の業績や将来の見通しを知る重要な機会であり,その情報について研究が行なわれてきた.関連する研究として,[12]では決算説明会のテキストデータを対象に金融ドメインに特化した極性辞書[14]による分析を行っている.同分析では決算説明会を説明セクションと質疑応答セクションの二つに分けてイベントスタディを行い,極性が株価の収益率と関係することを示した.また決算説明会の音声データに着目した研究[13]では,経営者の感情に関する特性と企業の業績との関連が指摘されている.

表1 分析対象の要約統計量

企業数 平均値 標準偏差 第一四分位数 中央値 第三四分位数
対数時価総額 [円] 482       25.3     2.1            23.7                 25.2     26.7
表2 分析対象の業種分布

業種 企業数 比率 [%] 業種 企業数 比率 [%]
情報通信・サービスその他
電機・精密
小売
商社・卸売
素材・化学
食品
不動産
建設・資材
機械
173
40
37
32
31
27
20
19
19
35.9
8.3
7.7
6.6
6.4
5.6
4.1
3.9
3.9
自動車・輸送機
医薬品
鉄鋼・非鉄
金融(除く銀行)
運輸・物流
銀行
電力・ガス
エネルギー資源
19
18
14
13
8
7
4
1
3.9
3.7
2.9
2.7
1.7
1.5
0.8
0.2

本研究でも決算説明会のテキストデータが持つ極性を分析した.先行研究と比べた時の本研究の特徴は以下の点である.第一に,極性の計算にBERTを利用することで,決算説明会の質疑応答を含めた様々な文に対して柔軟に極性を計算することを試みた.第二に,極性の分析では決算説明会を説明部分・質問部分・回答部分の3つに分割し,それぞれに対して極性の傾向を分析した.質問部分と回答部分を分けることで,質疑応答での発言に関するアナリストと経営者の極性を区別して分析することができるようになった.第三に,売上高などの財務指標と極性との相関を分析し,極性に含まれる財務データの影響を評価した.第四に,得られた極性を組み合わせることで株価リターンに最適化した極性指標の構築を試みた.イベントスタディや回帰分析で極性と株価の関係を分析し,それを踏まえて部分ごとの極性を組み合わせることで異常リターンに対する最適化を行った.以上の分析により,決算説明会のテキストデータが持つ情報を明らかにすることが本研究の目的である.

分析にはSCRIPTS Asia株式会社が提供する,決算説明会での発言を書き起こしたテキストデータを用いた.4年分(2019年~2022年)の決算説明会の中から,分析に必要な条件を満たすイベントを抽出した.極性と財務データの関係を分析するため,決算短信の発表から15日以内に行われた決算説明会を用いた.また株価の分析のため,決算説明会の250営業日前から60営業日後までの株価が取得でき,説明部分・質問部分・回答部分の3つを持つイベントを対象にした.後述の分析で利用する財務データが取得できない企業のイベントは除いた.以上の条件で抽出できた2542件(482社)の決算説明会のデータを用いて分析を行った.対象となる482社について企業の規模と業種の分布は以下の通りである.自然対数による時価総額の要約統計量を表1に,TOPIX17業種分類に基づく業種の分布を表2に示した.それぞれ,分析期間中の最も新しい決算説明会に対応する時期の値を用いた.

本論文は以下のように構成される.2章では極性の計算方法を説明する.その方法に沿って3章では決算説明会の部分ごとの極性を計算し財務データとの相関を分析する.4章では極性と株価との関係を分析する.極性以外の影響を除くため,Fama-French 3ファクターモデルに基づいて異常リターンを導入し,イベントスタディを行った.その結果を踏まえて,5章では異常リターンに対して最適化した極性指標の作成を試みる.最後に6章で本研究の結論を述べる.

2 BERTによる極性の計算

決算説明会の書き起こしテキストに対する極性の計算方法を以下では説明する.極性の計算には辞書[2][14][15][16][17]や機械学習モデル[3][8][18][19]を利用する方法が知られている.

表3 追加訓練時のハイパーパラメーター

leaning rate batch size warmup steps weight decay
5×10-5 16 100 0.01
表4 chABSA-datasetでのBERTの評価

分類対象 件数 TN FP FN TP PRECISION RECALL F1 WEIGHTED-F1
ポジティブ 611 386 12 9 204 0.94 0.96 0.95 0.97
ネガティブ 611 423 10 11 167 0.94 0.94 0.94 0.97

本研究では事前学習済みBERTに対して極性分類の追加学習を行った.事前学習済みモデルとして金融分野に特化したモデルを利用した[20]*.このモデルは2019年9月1日時点の日本語Wikipediaのデータで事前学習されたモデルを元に,2020年12月31日までの金融関連テキストによる追加事前学習によって作成された.

次に,事前学習モデルに対して以下の追加学習を行った.極性分類のための学習データとして,TIS株式会社が公開しているchABSA-datasetを利用した.chABSA-datasetは2016年度の有価証券報告書のデータに基づいて作成されている.データセットでは,文中の単語に対して売り上げなどの観点からポジティブ・ネガティブを分類したラベルが記載されている.文単位での極性を評価するためにchABSA-datasetの各文に対してポジティブ(ネガティブ)な単語を含むか否かを判定する二値分類のラベルをそれぞれ作成した.これらのラベルに基づいて,ポジティブ・ネガティブを判定するBERTを別々に追加学習した.

追加学習ではBERTが持つパラメーターの内,追加した二値分類器と最終層の重みを調整した.chABSA-datasetに含まれる文を8:1:1に分けてそれぞれ訓練・評価・テスト用データに用いた.表3に追加学習で用いたハイパーパラメーターを示す.評価用データのLossが最小になったエポックでの重みを最終的な分類モデルとして採用した.テストデータによる性能評価の結果を表4に示す.表ではポジティブ(ネガティブ)に該当する文を正例として混同行列による評価を行った.ポジティブ,ネガティブそれぞれの分類タスクでF1値は0.95, 0.94となった.また,評価データに含まれるポジティブ(ネガティブ)文の比率は均等ではないため,正例・負例を入れ替えてラベル数で加重平均を取ったF1値(WEIGHTED-F1)を評価した.WEIGHTED-F1はどちらの場合でも0.96を超えることが確かめられた.以降の分析では,この分類モデルを用いて極性を評価する.

3 決算説明会の極性

決算説明会では通常,経営者による業績の説明が行われた後に参加アナリストとの質疑応答の時間が設けられる.質疑応答ではアナリストの質問に答えるために説明部分にはない情報が含まれる可能性がある.本研究ではこれらの情報を区別するために決算説明会を次の3つの部分に分割した.決算説明会のテキストデータから司会進行に関わる文を除外し,企業からの説明部分('presentation'),アナリストからの質問部分('question'),質問に対する回答部分('answer')の3つに分割する.

  
di,presentation,   di,question,  di, answer ,(1)

di,partは決算説明会iのpart部分に含まれる文の集合を表す.本研究で分析した決算説明会に含まれる平均的な文数は説明部分が約159文,質問部分が約62文,回答部分が約99文であった.

これらの文に対してBERTを用いて極性を判定する.決算説明会の各部分di,partに対して,ポジティブ・ネガティブと判定された文の個数をそれぞれMpositive(di,part)Mnegative(di,part)で表す.各部分に含まれる文の個数をN(di,part)としたとき,ポジティブ・ネガティブ文の比率は以下のように書ける.

図1 決算説明会の文に対して極性が付与された割合.各期間(四半期)に発表された決算説明会に対してポジティブ・ネガティブの極性が付与された文の割合を平均化した値を表している.
  
Mpositive(di,part)N(di,part) ,  Mnegative(di,part)N(di,part)  .(2)

これらの比率は決算説明会の内容が業績について好意的か否定的かを表すと期待される.極性の平均的な傾向を確かめるため,平均化した比率を図1に示す.横軸は時期を表しており,時期による比率の違いは市場全体の景気などが影響していると考えられる.企業側からの発言(説明部分・回答部分)に比べて,アナリストからの発言(質問部分)はネガティブな極性の割合が高い傾向がある.これはアナリストが業績に対して厳しい視点で質問を行なっているためであると考えられる.同様の傾向は,[12]でも質疑応答部分に対して指摘されている

付与された極性の比率について,説明部分の10%程度に対して質問部分と回答部分は数%程度と大きな差がある.これは決算説明会の各部分で言及される内容の違いに起因すると考えられる.説明部分では直接的な表現で企業の業績に言及することが多い一方,質疑応答では業績に影響を与えた要因が様々な観点で表現される.そのため,有価証券報告書に基づいて追加学習を行ったBERTでは質疑応答部分の情報を十分に捉え切れなかった可能性がある.更に,説明部分と違い質疑応答では対話的に情報交換が行われるため,文体の違いが極性の判定に影響した可能性も考えられる.ただし,少ない割合ながらも極性が付与された文にはアナリストからの注目度が高い重要な業績の情報が含まれている可能性がある.後に株価リターンとの関係を用いてこの可能性を検証する.

次に,決算説明会の各部分di,partに対する極性を,ポジティブな文の比率とネガティブな文の比率の差として定義する.

  
Sdi,part= Mpositivedi,part-Mnegativedi,partNdi,part .(3)

以降では,Sdi,partを決算説明会の極性と呼ぶ.

Sdi,partの統計的な性質を評価する.最初に,それぞれの部分が持つ極性の間の相関を分析する.各部分の極性の間でのスピアマンの順位相関係数を表5に示す.∗記号はp値が0.01以下であることを意味する.各部分の極性は相関係数の大きさは0.10.3程度と弱いが有意な相関を持つ.市場の状況や企業の業績といった共通の要因が各部分の内容に一定程度反映されているため,相関が生じたと考えられる.

次に,各部分の極性と財務データとの関係を分析する.財務データは決算短信から読み取ることができる.決算短信は決算説明会の前に公表されるため,決算説明会の極性がある程度予測できる可能性がある.例えば,決算短信で売上高の増加が読み取れる場合,対応する内容が決算説明会でも言及されて極性に正の影響を与えると考えられる.そこで,決算説明会の極性と財務データを比較することで,決算説明会が持つ非数値的な情報の価値を分析する.ただし,本研究では決算短信に含まれる数値データを網羅的に調べることはせず,いくつかの代表的な財務データとの関係を分析する.

表5 各部分が持つ極性間でのスピアマンの順位相関係数(*p<0.01)

質問部分 回答部分
説明部分 0.13* 0.26*
質問部分 1.00 0.16*
表6 財務指標と極性のスピアマンの順位相関係数(*p<0.01)

利益率の変化幅 (Fmargin,i) 売上高の変化率 (Fsales,i)
説明部分 0.32* 0.40*
質問部分 0.10* 0.09*
回答部分 0.13* 0.10*

財務データの中でも代表的な指標として売上高と利益率に注目する.企業ごとの規模の違いや水準の違いの影響を減らすため,以下のように指標を作成した.SalesiOperationIncomeiをそれぞれ決算説明会 iが対象とする四半期における一か月あたりの売上高と営業利益としたとき,以下の指標を定義する.

  
Fsales,i = SalesiSalesi* -1 ,(4)
  
Fmargin,i= OperationIncomeiSalesi -OperationIncomei*Salesi*   .(5)

ここで,∗は前年同四半期での数値を表す.Fsales,iは売上高の変化率(前年同期比)を表し,Fmargin,iは売上高営業利益率の変化幅(前年同期差)を表している.決算説明会ごとに対応する時期のFsales,iFmargin,iをそれぞれ計算し,上下1パーセントの外れ値を上下1パーセンタイル値へ置換した(ウィンソライズ処理).

財務指標と極性の相関をスピアマンの順位相関係数で計算した結果を表6に示す.どの部分においても,極性は売上高や利益率と有意な相関を持つことがわかる.特に,説明部分は質問・回答部分に比べて大きな相関を持っている.これは,説明部分では財務指標について直接的に言及するためであると考えられる.一方で,質疑応答部分の相関係数は説明部分に比べて小さく,財務情報以外への言及が多いと示唆される.

4 株価と極性の関係

次に,極性と株価の関係を分析する.企業の業績を反映して極性と株価は相関を持つと期待される.具体的には,企業の業績が良い場合に決算説明会の極性はポジティブになり,決算説明会の前後で企業の株価リターンも上昇すると考えられる.逆にネガティブな場合は,株価リターンは低下すると考えられる.このような極性と株価の関係を分析するため,以下では異常リターンを用いたイベントスタディを行う.

4.1 ファクターモデル

異常リターンを計算するため,本研究ではFama-French 3ファクターモデルを用いて株価の期待リターンを推定する.ファクターモデルは[21]を参考に構成した.ファクターの計算は,東証プライム・スタンダード(2022年4月以前は東証一部・二部)上場銘柄を対象とする.リスクフリーレート(Rf,t)として10年物長期国債を用いる.8月末の営業日を基準に銘柄を分類し,マーケットファクター(Rm,t),SMBファクター(SMBt),HMLファクター(HMLt)を日次で計算する.

このファクターを用いて株価のファクターエクスポージャーを計算した.ある企業が決算説明会iを行ったとき,その企業の株価の日次リターンを Ritと表す.開催日を基準日(t=0 day)とし,株価は終値で計算する.以下の式を用いて各決算説明会に対応する銘柄のファクターエクスポージャーを推定した.

図2 決算説明会の極性とファクターモデルの係数の相関.縦軸は決算説明会の開催日を基準とした推定ウィンドウを表す.横軸は極性と係数の間のスピアマンの順位相関係数を表す.4つの図はファクターモデルの各係数に対応する.係数との相関が有意(p<0.01)となった期間を三角で表している.
  
Rit-Rf,i=αi+βm.iRm,t-Rf,t+βs,iSMBt+βh,iHMLt+ϵit .(6)

ここでαiは定数項,βm.i, βs,i, βh,iはそれぞれのファクターのエクスポージャー,ϵitは誤差項を表す.この式をtに関して回帰分析することで,それぞれの係数を推定した.

係数を推定するためには推定ウィンドウを選ぶ必要がある.推定ウィンドウにおける株価と極性の相関に注意が必要である.極性は過去の業績を反映するため,決算説明会前の株価の動きと極性は相関を持つと考えられる.その場合,期待リターンと極性も相関を持ち,異常リターンの分析に影響する可能性がある.

ファクターモデルと極性の相関を以下のように分析した.決算説明会の前後の期間を60営業日ごとに分割し,それらを推定ウィンドウとしてファクターモデルの係数を推定した.このように得られた係数と極性の相関をスピアマンの順位相関係数で評価した.ただし,決算説明会前後の十分広い期間の株価を取得するため,この分析では2019年から2021年の3年間の決算説明会の中から,開催日の−490営業日から370営業日までの株価が取得できたイベントのみを対象としている.評価結果を図2に示す.三角で示される点は極性との相関が有意(p<0.01)となった期間を表している.αiは決算説明会の直前の1年間で説明部分の極性と弱い正の相関を持つことがわかる.この相関の原因は決算説明会で主に過去の業績が言及されるためであると考えられる.一方,質問・回答部分では幅広い内容が議論されるため,説明部分よりも相対的に過去の株価との相関が低いと考えられる.また,βm.i, βs,i, βh,iも極性と相関を持つ場合がある.以降のイベントスタディでは過去の株価と極性の相関が与える影響を再度議論する.

4.2 イベントスタディ

イベントスタディによって株価と極性の関係を分析する.分析は[11][12][22]を参考に極性が良い(悪い)グループの異常リターンの検定を行った.株価に影響を持ちうる要因を取り除くため,株価リターンから4.1章で議論したファクターモデルによって推定されるリターン(期待リターン)を除いた差(異常リターン)を対象に分析を行う.決算説明会iに対応する株価の異常リターンを次で定義する.

  
ARi,t=Rit-Rf,t+α^i+β^m.iRm,t-Rf,t+β^s,iSMBt+β^h,iHMLt.(7)

括弧内の式はファクターモデルにより計算された期待リターンである.α^iβ^x.i(x=m,s,h)は推定値であり,推定ウィンドウは決算説明会の250営業日前から11営業日前までの計240営業日とした.イベントが株価に影響を持たないという帰無仮説において,異常リターンは期待値が0で推定ウィンドウにおける誤差項ϵitと同じ分散を持つ正規分布に従うと仮定する.ϵitの分散は次の式で表される.

  
σi2=1240-4t=-250-11ARi,t2 .(8)

また,期間 t=t1t2の間での累積異常リターンを以下の式で定義する.

  
CARi,t1,t2=t=t1t2ARi,t .(9)

最初に,決算説明会の業績が良かった(悪かった)イベントの平均的な株価の推移を分析する.極性の値が上位20%(下位20%)となった決算説明会の集合をU(D)と定義する.Uに含まれるイベント全体で平均化した異常リターンと累積異常リターンは以下のように表される.

  
AR¯U,t=1NUiUARi,t ,   CAR¯U,t1,t2=1NUiUCARi,t1,t2 .(10)

ここで,NUは集合Uに含まれるイベント数である.AR¯U,tは決算説明会の極性がポジティブであった企業の平均的な異常リターンを表す.それぞれのイベントの株価に相関がないと仮定したとき,分散は次のように計算される.

  
varAR¯U,t=1NU2iUσi2 ,   varCAR¯U,t1,t2=t2-t1+1NU2iUσi2 .(11)

後者の式では,誤差項に時系列相関がないと仮定した.以上の式からt値を次で定義する.

  
tAR¯U,t=AR¯U,tvarAR¯U,t,   tCAR¯U,t1,t2=CAR¯U,t1,t2varCAR¯U,t1,t2.(12)

同様に集合Dに対してもAR¯D,tCAR¯D,t1,t2を定義する.以下では集合UDを定義する際に,決算説明会の各部分の極性Sdi,partをそれぞれ用いて分析を行う.イベント数が十分多いことから平均化した異常リターンと累積異常リターンが正規分布に従うと仮定し,帰無仮説の検定を行う.

図3 極性の値が上位・下位20%に属する決算説明会の累積異常リターンの平均値の推移.Uが上位20%,Dが下位20%のグループを意味する.破線,点線,実線はそれぞれCAR¯U,0,tCAR¯D,0,t, CAR¯U,0,t-CAR¯D,0,tを表している.線の色は極性を計算した決算説明会の各部分を指す.対象の決算説明会は,左図では4年分,右図では2022年のみを分析した.
表7 決算説明会での各部分の極性が上位・下位20%のグループ(UD)に対する異常リターンのt値.異常リターンの平均が正規分布に従うと仮定し,*,**,***はそれぞれ10%,5%,1%の有意水準を表す.

説明部分,U 説明部分,D 質問部分,U 質問部分,D 回答部分,U 回答部分,D
0 4.72*** -4.81*** 4.58*** -3.60*** 0.49 -2.21**
1 8.03*** -8.22*** 6.01*** -8.33*** 8.12*** -11.67***
2 -0.74 -0.44 -2.60*** -1.06 -0.51 -1.74*
3 -1.30 -1.08 1.05 -1.02 -0.95 0.76
4 1.73* -1.65* -1.47 1.45 -0.17 -1.38
5 -0.39 -0.59 0.83 0.08 -0.44 0.03
6 -1.06 -0.08 -0.92 -1.91* -0.08 0.49
7 -2.19** 0.40 -1.75* -0.17 -2.07** 1.13
8 -1.43 -0.76 0.35 -1.19 -0.29 0.90
9 -1.68* -0.60 -1.34 -0.86 0.42 -1.04
表8 累積異常リターンのt値.記号は表7と同様の有意水準を表す.

説明部分,U 説明部分,D 質問部分,U 質問部分,D 回答部分,U 回答部分,D
(1,10) 0.15 -4.17*** -0.04 -3.78*** 1.55 -3.74***
(11,30) -0.37 1.77* -0.24 -0.44 -0.64 0.56
(31,60) -0.42 3.72*** -0.29 -0.01 -0.14 1.22

決算説明会前後の累積異常リターンを図3に示す.破線,点線,実線はそれぞれCAR¯U,0,tCAR¯D,0,t, CAR¯U,0,t-CAR¯D,0,tであり,それぞれ決算説明会の内容がポジティブなグループ,ネガティブなグループ,およびそれらの差を表している.累積異常リターンは決算説明会の前日を基準に計算している.色の違いは極性の計算に用いた決算説明会の3つの部分を表している.また,イベントの影響がないという帰無仮説に対する検定の結果を表7表8に示す.表中の*,**,***はそれぞれ10%,5%,1%の有意水準を表す.決算説明会から数日間は,決算説明会の内容がポジティブであったグループ(破線)はリターンが正となる傾向を持ち,ネガティブなグループ(点線)は負のリターンを持つ傾向がわかる.これは,業績が良ければ株価も極性も良くなるためであると解釈できる.同様の傾向は決算短信の分析でも知られている[11].また決算説明会のどの部分の極性でも同様の変化が見られており,質疑応答部分でも株価と関連する内容が言及されていることが示唆される.ここから,決算説明会で得られた情報は5日程度の短い期間で株価に反映されると考えられる.

一方,決算説明会から5日目以降では,異常リターンは短期とは異なる傾向を持つ.特に説明部分の極性について,図3表8に示されるように極性が悪いほど株価が上昇している.この原因として決算説明会後の投資行動の影響が考えられる.例えば,先行研究[12]では質疑応答での厳しい視点が投資家の納得感に繋がり,追加的な収益の源泉となる可能性が議論されている.別の要因として,株価リターンのリバーサルが影響した可能性が考えられる.リバーサルとは過去の期間でリターンが高い(低い)銘柄はその後のリターンが低く(高く)なる現象であり,日本の株式市場では1カ月程度の短期間でもリバーサルが発生することが知られている[23].極性が良い決算説明会を行ったグループは,決算説明会前や直後の期間で高いリターンを持つ傾向があるため,リバーサルにより長期的な異常リターンが低下する傾向を持ったと解釈することができる.この場合,質問部分でこの効果が相対的に少ない理由は,4.1章で見たように質問部分の極性と過去のリターンの相関が低いからであると考えられる.

以降では,決算説明会の当日から5日以内で観測された短期的な異常リターンについて分析を行う.この際,長期的な異常リターンに影響した要因は,短期的な異常リターンの分析の結論に影響しないと期待される.なぜなら,長期的な傾向は短期的な傾向とは逆向きに働くため,長期的な要因の寄与は短期の異常リターンの変化をより厳しく評価することにつながるからである.

4.3 回帰分析

イベントスタディでは極性が短期の株価の動きに影響することを確かめた.次に,決算説明会の極性と異常リターンの関係を回帰分析により比較する.3章で見たように,各部分の極性は別の部分の極性や財務情報と弱い相関を持つ.回帰分析を行うことにより,極性が株価に与える影響を定量的に評価する.

決算説明会の短期的な影響を分析する際には基準日の定義に注意が必要となる.例えば,決算説明会より前に公開された決算短信の内容は事前に株価に反映されることになる.逆に,決算説明会が証券取引所の終了後に行なわれた場合は,その影響が翌日の株価に反映されることになる.これらの要因によって,決算に関連する影響が株価に反映される時期は前後する可能性がある.本研究では決算説明会後に注目し,決算説明会の当日から5日以内の累積異常リターン(CARi,0,4)に関する分析を行う.株価と極性の関係を調べるため,決算説明会に対して次の回帰分析を行う.

  
CARi,0,4=α+βpresentationSdi,presentation+βquestionSdi,question+βanswerSdi,answer+βsalesFsales,i+βmarginFmargin,i+βlnMVEFlnMVE,i+βPBRFPBR,i+sγsBi,s+yγy'Bi,y+ϵi(13)

αは定数項,ϵiは残差項を表す.βpartは各部分の極性に対応する回帰係数であり,βsalesβmarginは売り上げと利益率に対応する回帰係数である.また,業種と年次による影響を除くため,ダミー変数としてBi,sBi,yを導入した.添え字のsはTOPIX17業種分類を表し,yは年次(2019年~2022年)を表す.γsγy'はそれぞれダミー変数に対応する回帰係数である.更にコントロール変数として,直前の決算発表日での時価総額の自然対数とPBRをそれぞれFlnMVE,i, FPBR,iとして,対応する回帰係数をβlnMVE,  βPBRで表す[11] [24].FlnMVE,iFPBR,iは他の財務指標と同様にウィンソライズ処理を施した.

分析対象のすべての決算説明会に対して式(13)で回帰分析した結果を表9に示す.説明部分,質問部分,回答部分のそれぞれで回帰係数のt値が2を超えていることがわかる.また回帰係数は質問部分と回答部分の方が説明部分よりも大きい.これは,質疑応答部分の文には極性が付与される割合が低いが,企業業績の観点からは重要な内容が言及されるためであると考えられる.また,利益率や売上高といった財務情報と同時に回帰した場合でも,極性は短期の異常リターンに影響することが分かった.よって,売上高や利益率の数値情報だけでは捉えきれない企業業績の情報が極性に含まれていることを示唆している.決算説明会の年度を2022年に限った場合では,全期間を使った場合に比べてサンプル数が減っており統計的な有意性は低下しているものの同様の傾向がみられる.

表9 決算説明会の極性と累積異常リターンの回帰係数.*,**,***はそれぞれ10%,5%,1%の有意水準を表す.

 2019年~2022年2022年のみ

回帰係数 t 値 回帰係数 t 値
定数項
極性 (説明部分)
極性 (質問部分)
極性 (回答部分)
利益率の変化幅
売上高の変化率
対数時価総額
PBR
0.14
6.55
18.65
14.10
7.73
1.84
-0.11
-0.03
0.03
3.60***
2.38**
2.64***
4.09***
2.24**
-1.24
-0.56
定数項
極性 (説明部分)
極性 (質問部分)
極性 (回答部分)
利益率の変化幅
売上高の変化率
対数時価総額
PBR
4.31
6.67
7.65
18.26
9.51
1.60
-0.15
-0.01
2.10**
2.23**
0.70
2.47**
3.25***
1.34
-1.02
-0.15

イベントスタディと回帰分析では,BERTの学習データと分析対象の時期が一部で重複している問題を考慮した.極性分類に用いたBERTは2020年までの情報を使って事前学習を行っている.一方,分析対象は2019年から2022年までの決算説明会であり,一部のデータは事前学習と時期が重複している.学習データと評価データに重複がある場合,機械学習モデルの性能は過剰に評価されてしまう恐れがある.本研究では極性を取り扱うため,直接的に学習データに極性分類の結果が含まれるとは考えにくいが,語彙の意味の変化を通じて間接的に極性分類に影響する可能性が考えられる.このような時期の重複の影響を評価するため,モデルの学習データと時期が重複しない2022年の決算説明会のみを用いた分析結果を表9図3に示した.全ての年度を用いた場合と比較して,定性的に同様な傾向を持つことがわかる.ここから,データの時期の重複は分析結果に大きく影響しないと考えられる.

5 極性指標の最適化

決算説明会の各部分が持つ極性はそれぞれ異なる傾向を持ち,異常リターンとの回帰係数も異なる値を取ることが分かった.これらの傾向の違いを利用して,各部分の極性を組み合わせた指標を構成し,企業の業績をより良く反映できるか検証を行う.決算説明会を前半(2019年,2020年)と後半(2021年,2022年)に分け,前半で極性指標の最適化を行い,後半で指標の評価を行う.

各部分の極性を組み合わせた指標として次の2つを用いた.一つ目の指標として,司会進行を除いた決算説明会のテキスト全体に対して式(3)で計算した極性を全体スコアと定義する.二つ目の指標として,決算説明会の各部分の極性に重みを付けて足し合わせた値を最適スコアと定義する.最適スコアの重みづけは,以下の回帰分析によって決定する.

  
CARi,0,4=α+βpresentationSdi,presentation+βquestionSdi,question +βanswerSdi,answer+ϵi(14)

αは定数項,各βは各部分ごとの極性に対する回帰係数,ϵiは残差項を表す.2019年と2020年の決算説明会を用いて,最適スコアの係数を最小二乗法により決定した.

  
β^presentation9.1,  β^question29.1,  β^answer6.0 .(15)

これらの係数を式(14)の右辺に代入し,ϵi=0と置いたものを最適スコアと定義する.全体スコアでは各部分の極性が同等に取り扱われるが,最適スコアでは特定の部分の極性が重視される.

図4 極性が良い決算説明会と悪い決算説明会の累積異常リターンの差.各スコアに対して累積異常リターンの差(CAR¯U,0,t-CAR¯D,0,t)を計算した.線の種類は計算に用いた極性指標の違いを表す.左図は2021年,右図は2022年の決算説明会を対象としている.

最適スコアを評価するため,2021年と2022年の決算説明会に対して各指標を計算し,異常リターンとの関係を比較する.4.2章と同様に,最適スコア・全体スコア・説明部分の極性それぞれが上位・下位20%の決算説明会をグループに分けて,各グループの平均的な異常リターンを計算した.それぞれのグループの累積異常リターンの差(CAR¯U,0,t-CAR¯D,0,t)を図4に示す.累積異常リターンの差が大きいほど,極性指標が企業の業績を反映していると考えられる.図より最適スコアを用いた場合の累積異常リターンの差は,他の二つのスコアに比べてわずかに大きくなっている.これは最適スコアが業績の株価への影響をより適切に反映しているからであると考えられる.このことから極性による株価変動の分析に最適スコアが有効である可能性が示唆された.ただし,最適化手法の評価を十分行うためにはより長い期間での検証が必要であり,他の指標と比較の上で統計的な有意性を評価することは今後の課題である.

6 議論と結論

本研究では決算説明会が持つ情報と株価との関係をテキストデータの極性分析により明らかにした.決算説明会の書き起こしテキストデータを説明,質問,回答の3つの部分に分け,それぞれの内容の極性を評価した.極性の評価には有価証券報告書の業績に関する極性で追加学習したBERTを用いた.SCRIPTS Asia株式会社が提供する決算説明会のテキストデータから,対象期間の株価と財務データが取得できるイベントを抽出して分析を行った.表5表6より,各部分の極性が弱い相関を持つこと,売上高や利益率といった財務指標と相関を持つことを明らかにした.次に決算説明会と株価リターンの関係をイベントスタディで検証した.市場全体の影響を取り除くため,Fama-French 3ファクターモデルを用いて期待リターンの影響を除いた異常リターンに対して分析を行った.図3より決算説明会の極性が良かったグループは悪かったグループの平均的な異常リターンを短期的に超過する傾向が得られた.特に質問・回答部分は付与された極性の割合が小さいにもかかわらず,それらの極性の違いが異常リターンの差につながった.ここから質疑応答は業績に関する重要な情報を持つことがうかがえる.

更に,極性の傾向の違いを分析するため,株価リターンと各部分の極性の関係を回帰分析により調べた.コントロール変数として,年次,業種,売上高の変化率,利益率の変動幅を導入することで,極性の影響のみに注目した.2019年から2022年までの4年分の決算説明会を分析した結果,表9より決算説明会の各部分が持つ極性は短期の累積異常リターンに対して有意な正の回帰係数を持つことが分かった.

最後に,株価に対する極性指標の最適化を試みた.決算説明会のデータを2019年から2020年までと2021年から2022年までの二つの時期に分け,前半で指標を最適化し,後半で指標を評価した.前半の時期で短期の異常リターンを最適化するような極性の加重和を計算した.最適化した極性指標では質問部分の極性が重視されることが分かった.後半の時期で最適化した極性指標と異常リターンとの関係を検証した.図4に示すように,2021年と2022年では最適化された極性指標を使うことで全体の極性よりも大きな異常リターンの差が得られた.よって,決算説明会の各部分の極性を適切に組み合わせることで企業の業績をより反映した指標が作成できる可能性が示唆された.

Footnotes

* https://huggingface.co/izumi-lab/bert-base-japanese-fin-additional

† https://huggingface.co/cl-tohoku/bert-base-japanese

‡ https://github.com/chakki-works/chABSA-dataset

参考文献
 
© 2024 The Japanese Association of Financial Econometrics and Engineering
feedback
Top