PEAD.txt: Post-Earnings-Announcement Drift Using Text
PEAD.txt: Post-Earnings-Announcement Drift Using Text
阅读笔记|2022-4-10|最后更新: 2023-1-27
 
type
Post
status
Published
date
Apr 10, 2022
summary
本文使用基于正则化逻辑文本回归的预测模型,从盈利电话文本中提取 "好消息 "和 "坏消息",预测模型是用过去的电话会议和相关的单日异常收益来动态训练的。我们记录了一个与SUE.txt相关的漂移现象,我们将其标记为PEAD.txt
tags
paper summary
Machine Learning
category
阅读笔记
password
slug
icon
  • Meursault, Vitaly and Liang, Pierre Jinghong and Routledge, Bryan R. and Scanlon, Madeline, (April 9, 2021).
 

What are the Research Questions?

美国的上市公司按季度公布收益和相关财务报表信息,当报告的收益相对于预期较高时,股票价格往往会在60多个交易日内上涨。相反,当收益较低时,价格持续下跌。这种盈利公告后的漂移现象,即PEAD,已经存在多年了。在本文提出了一个新的基于盈利电话文本的盈利意外衡量标准,这种方法没有纳入盈利数字,称为SUE.txt。本文使用基于正则化逻辑文本回归的预测模型,从盈利电话文本中提取 "好消息 "和 "坏消息",预测模型是用过去的电话会议和相关的单日异常收益来动态训练的。我们记录了一个与SUE.txt相关的漂移现象,我们将其标记为PEAD.txt
 

What are the Academic Insights?

 
  • SUE.txt产生的漂移比经典SUE大得多,加深了PEAD的困惑。在每个日历季度,PEAD.txt都要大得多,而且在增长:63个交易日的2.87% / 1.54%,126个交易日的4.61% / 2.7%,189个交易日的6.51% / 3.87%,和252个交易日的8.01% / 4.63%。且传统PEAD只在窗口的最开始阶段比较大。
  • 使用面板回归,我们发现SUE.txt和异常收益之间的关联是SUE和异常收益的两倍以上。这种关系在不同的控制措施以及公司和年度季度固定效应的规格中都持续存在。
  • 利用该模型的预测,我们构建了一个有利可图的交易策略,即做多包含最佳新闻的公司,做空拥有最差新闻的公司(五分组等权),对于2010年至2019年的样本和五分位数的投资组合,基于文本的财报后漂移(PEAD.txt)在一年内的每个日历季度都大于PEAD。基于金融情感词典中负面词汇的百分比的策略在我们的设定中没有产生α。
  • 持有期较短时,即交易日1到32天,经典的SUE价差策略以4.3 / 3.4个基点的alpha领先于SUE.txt策略。总体表现最好的策略是两者的混合,α值为5.2个基点
  • 上述组合在Fama-French五因素加动量框架(Fama and French 2015; Carhart 1997)和q5因素框架(Hou et al., 2020)中,产生的alpha是显著的。持有一个季度的PEAD.txt组合比PEAD组合产生更大的alpha。
  • 数字在公告日提供了更多的信息,但文字产生了更大的后续漂移,文本信息需要更长的时间才能被市场所接受(至少从2008年的Engelberg开始,这是一个普遍的概念)
  • SUE.txt的自相关截面存在可预测的模式,与SUE的自相关模式相似
 

Why Does it Matter?

  • 文本和数字以不同的方式压缩原始数据,并不是完全正交的,也不是完全相同的。本文的实证结果表明文本惊喜本身就能产生比收益惊喜更大的漂移
  • PEAD.txt背后的直觉与PEAD相似:有正面惊喜的公司倾向于有向上的价格漂移,而有负面惊喜的公司倾向于向下漂移。经济活动发生在现实世界中。它们涉及商品、货币和信息的流通,环境和社会因素等等,会计使用由净收入等财务数字总结这些活动,自然语言披露,如电话会议,也执行类似的总结功能。数字收益通过一个不完美的汇总统计传达了大量的原始数据。本文的基本观点是,财报电话记录被设计为嘈杂地传达同样大量的原始数据。文字和数字以不同的方式压缩原始数据,并不是完全正交的,也不是完全相同的。
  • 文本信息和收益之间更有意义的区别可能是它的形式(非结构化与结构化相比),而不是实质(客观与主观相比,语气与事实相比)
 
 

The Most Important Chart from the Papers

图1:PEAD.txt与PEAD累计异常收益对比。本文使用匹配的六个规模和账面市值组合的回报率来计算异常回报。起点是财报电话的第二天。标签对应于PEAD.txt和252个交易日的PEAD(一个日历年)。
notion image
notion image
表1:PEAD和PEAD.txt五分组异常收益统计
notion image
表2:加入控制变量后,异常收益仍然显著
notion image
表3:FF-5 + 动量模型,仍然无法解释组合异常收益
notion image

Abstract

我们构建了一个新的盈利公告意外的数字衡量标准,即标准化的意外盈利电话文本(SUE.txt),它没有明确纳入报告的盈利数值。SUE.txt产生了一个基于文本的盈利公告后漂移(PEAD.txt),比经典的PEAD更大。PEAD.txt的大小甚至在经典PEAD接近于零的最近几年也是相当大的。我们探讨了我们基于文本的经验模型,表明电话会议中内容包含了盈利数字背后公司的基本面细节。
 

Method

 
核心假设:异常回报是由公告的意外信息产生的,异常收益为零的电话会议是完全在市场预期之中。我们使用一个灵活的机器学习模型来识别与正向或负向异常回报挂钩的单个单词和两个单词,我们认为这些词是意外的,因为它们与市场的异常反应有关。
 
意外词的累积构成了SUE.txt:
累计异常收益定义为:
和经典的SUE一样,SUE.txt的正值和负值分别对应于好的和坏的盈利公告消息,零值表示没有意外的信息。直观地说,根据模型的预测,如果电话中包含许多与高收益相关的单词和短语,而与低收益相关的单词和短语很少,那么SUE.txt就是高的。
如后面的章节所示,这些词和短语是 "好消息 "或 "坏消息 "的一般标记。它们出现在讨论广泛不同内容类型的段落中,从公司财务业绩到一般经济状况。我们可以把包含新闻标记的段落看作是意外的文本,而把不包含新闻标记的段落看作是预期的文本。(these words and phrases are general markers of “good news” or “bad news.” They appear in paragraphs discussing widely varying content types, from firm financial performance to general economic conditions. We can think about segments containing the news markers as unexpected text, and the segments containing no news markers as expected text)
 
word level
训练过的模型有参数,β系数,与单个token相关,告诉我们哪些词和短语驱动模型的预测。在这种情况下,像 "改善 "和 "强大 "这样的词将模型的预测转移到高回报类别,而像 "降低 "和 "影响 "这样的词将其转移到低回报类别。该模型与文档内容互动的主要方式是通过词频(更确切地说,是作为模型X变量的标记的对数频率)。术语j的影响I被定义为:模型系数β与所有观测值的平均对数频率(mean log frequencies across)的乘积。
其中βH和βL分别是逻辑回归中预测高收益和低收益部分的系数。
 
paragraph-level
段落层面的SUE.txt(SUE.txtP)将段落中出现的词的系数与必要的对数频率调整相加。文件级别的SUE.txt是段落级别的SUE.txt值加上一个季度级别的常数之和。我们对段落级的SUE.txt定义如下:
 
其中βH和βL分别是逻辑回归中预测高收益和低收益的部分的系数,b是一个给定的n-gram之前在文档中出现的次数(我们使用这种加权,因为我们的词包模型是在对数词计数上操作的)
 

 
我们使用正则化的逻辑文本回归来预测基于收益记录文本的短期市场反应。然后,我们使用模型预测来构建一个衡量财报电话文本惊喜的标准。如果模型赋予一天的异常收益为正的高对数赔率-一天的异常收益为负的低对数赔率,我们认为财报电话具有正的SUE.txt。
我们弹性网模型,结合了L1和L2惩罚。在每个训练集中,我们进行10倍交叉验证,以找到正则化强度超参数λ的最佳值。该模型的对数形式如下。
 
 
其中,R是收益日的回报类型,分为r∈{H,F,L},高,平,低;x是预测变量的向量(词频或标准数字变量);β0r是截距;βr是回归系数的向量。
 
我们的目标变量y是单日异常收益,按以下方式分为高、平、低三类:
高:大的正异常收益(不属于平坦类别的正收益)。
平:33%的观测值最接近于零(异常收益绝对值的第一个三分位数)。训练集和测试集的分界线是基于训练集的三分位数。
低:大的负异常收益(负收益不属于持平类别)。
 
损失函数为:
 
其中,yir是一个指标变量,如果盈利通知i的单日回报率属于r类,则等于1;α是控制L1和L2正则化相对强度的混合超参数,λ是控制正则化整体强度的超参数,p是与所有类别相关的系数总数。
 
为了避免过多的下标,我们将向量βH、βF和βL的组合表示为β,而将单个系数表示为βj。α设定为0.5,在训练集上用10倍交叉验证法选择λ。
 
例子:
notion image
第一段是模板,模型正确地识别了这一点,因为没有任何词语与之相关的系数为非零。在第二段中,管理层正在传达积极的消息,这被模型正确识别。这一段的SUE.txt很高,而且是正面的,主要是因为 "强大 "这个词被使用了两次,在这种情况下,在销售的背景下。第一次的系数是100%,因为它是本段中最大的系数,第二次出现strong这个词的时候,系数就比较小了,因为我们的模型是在对数词的基础上运行的(所有其他的系数都是相对于 "strong "这个词的第一次出现而缩放的)
Predicting Returns with Text DataTowards Earnings Call and Stock Price Movement