Towards Earnings Call and Stock Price Movement
Towards Earnings Call and Stock Price Movement
阅读笔记|2022-4-7|最后更新: 2023-1-27
 
type
Post
status
Published
date
Apr 7, 2022
summary
本文通过利用自然语言处理(NLP)的最新进展——基于注意力机制深度学习框架,将文本数据编码为向量并对语言进行建模,利用电话会议记录预测未来的股票价格走势
tags
paper summary
Machine Learning
category
阅读笔记
password
slug
icon
  • KDD 2020 MLF workshop
  • Zhiqiang Ma, Grace Bang, Chong Wang, Xiaomo Liu(Aug 2020)

What are the Research Questions?

电话会议是由上市公司的管理层主持,与分析师和投资者讨论公司的财务业绩。电话会议期间披露的信息是分析师和投资者做出投资决策的重要数据来源。
在过去的几十年里,已经有大量利用统计学模型和机器学习模型对股票市场运动的研究。然而,鉴于股票价格有可能遵循随机漫步的规律,直接预测未来的股票价格可能是不明智的,因此,研究人员提出了预测股票的方向性运动和它们的波动水平(见原文引用文献)。
股票市场价格是由许多因素驱动的,包括新闻、市场情绪和公司财务业绩。使用新闻和社交媒体的市场情绪来预测股票价格走势,以前已经有研究,然而电话会议还没有被广泛地研究用来预测股价的变化(电话会议包括Presentation和问答两部分部分,本文关注问答部分)
 
本文通过利用自然语言处理(NLP)的最新进展——基于注意力机制深度学习框架,将文本数据编码为向量,对语言进行建模,完成利用电话会议的记录来预测未来的股票价格走势的任务(具体方法见附录)
 
 

What are the Academic Insights?

  • 使用问答环节文本对电话会议发布后一天的股价走势,预测准确率和MCC均战胜了基准方法(均值回归、xgboost),加入Presentation部分并没有提高模型结果。这个观察结果与Theil等人的结论不一致,尽管他们的工作和我们的预测目标不同,但是Presentation数据在预测股票波动率方面产生了更好的结果。
  • 模型的性能因行业而异,最高的准确性(56.8%)出现在信息技术行业,最低的准确性(48.5%)出现在能源行业。这一结果与我们对股票市场的普遍看法基本一致:一般来说,高科技公司的股价走势是由各种来源的看跌或看涨信号驱动的,而对于能源公司来说,它们的股票表现主要依赖于原油价格和宏观经济因素,而不是外部新闻和信息。
 
Why does it matter?
  • 鉴于公司业绩的不确定性,股票市场在财报公布前表现出明显较高的波动水平、交易量和价差。因此,准确识别股票价格的方向性变动,并根据收益发布情况持有相应的头寸的能力,可能会使投资者的损失降到最低,并产生更高的投资资产回报,对投资者大有好处。
  • 本文将文本信息纳入基本面分析框架,最后,作者认为在此之上可以尝试建立一种全局向量——在文本数据的基础上,将源于对历史股票价格数据的技术分析的特征也能够被吸收到预测模型中。历史股票时间序列数据可以通过RNN模型编码成另一个特征向量,这些特征向量与基本面分析的特征一起被进一步用于预测模型
 

The Most Important Chart from the Paper:

 
图1:用于学习文本特征向量的神经网络结构。输入来自电话会议问答部分的句向量,输出E则是输入的向量表示
notion image
图2:拟议的神经网络结构。输入到分类模型的是一个文本特征向量和一个行业嵌入向量的连接向量。
notion image
模型表现总结
notion image
notion image

Method:

 
假设有n家上市公司的股票 ,对于一只股票c,存在一系列的电话会议,它们分别在日期举行
我们的目标是预测股票在日的走势,(因为电话会议发生在日)
预测目标y是一个二分类变量,0(下降)或1(上升),目标是学习一个预测函数f,该函数将从电话会议T中提取的特征E和公司的行业分类I作为输入,以预测财报电话后一天的股票价格变动y。
 
Sentence Embedding
给定一个盈利电话记录T,我们提取答案序列 表示一个答案部分分割出来的句子。我们将一个句子视为一个特征,并将每个句子转化为一个密集的句向量。
为了达到这个目的,我们利用预先训练好的词向量,将一个句子l的每个token 处理成一个分布式表示向量
句向量:对一个句子中的每个单词,采用平均池化和最大池化,再拼接为一个向量。为了降低计算的复杂性,我们不允许单词嵌入层是可训练的或微调的
 
另一种流行的表示句子的方法是采用RNN将整个句子编码到最后一个递归单元的隐藏状态向量中[22]。Sentence encoders[2, 4]也可以用在这里,我们把它们留给未来的探索。
 
Sentence Attention
毋庸置疑,对于预测股票价格走势的任务来说,有些句子传达了更多的信息,而有些则没有。
 
我们利用在机器翻译领域引入的注意力机制的想法[1]来学习句子的权重,其中权重量化了句子对最终结果的贡献
 
给定一个由N个句子组成的答案序列A,并将句子转化为嵌入向量,注意力权重α∈R 1×N被定义为所有句子的归一化分数,由一个softmax函数表示如下
其中u是一个可学习的矢量参数,b是一个可学习的偏置参数。
score函数可以根据具体的任务用其他函数来代替。关于其他评分函数的选择,请参考[1,12,23]。
通过汇总在注意力参数上加权的句子向量,电话会议回答序列可以被转化为:
Industry Embedding
公司股票价格通常跟随其所属的行业部门的趋势。
行业类别和公司部门的定义在标准上有所不同。我们在研究中选择全球行业分类标准(GICS)的定义。GICS包括11个行业部门类别,如 "能源"、"金融 "和 "医疗保健"。
行业部门是一个分类指标。在机器学习中,分类数据通常通过一热编码或序数编码进行转换,而我们创建一个嵌入层,将分类值为向量呈现,这在网络训练阶段是可以学习的。
 
Discriminative Network Structure
以上述建立的特征表征E和I为输入,最终的二元分类结果由一个判别网络计算出来。
前馈神经网络由多个隐藏层组成--批量归一化层、dropout层、ReLU激活层和线性层
 
其他数据处理细节
  • 在实验中,我们把每家公司最近的五份电话会议作为测试数据集(共2425个观测值)其他的都被用作训练和验证数据集
  • 请注意,各公司在每个报告季度的不同日期召开电话会议,设定一个截止日期来分割数据集是不合理的。我们将Answer部分分割成句子,然后将句子标记为Token(NLTK分词)
  • Token转化为嵌入向量时,一个词汇表被构建,其中停止词被排除,总频率低于四次的标记也将被忽略。
  • 通过应用预先训练好的GloVe(嵌入维度=300)将Token转化为向量。在学习句子的注意力分数时,由超过300个句子组成的回答将被截断,短于10句的会被忽略
  • 比较基准:
    • 均值回复:60日均线的均值回复
    • XGboost:使用TFIDF / LOG1P文本转为数字
  • 模型评价
    • given true positive (tp), true negative (tn), false positive (fp), and false negative (fn)
 

RELATE WORK

从新闻中提取结构化事件,然后用深度神经网络来模拟事件对股票走势的影响
 
基于层次注意的神经网络--HAN--研究近期网络新闻对股票市场的依赖性和影响
 
随着社交媒体开始报道突发新闻,研究人员发现社交媒体的帖子可以和历史股票数据一起作为输入
 
公司经营业绩的财务文件(10-K)包含来自管理层的情绪信号,可以用来预测股票回报率的波动,在他们的工作中采用了词袋特征,TFIDF和LOG1P。
 
考虑了来自财报电话记录的文本特征和财务特征(过去的波动率、市场波动率、账面市值等),预测股票收益率波动
 
 
 
PEAD.txt: Post-Earnings-Announcement Drift Using TextA Review Of the Post-Earnings-Announcement Drift