Listening to Chaotic Whispers
type
Post
status
Published
date
Feb 6, 2023
summary
本文用连续的上下文内容、多样化信息、高效学习建立了机器学习模型预测股票未来走势
tags
paper summary
Machine Learning
category
阅读笔记
password
slug
icon
XRR: Explainable Risk Ranking for Financial Reports摘要介绍定义问题公式及定义事件后收益波动可解释的多层模型架构多层Attention机制Pairwise Deep Ranking实验数据说明实验设置预训练词向量对比模型实验结果细粒度分析不同代理变量情绪分析1 Listening to Chaotic Whispers :A Deep Learning Framework for News-oriented Stock Trend PredictionWhat are the Research Questions?What are the Academic Insights?The Most Important Chart from the Paper:MethodRELATE WORK2 Stock Embeddings Acquired from News Articles and Price History, and an Application to Portfolio Optimization
XRR: Explainable Risk Ranking for Financial Reports
摘要
本文提出一种可解释风险排序(XRR)模型,利用多级编码器和注意力机制分析公司间的财务风险。具体而言,所提出的方法利用财务报告中的文本信息对公司之间的相对风险进行排名,并定位高风险最高的公司;此外,通过注意力机制,XRR能够突出财务报告中最可能影响财务风险的关键词汇和句子,从而具有更好的模型可解释性。在10-K份财务报告上的实验结果表明,XRR显著优于几种基准,在排序相关性指标上提高了7.4%。此外,在我们的实验中,通过在单词水平上使用特定于金融的情感词汇和在句子水平上使用新提供的注释参考列表来检查学习注意模型,来评估模型解释能力。
介绍
大多数关于风险分析的金融文献都集中在定量方法上。其中最重要的著作[9]发现,公司规模及其账面市值比是财务风险的关键因素,而在这两个关键因素之外,其他同样可能影响财务风险的因素仍然存在不确定性。随着文本分析的进步,已经有许多研究试图通过利用替代文本信息(例如,新闻,评论和财务报告)来分析财务风险来揭示其他潜在的风险因素
由于金融文件内部的噪声和文本与金融数值度量之间的信息差距,很难预测准确的金融数量(例如股票收益和波动率),也很难直接利用文本信息提取有用的信息和关系。因此,[24]中的工作提出了使用基于排名的方法来利用文本信息分析金融风险,并表明基于排名的方法比基于回归的方法更适合于这样的分析任务。然而,[24]中的工作和其他开创性的研究,如[14,22],主要使用简单和手工制作的特征来描述金融文档,如单词袋、名词短语和命名实体。因此,这些方法很难在文本中建模复杂的结构或语义,这限制了它们的潜力和使用场景。
近年来,CNN[15]、GRU[5]和BERT[6]等深度神经网络在文档分类和情感分析等NLP任务中表现出了有前景的结果[2,8]。这些进步是由于这些技术在学习语义有意义的表示方面的优越性。尽管这种深度学习方法可以从文本中提取潜在的特征,但大多数模型都是不可解释的,这是金融应用模型的重要组成部分。在某种程度上,注意机制缓解了可解释性问题[26],因为注意层明确地加权了组件的表示;因此,可以说,注意机制在某种程度上能够识别有意义的信息,作为模型预测的事后证明。
本文提出了一种可解释风险排序模型(XRR),用于从财务报告中获取关键信息,并研究相关的财务风险。具体而言,XRR是一个深度神经网络模型,结合多级可解释结构和学习排序技术,对公司之间由事件后回报波动[16]定义的相对风险进行排序。为了构建XRR模型,首先在单词和句子两级使用基于双向门循环单元(GRUs)的序列编码器设计了一个多级可解释结构来建模金融文本中的复杂结构。在每个层次上,利用注意力机制使模型可解释。此外,与以往许多以分类任务为主要任务的层次化深度神经网络架构不同[7,17],XRR对公司之间的相对风险进行排序,并定位高风险最高的公司。为了实现这一点,我们提出了一种基于具有两个并行多层可解释结构的连体网络(siamese network with two parallel multilevel explainable structures )的配对排序损失。此外,我们没有采用朴素的股票收益波动率,而是建议使用事件后收益波动率作为金融风险的代理,因为它排除了几个重要宏观经济因素的影响,因此比股票收益波动率更有效地监测事件效应对股票价格变化的影响。
我们使用1996年至2013年的大量10-K财务报告集合进行了综合实验,共包含39,083份报告。实验结果表明,XRR算法在各项评价指标上均显著优于其他基准算法。为了稳健性,我们还对不同的财务风险代理进行了比较,并进行了几次财务分析来验证
定义
问题公式及定义
事后收益波动率作为财务风险的代理,我们将事后一年的波动率划分为几个风险级别,因此每个公司ci,对应一个风险等级vi;给定一个语料库D,从中涉及两两公司cl,cj的报告集合为dl,dj。

vi代表风险等级,p表示文档di的维度,f(dl) > f(dj)意味着模型cl排名更高,即公司cl风险更大
事件后收益波动
事件后收益常被用作事件研究的代理变量,相比于传统的股票收益波动(日度收益在某个区间内的标准差),事件后收益考虑到了宏观变量,排除宏观经济变量的影响,衡量事件对股价的影响。
我们采用FF3因子模型在事件后 [6,252],且至少60个观察点进行拟合,用拟合的均方误差衡量事件后收益波动。用于对比,我们也采用了普通的收益波动作为代理变量
可解释的多层模型架构
我们用GRU 和Multilevel attention 对单词和句子级别进行建模
Embedding Matrix
给定一个vocab ,长度为W,嵌入矩阵包含了每一个单词的词向量,维度为m维
GRU
对于报告集合中的一个报告d,包含L个句子,s_t表示了报告中的第t个句子;每个句子包含l个单词,记为,单词向量包含在嵌入矩阵W中,
为了编码句子和文档,我们在句子和文档两个级别采用双向GRU,例如,通过拼接两个方向的GRU编码,第t个句子中的第l个单词变成了h_tl

由于每个方向的编码维度为h维,因此,进行拼接我们得到了h_tl ,维度为2h,以及Hw = (h_t1,…,ht_l),维度为l x 2h的矩阵
对文档级别,采用相似的操作,第t个句子由双向GPU拼接而成,维度为2h,以及Hs = {h1,…,hL)
多层Attention机制
通过Attention机制,我们将一句话的所有单词表征加权得到了句表征,类似的,将一个文档中的所有句子表征加权得到了文档表征



Pairwise Deep Ranking
给定一对报告(dl,dj),如果dl报告相关的公司比dj报告的相关公司dj风险更大,打分函数f就会对dl给出更高的分数

其中的每个元素被馈送到两个独立但相同的层次结构中
其中di为Eq(2)得到的报告di的密集表示。注意,在实际中,我们对f(·)实现了一个连体网络,采用相同的权值,同时对两个不同的输入向量串联工作,计算可比较的输出向量。为了获得所有公司(报告)的总体风险排名,我们采用标准RankNet[4]损失层来学习后验概率分布P?j,接近于目标概率E(d?在Eq(1)中定义的每对(d?, DJ),其中

测量两个概率分布之间的紧密度的自然选择是二元交叉熵;这样我们就有了要最小化的目标函数为

实验
数据说明
1996年至2013年的10-K报告,只使用了第7项“管理层对财务状况和经营结果的讨论和分析”(MD&A),因为它包含了公司最重要的前瞻性报表。
实验设置
由于文档对的巨大数据量,每个epoch从样本中sample 3000对,距离测试集更近的样本被抽样的概率更大。此外,词向量的维度m,取决于预训练的嵌入模型,GRU的隐藏层维度为100,attention size为100,一个句子的单词最大长度150,一篇文档的句子最大数量为70;
预训练词向量
我们用不同的预训练词向量来获得嵌入矩阵W
- Fin-word2vec;300维
- bert-large,1024维
- glove

对比模型
- TF-IDF-RANK。TF-IDF作为报告表征,再进行paire-wise deep ranking
- FastText
- HAN。Glove作为预训练嵌入,通过模型的预测概率排序公司
实验结果
Spearman’s Rho (ρ)和Kendall Tau(τ)作为评价标准
细粒度分析
不同代理变量
朴素波动率作为对比,即事件后12个月的日收益波动率
结果显示了显著的差异,单纯的股票收益波动是嘈杂的风险代理变量

情绪分析
使用情感词典FL评估
1 Listening to Chaotic Whispers :A Deep Learning Framework for News-oriented Stock Trend Prediction
- In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (WSDM '18)
- Ziniu Hu,Weiqing Liu, Jiang Bian,Xuanzhe Liu,Tie-Yan Liu(February 2018)
- https://doi.org/10.1145/3159652.3159690
What are the Research Questions?
传统的预测股票趋势的工作是根据不同领域的信息进行的。最基本的方法之一是依靠对市场上最近的价格和数量进行技术分析。这种方法在揭示支配市场剧烈动态的规则方面产生了很大的局限性。同时,另一种基本方法侧重于分析每家公司的财务报表,这虽然无法捕捉到最近趋势的影响。随着互联网的快速发展,网络媒体的内容确实已经成为投资者了解市场趋势和波动的金矿。
文本分析的有效性取决于目标文章的质量:与股票市场相关的在线内容的质量、可信度和全面性差异很大,很大一部分在线内容由低质量的新闻、评论甚至谣言组成。
本文模仿人类面对这种混乱的在线新闻的学习过程,由三个原则驱动:
- 连续的上下文内容:由于网上金融新闻的质量参差不齐,投资者通常不愿意依靠单一的新闻来进行预测,因为其信息有限甚至模糊,而更倾向于通过广泛分析一连串的新闻,并将它们结合到一个统一的背景中,每条新闻都可以提供互补的信息,从而可以对股票趋势做出更可靠的评估。一个理想的框架应该在一个连续的时间背景下整合和解释每个新闻,而不是单独分析它们
- 多样化信息:基于新闻影响的多样性,我们可以得出结论,在分析新闻时,与那些琐碎的消息相比,重大的消息对市场的影响更加深入和持久,一个理想的框架应该有能力区分出影响更密集、更持久的新闻,并对其给予更多的关注
- 有效和高效的学习:在现实中,人类投资者倾向于首先通过关注常见场合获得整体知识,然后再转向特殊情况。一个理想的股票预测学习框架应该遵循类似的过程,特别是在早期阶段对信息量更大的新闻进行学习,并进一步优化以应对更难的样本。
What are the Academic Insights?
为了抓住前两个原则,我们设计了一个混合注意力网络(HAN)来预测基于最近相关新闻序列的股票趋势。此外,我们应用自定进度的学习机制来模仿第三个原则。最后,作者在真实世界的股票市场数据上进行的大量实验证明了框架的有效性。
1、混合注意力网络(HAN)。由两个注意力层组成,分别在新闻层面和时间层面,具体方法见附录
2、SPL。新闻的稀缺性和模糊新闻的聚集性,这给学习带来严重的困难。为了进行有效和高效的学习,所设计的模型应该在早期训练阶段跳过那些具有挑战性的训练样本,并逐步将其纳入模型训练中
Kuma等人[13]设计了自定进度学习(Self-Paced Learning,SPL),将课程设计嵌入到学习目标中,
因此,我们在框架中利用SPL的优势,以有组织的方式学习新闻影响。

3、最后,作者根据上涨百分比将股价走势分为三类。下降、上升和震荡作为label。
股票趋势预测任务可以表述如下:给定时间序列的长度N,股票s和日期t,目标是使用从时间t-N到t-1的新闻语料序列,表示为,预测的类别,(下降或上升或震荡)。
每个新闻语料库Ci包含一个大小为L的新闻集,,表示i日期的L个相关新闻。根据以上模型输出结果,作者等权地投资于预测最佳的前K个股票,其中K被设定为20、40、60和80。当K值为20时,改进并不明显,作者认为这是因为选择少数股票可能会导致高周转率,从而导致高交易成本。而当K取40时,框架策略获得了最高的年化收益率61%(对比模型为RF,MLP,RNN等,见下文图),与市场表现的4%相比,这是一个显著的进步。取不同K时,不同方法之间在准确度和年化收益方面的相对比较是一致的,不同方法之间的利润差距几乎没有随着时间的推移而改变。
Why does it matter?
- 很少有人对新闻的质量、可信度和全面性给予足够的关注,由于金融文本的信噪比较低,这对文本分析的效果影响很大
- Attention机制捕捉到了信息的重要度。关注度(attention score)最低的句子只是显示了相应股票的价格和代码,显然对未来的走势没有任何影响;关注度中等的新闻记录了相应股票之前的市场表现,提供了一些股票的信息;关注度最高的新闻描述了官方分析师的一些预测或者一些重大事件,明确包含了对市场走势的预测信息。attention机制确实能够区分重要的新闻和不重要的新闻,这也解释了为什么它能够提高业绩
- 加入SPL的的HAN模型(HAN-SPL)优于标准训练过程的HAN与其他对比模型,这表明有效和高效学习的重要性
The Most Important Chart from the Paper:
基于不同模型策略表现

Method
1、考虑到新闻语料库序列的输入,一个新闻嵌入层News Embedding,将每个新闻编码为一个新闻向量
2、在每个日期,一个新闻层面的attention层为每个新闻向量分配一个attention value,并计算出这些新闻向量的加权平均值作为这个日期的【语料库向量corpus vector】
3、之后,这些语料库向量被双向门控循环单元(GRU)编码。
4、一个时间注意层为每个日期分配一个注意值,并计算这些编码的语料向量的加权平均值,以代表整体的顺序背景信息
5、最后,使用一个分类模型将新闻和股价链接起来

更具体地说:
News Embedding
对于日期为t的新闻语料库中的第条新闻,我们使用词嵌入层来计算每个词的嵌入向量,然后平均所有的词的向量来构建一个新闻向量。
为了降低框架的复杂性,我们预先训练了一个无监督的Word2Vec作为词嵌入层,而不是在学习过程中调整其参数
News-level Attention
由于并非所有的新闻都对预测股票走势有同样的贡献,我们引入了一个关注机制,将新闻按指定的关注值加权汇总,以奖励提供关键信息的新闻。
具体来说:
我们首先通过单层网络将新闻向量送入,得到新闻层面的attention values关注值,然后通过softmax函数计算归一化的关注权重
最后,我们将整体语料库向量dt分别计算为每个新闻向量的加权和,用这个向量表示日期t的所有新闻信息。
因此,我们得到一个时间序列的语料库向量
显然,注意力层可以进行端到端的训练,从而逐渐学会根据内容对可靠的、信息量大的新闻分配更多的注意力。
Sequential Modeling
为了编码语料库向量的时间序列,我们采用门控循环单元(GRU)。GRU是循环神经网络的一个变种,它使用门控机制来检查序列的状态,没有单独的记忆单元。
在日期t,GRU通过线性插值以前的状态ht-1和当前的更新状态ht hat来计算新闻状态ht:
当前的更新状态ht hat是通过非线性地结合这个时间戳的语料库向量输入和上一个状态来计算的,如
其中rt表示复位门,控制多少过去的状态应该被用于更新新的状态,zt是更新门,决定多少过去的信息应该被保留,多少新的信息应该被添加。这两个门的计算方法是:
因此,我们可以通过GRU得到每个日期t的潜在向量。为了捕捉来自新闻的过去和未来的信息作为其背景,我们将来自两个方向的潜在向量连接起来,构建一个双向的编码向量hi,由此产生的hi包含了其周围环境和自身的信息。通过这种方式,我们对语料库向量的时间序列进行编码
Temporal Attention:
由于不同日期发布的新闻对股票走势的贡献是不平等的,我们采用了时间层面的注意机制,它包含了固有的时间模式和新闻内容,以区分时间上的差异为
其中,θi是softmax层中每个日期的参数,一般表示哪个日期更重要,o是编码语料库向量的潜在表示。通过softmax层的组合,我们可以得到一个注意力向量β来区分时间上的差异。然后我们用β来计算加权和V,这样它就可以把连续的新闻背景信息与时间注意力结合起来,并用于分类。
Trend Prediction:
最后的判别网络是一个标准的多层感知器(MLP),它以V为输入,产生未来股票趋势的三类分类。
Self-paced Learning Mechanism
略
数据及其他处理
2014年至2017年中国的股票数据,包括价格和交易量方面的时间序列,以日为单位。共有2527只股票,同时,我们收集了2014年至2017年的1,271,442条经济新闻*。对于每条新闻,我们提取了发布时间戳、标题和内容。然后,如果新闻在标题或内容中提到了某只股票的名字,我们就将收集到的每条新闻与该只股票相关联。然后,我们过滤掉那些与股票没有任何关联的新闻。经过这样一个过程,新闻总量为425250条。对于每只股票,我们再汇总某一天的所有新闻,构建每日新闻语料库。
定义趋势的涨跌阈值:阈值使三个类别数量大致相等。
我们将数据集分成2014年9月至2016年5月的训练集(66.7%),以及2016年5月至2017年3月的测试集(33.3%)。然后,我们进一步从训练集中随机抽出一个验证集,其大小为10%,以优化超参数并选择最佳历时。
- 我们对每条新闻进行token化,删除停顿词和出现次数少于5次的词,以建立词表。然后,我们通过对整个数据集进行维度为500的无监督CBOW Word2Vec模型的训练,获得词向量。
- 所有的模型都使用时间序列的长度N为10。
由于新闻关注值是由一个以嵌入式新闻向量为输入的单一感知构建的,我们可以计算出测试数据集上每条新闻的关注值。
为了验证我们的框架是否能够选择有意义的新闻并过滤掉那些信息量较小的新闻,图6显示了一些详细的新闻关注结果。在这个图中,新闻前面的数字是注意值,它显示了在三个类别中的示范性新闻,这些新闻的注意值分别为最低、中间和最高。
RELATE WORK
Nassirtoussi等人[18]提出了一种带有语义和情感的多层降维算法,以预测外汇市场中货币对的日内方向性运动。
Ding等人[5]提出了一种用于事件驱动的股票市场预测的深度学习方法。他们通过将外部知识图谱纳入事件嵌入的学习过程,进一步增强了他们的方法[6]。
Wang等人[26]执行了一个文本回归任务来预测股票价格的波动。
Xie等人[27]引入了一种新的树状表示,并使用它来训练带有树核的支持向量机的预测模型。
Hagenau等人[10]提取了大规模的表达式特征来表示非结构化文本数据,并采用了稳健的特征选择来增强股票预测。
Li等人[16]利用情感分析实现了一个通用的股票价格预测框架。
Zhouet al.[29]特别研究了中国的股票市场。他们对来自微博的1000万条与股票相关的推文进行了深入研究,并发现中国的股票市场可以通过各种在线情绪进行有效预测的五个属性。
Nguyen等人[23]明确考虑了与目标股票相关的话题,并从社交媒体中提取话题和相关情绪来进行预测
2 Stock Embeddings Acquired from News Articles and Price History, and an Application to Portfolio Optimization
3 XRR