Predicting Returns with Text Data
type
Post
status
Published
date
Apr 11, 2022
summary
本文使用了一种新的机器学习技术,用于理解文本语料库的情感结构,而不用依赖预先存在的字典,该方法的主要特点是——从文章文本和股票收益的联合行为中学习情绪评分模型,而不是从“架子上”拿情绪分数。
tags
paper summary
Machine Learning
category
阅读笔记
password
slug
icon
- Yale ICF Working Paper
- Ke Zheng ,Kelly Bryan T ,Xiu Dacheng (September 30, 2020)
- Available at SSRN: https://ssrn.com/abstract=3389884
What are the Research Questions?
在金融领域,文本最常被用来研究给定文件的 "情绪",而这种情绪最常被测量,即根据预先指定的情绪字典(例如,哈佛社会心理字典)对术语进行加权,并将这些加权数加到文件级别的情绪分数。然后,文档的情感分数被用于二级统计模型,以调查金融市场的信息传递等现象(Tetlock,2014)。这一领域极具影响力的研究包括Tetlock(2007)和Loughran和McDonald(2011)。这些论文通过将他们的分析限制在预先存在的情感字典中的词,并使用特别的词权重方案来管理维度挑战。这种方法有一个很大的优势,它允许研究人员在理解数据的某些方面取得进展,而不需要承担从头开始为一个新的文本语料库估计模型的任务(通常是繁重的)。
过去传统的,基于情感词典的文本应用,相当于使用过去研究中的模型估计值来构建正在分析的新文件集。本文的实证分析重新审视了也许是金融学中最常研究的基于文本的研究问题,即商业新闻解释和预测观察到的资产价格变化的程度,作者使用了一种新的机器学习技术,用于理解文本语料库的情感结构,而不用依赖预先存在的字典,该方法的主要特点是——从文章文本和股票收益的联合行为中学习情绪评分模型,而不是从“架子上”拿情绪分数。
What are the Academic Insights?
作者将新方法的情绪分析程序缩写为SESTM。该模型由三个部分组成,机器学习方法在每个部分都发挥了核心作用。
- 第一步,从一个非常大的词汇表中分离出最相关的特征。词汇表来自于每个文档的词袋表示,是一个术语计数的向量。我们采取变量选择的方法来提取相对较少的、可能对资产收益有参考价值的术语。在这个步骤中,我们通过相关筛选的快速和简单的降低语料库维度。筛选背后的想法是找到与股票回报方向最频繁重合的单个术语--正向或负向。它是回归和其他常见的降维技术(如主成分分析)的自然替代方法(这些技术在面对文本数据的高维度和稀疏性时表现不佳)
- 第二步,分配特定术语的情感权重。虽然现有的金融文献认识到在分配情感权重时,考虑不同词频率的巨大差异是相当重要的事情,但最终选择的权重通常是临时性的(例如通过 "tf-idf")。我们使用一个基于似然,或 "生成 "的模型来解释术语频率的极端偏度。我们在这个部分应用的具体机器学习工具是一个有监督的主题模型。为了简单和便于计算,我们选择了一个只有两个话题的模型:一个描述正面情绪词的频率分布,一个描述负面情绪词。
- 第三步,使用估计的主题模型来分配文章级别的情感分数。当汇总到一篇文章的分数时,我们使用模型的内部一致的似然结构来说明词的频率以及它们的情感权重的严重异质性。为了增强模型的稳健性,我们设计了一个惩罚性的最大似然估计器,对每篇文章都有一个单一的未知情感参数。对惩罚的贝叶斯解释是对情感参数施加一个以1/2为中心的Beta分布的先验。也就是说,我们的估计是从文章是中性情绪的先验开始的
- 最后,我们建立了SESTM算法的理论推导(见原文附录)
- 基于我们模型的投资组合提供了出色的风险调整后的样本外回报,并且超过了基于RavenPack(业界领先的金融新闻情感评分商业供应商)评分的类似策略。
- 根据情感模型,作者构建了一个交易策略:每天买入50只情绪得分最积极的股票,做空50只情绪得分最消极的股票。我们每天都会形成投资组合,并持有数小时至十天不等。
- 等权重的投资组合的表现大大超过了市值权重的对应组合。等权重的多空策略获得了4.29的年化夏普比率,而价值加权的情况下只有1.33。这表明,在其他条件相同的情况下,新闻文章的情绪对小股票的未来回报有更强的预测作用。对这一事实有许多潜在的经济解释,例如,它的出现可能是由于以下事实:i)小股票受到的投资者关注较少,因此对新闻的反应较慢;ii)小股票的基本面更加不确定和不透明,因此需要更多的努力将新闻处理成可操作的价格评估;或者iii)小股票的流动性较差,因此需要更长的时间进行交易,将信息纳入价格。
- 多头胜过空头,夏普比率为2.12,而等权情况下为1.21。这一事实部分是由于多头自然赚取了市场股票风险溢价,而空头则支付了溢价。另一个潜在的解释是,投资者面临卖空的限制
- SESTM情绪交易策略对标准总体风险因素的暴露很少。当对FamaFrench因素进行回归时,交易的单个多头和空头的日R2最多为41%,而多空价差组合R2最多为10%。在所有情况下,该策略的平均回报几乎完全是阿尔法。
- 考虑文章的新颖性来比较 "新鲜 "与 "陈旧 "新闻的价格影响:陈旧的文章被定义为那些与前一周关于同一股票的文章有着密切的相似性。虽然陈旧新闻的情绪与未来的价格变化有着微弱的显著正相关,但新新闻的影响要大70%。虽然陈旧的新闻的影响在到达后的两天内完全反映在价格上,但新的新闻需要四天才能完全被同化。
- 小股票(低于纽约证券交易所中位数)和更易波动的股票(高于中位数)对新闻的反应大约是四倍,而关于小股票和易波动股票的新闻完全反映在价格上的时间大约是两倍。
Why Does it Matter?
- 本文对通过机器学习将文本分析用于金融研究的新生文献做出了贡献。之前大多数将文本作为数据用于金融和会计研究的工作很少对文本进行直接统计分析。我们提出并分析了一种新的文本挖掘方法,即SESTM,用于通过监督学习从文本文件中提取情感信息。与金融文献中常见的情感评分方法,如字典方法和商业供应商平台(如RavenPack)相比,我们的框架为个别研究应用提供定制的情感评分。方法有三个主要优点:
- 简单性:它只需要标准的计量经济学技术,如相关分析和最大似然估计。与商业平台或深度学习方法不同的是,我们提出的监督学习方法对其用户来说相当于一个黑盒子,完全是 "白盒子"。
- 最小的计算能力:对于有数百万文档的文本语料库来说,用一台笔记本电脑在几分钟内就可以运行。
- 最重要的,它允许研究人员构建一个专门适应手头数据集背景的情感评分模型。这就使研究者不必依赖原先为不同目的而设计的已有的情感辞典。
- 正如Loughran和Mcdonald(2016)所指出的,Na¨ve Bayes涉及数以千计的未公布的规则和过滤器来衡量文件的背景,因此是不透明的,难以复制的。缺乏透明度是机器学习方法更普遍的研究局限。相比之下,我们的模型是生成的、透明的、可操作的,并伴随着理论上的保证(数学证明见原文附录)
- 我们的方法更接近于计算机科学和机器学习中的现代文本挖掘算法,如潜在狄里切特分配(LDA,Blei等人,2003),以及文本的向量表示,如word2vec(Mikolov等人,2013)。我们的模型与许多这样的机器学习方法之间的关键区别在于,我们的方法是有监督的,因此可以定制特定的预测任务。
- 我们的研究更广泛地与将机器学习技术应用于资产定价问题的蓬勃发展的文献分支有关。Gu等人(2018年)回顾了一套使用金融文献中成熟的数字特征进行回报预测的机器学习工具。他们发现,一些表现最好的数字预测器是技术指标,如股票价格的势头和反转模式。我们的论文使用了另一种数据--新闻文本,其维度大大超过了过去工作中用于预测回报率的维度。而且,与难以解释的技术指标不同,我们分析中的特征是字数,因此是可以解释的。
The Most Important Chart from the Papers







Abstract
我们引入了一种新的文本挖掘方法,从新闻文章中提取情感信息来预测资产回报。与用于股票收益预测的更常见的情感评分(例如,那些由商业供应商出售的或用基于字典的方法建立的评分)不同,我们的监督学习框架构建了一个专门适应收益预测问题的情感评分。我们的方法分三个步骤进行。1)通过预测性筛选分离出一个情感术语列表,2)通过主题建模为这些词分配情感权重,3)通过惩罚性似然法将术语汇总到文章层面的情感分数。我们从理论上保证了我们的模型在最小假设条件下的估计准确性。在我们的实证分析中,我们对金融系统中最活跃的新闻文章流之一——道琼斯通讯社进行了文本挖掘,并表明我们的监督情感模型在这种情况下擅长于提取回报预测信号。
Method
我们谨慎地只在每天开市时形成投资组合,原因有二。首先,隔夜新闻在早上开盘前采取行动可能具有挑战性,因为这是大多数交易者能够进入市场的最早时间。其次,除了专门从事高频交易的基金外,由于其投资风格和投资流程的限制,基金不太可能根据盘中消息不断改变其头寸。最后,按照Tetlock等人(2008)的类似选择,我们排除了美东时间上午9:00至9:30之间发表的文章。通过规定交易在开市时发生,并且至少有半小时的延迟,我们希望能更好地配合现实的考虑,比如允许基金有时间计算他们对新闻的反应,允许他们在流动性趋于最高时进行交易。
符号说明:
考虑一个由n篇新闻文章和m个单词组成的词典的集合。我们将第i篇文章的词(或短语)计数记录在一个向量中,因此 是第i篇文章中出现的词j的次数。
在矩阵形式中,这是一个n×m的文档术语矩阵(d是行向量),D = [d1, ..., dn] ‘。
我们偶尔会使用D中的一个列子集,其中包含在子集中的列子的指数被列在集合S中。
我们把相应的子矩阵表示为 。然后我们用来表示与的第i行相对应的行向量。
为简单起见,我们研究的是与一只股票相对应的文章,我们用文章发表日的相关股票收益率(或其特异性成分)yi来标记文章i。
模型设置
假设每篇文章都拥有一个情绪分数pi∈[0,1];当pi=1时,文章的情绪是最大的正面,而当pi=0时,它是最大的负面。此外,我们假设pi作为文章对股票收益影响的sufficient statistic,也就是说:
对于条件收益分布,我们假设:
其中sgn(x)是符号函数,如果x>0则返回1,否则返回0。
这个假设下,情绪分数越高,实现正收益的概率越高。
现在我们来看看文章中word count的条件分布。我们假设字典有一个分区。
其中,S是感情的词的索引集,N是不带感情色彩的词的索引集,而{1, . . . ,m}是词典中所有词的索引集(S和N的维度分别为|S|和m-|S|)。同样,di,[S]和di,[N]是di的相应子向量,分别包含感情色彩和不带感情色彩的词的计数。
我们假设di,[S]和di,[N]是相互独立的。di, [N],基本上是一个干扰因素,由于与情感词向量di, [S]独立,后面的步骤不对di, [N]进行建模。
我们假设情感词计数,di, [S],服从mixture multinomial distribution
其中si是第i篇文章中情感词的总数,因此决定了multinomial 规模。
O+是一个关于词的概率分布———it is an |S|-vector of non-negative entries with unit l1-norm。O+是一个 "积极情绪主题",描述了在一篇最大的积极情绪文章中的预期词频(pi=1的文章)。
同样地,O-是一个 "负面情绪主题",描述了最大负面情绪文章(pi=0的文章)中的词频分布。
在情绪的中间值0 < pi < 1,词频是正面和负面情绪主题的凸形组合。
如果的第j个条目(第j个词)是正面的,那么该词就是一个 "正面词"。反之这个词就是一个 "负面的词"。
对于一个给定的事件i,情感词的字数分布和回报分布是通过共同的参数pi联系起来的。较高的pi单调地映射为更高的正面回报可能性。我们的目标是学习模型参数,O+、O-和pi。
SESTM程序
SESTM的三个步骤为
- 分离出带有情感色彩的词语集合S
- 估计参数O+和O-
- 预测新文章的文章级情感分数pi
我们采取了一种有监督的方法,利用已实现的股票收益的信息来筛选出带有情绪的词语。直观地说,如果一个词经常出现在伴随着正收益的文章中,那么这个词就有可能传达积极的情绪。我们的筛选程序首先计算出,单词j与正收益共同出现的频率:
接下来,我们设置一个上限阈值α+,并将所有具有fj>1/2+α+的词定义为正向情感词,fj<1/2-α-的认为是负面情绪词。
最后,我们根据单词j的文章中出现次数设定第三个阈值κ(即fj的分母,我们将其表示为kj),不经常出现的词带来噪音,我们限制kj>κ。阈值(α+,α-,κ)是可以通过交叉验证来调整的超参数。
一旦我们确定了相关的词表S,我们就可以根据情感词出现频率确定O。我们可以将这两个topic vector集合在一个矩阵O=[O+, O-]中,该矩阵决定了每篇文章中带感情色彩的词的计数的数据生成过程。O既能捕捉到词的频率信息,也能捕捉到它们的情感信息。事实上,将topic vector定义为词频向量F和语气向量T是很有帮助的。
如果一个词在F中的数值较大,它在整体上出现的频率较高。如果一个词在T中的值越大,它的情绪就越积极。
我们采取监督学习的方法来估计O(或者,等同于估计F和T)。在我们的模型中,参数pi是文章的情感分数,因为它描述了文章在多大程度上倾向于正面的词汇主题。
假设现在我们观察到样本中所有文章的这些情感分数。让de i,[S] = di,[S]/si表示词频的向量。由于di服从多项式分布,
矩阵形式:
基于这一事实,我们提出了一个简单的方法,通过D_tilde 对W的回归来估计O。
请注意,我们不能直接观察得到D_tilde(因为S是未知的)和W
如何得到D?,先回顾上面如何确定情感词集合S:

得到S后,就可以将全部词计数矩阵划分为情感词结合和中性词结合(中性词被丢弃)
为了估计W,我们使用标准化的return rank作为训练样本中所有文章的情感分数。对于训练样本中的每一篇文章i=1,...,n,
例如,回报最高的股票为i,他的p1为1,1-p1为0,对它而言, Di[S] = O+
估计pi
上面的步骤已经得到了S和O的估计量。我们现在讨论如何估计训练样本中未包括的新文章i的情绪pi。鉴于我们的假设:
这里di是文章的计数向量,si是其带感情色彩的词的总计数。鉴于估计值Sb和Ob,我们可以用最大似然估计(MLE)来估计pi。虽然其他估计方法,如线性回归,也是一致的,但我们使用MLE是为了其统计效率。
最后,我们在似然函数中加入一个惩罚项λ log(pi(1-pi)),惩罚的作用是帮助应对有限的观察值和回报预测中固有的低信噪比。施加惩罚会使估计值向1/2的中性情感分数收缩,收缩量取决于λ的大小。 这种惩罚性的似然法相当于对情感分数施加一个Beta分布先验。大多数文章的情绪是中性的,而贝塔先验确保这一点反映在模型估计中