【VERDAD】| Making Sense of the machine Learning Arms Race
type
Post
status
Published
date
Jan 26, 2023
summary
tags
category
阅读笔记
password
slug
icon
1 Making Sense of the Machine Learning Arms Race金矿在哪里?昂贵的信息回报在短期内更加嘈杂长线回报是对因素暴露的补偿2 On Being Wrong错的概率越高,预期收益就越高,实现的收益也就越高3 Voting Machines
1 Making Sense of the Machine Learning Arms Race
在硅谷有一个流行的笑话,如果你想把你的创业公司卖到10亿美元的估值,一定要在你的推销书中加入 "机器学习"、"人工智能 "和 "自动化 "这些热门词汇。金融业的营销人员也不甘示弱,抓住了这一浪潮。我们开始看到大量的投资产品,寻求应用 "专有技术 "和使用 "替代数据 "来获得市场上的信息优势。
公平地说,机器学习的进步确实为社会提供了真正的好处,因为它能够实现大规模的系统决策。通过让机器处理将大量信息搅成机械预测的重复性任务,人类可以专注于需要创造力和背景的工作。机器学习也可以补充人类在投资过程中的判断,正如我们以前写过的那样。
在本周的文章中,我们不讨论机器学习的机制,而是关注在投资策略中评估这些算法的普遍原则。投资者的关键问题是,在评估使用机器学习的投资策略时,如何将言辞与实质分开。我们认为,关键的区别在于一个策略是通过【信息优势】还是通过对【合理的因素风险的补偿】来产生阿尔法。
金矿在哪里?
信息优势和因子风险敞口之间的区别是很重要的,因为当其他人了解到信息优势时,它总是会被竞争掉。因此,信息战略的脆弱性为经理人创造了强烈的动机,将其标记为 "专有 "秘密。
另一方面,最强大的、有据可查的因素暴露是价值。尽管至少从本杰明-格雷厄姆(Benjamin Graham)的时代开始,人们就对这个因素有了广泛的了解,但从长远来看,它仍然是持久的。而且,只要大多数人不愿意与共识对赌,价值溢价就会一直持续下去。反抗者从购买因共识悲观而便宜的证券中获得回报溢价。而这种回报是对承担风险的补偿,即在证券值得便宜的时候,共识可能偶尔是正确的。换句话说,逆向思维者通过承担错误的风险来赚钱。在接下来的几周里,我们将详细阐述这一概念,并证明追求更高的预期回报必然涉及更高的错误概率。我们还将展示机器学习如何通过对线性模型的预测进行微调来减轻错误的风险。
现在,我们只是提出,从长期来看,来自信息优势的任何阿尔法必然是脆弱的。我们读到的许多机器学习方法涉及将替代数据集与机器学习配对,以获得信息优势。投资基金正在花费大量资金购买和处理替代数据,业内分析人士称,即使开始利用替代数据,每年也至少需要150万美元。这些公司正在购买停车场和航运油轮的卫星图像,以预测零售业的销售情况,或者开发机器学习算法来扫描原始社交媒体数据和阅读收益电话记录。
我们对这些信息方法是否有助于做出投资决策持怀疑态度。
即使信息来自于专有的数据集--例如,一个供应商可能会向你出售对汽车保险数据的独家访问权,这样你就可以预测福特汽车下一季度的销售情况--关键问题是,使用这些私人信息的回报收益是否超过了购买信息的成本。为了实证地评估这个问题,我们可以看看美国主动型基金经理的表现,因为他们投入了大量的资源来获取有关个别股票的信息。
昂贵的信息
在2009年的论文中,尤金-法玛和肯-弗伦奇评估了美国共同基金22年的业绩,扣除了费用。这对我们来说是一项有用的研究,因为费用代表了获取和处理信息的成本。毕竟,大多数主动型基金经理从华尔街银行购买研究报告,从顶级商学院聘请最好的分析师,并让这些分析师飞去与投资组合公司的经理会面。这些庞大的研究预算为投资者创造了多少利润?
法玛和弗伦奇发现,至少有67%的主动型经理人在扣除费用后的业绩低于基准。这意味着超过三分之二的主动型经理人未能将其昂贵的信息转化为投资者的利润。这比随机的结果更糟糕。如果普通的主动型经理人在扣除费用后的信息优势为零,那么只有一半的主动型经理人会在偶然的情况下表现低于基准--就像抛硬币一样。
花更多的钱似乎也不能提供更好的信息质量。下图显示了在十年内表现优于(赢家)和劣于(输家)其基准的美国股票共同基金的比例,按费用率的四分之一分类。费用较高的基金,也就是信息获取成本较高的基金,更有可能跑输其基准。

图1:按费用率四分位数划分的赢家和输家的比例(10年跨度)
回报在短期内更加嘈杂
信息化战略的第二个挑战是时间。由于大多数替代数据来源是在过去15年内创建的,相对于传统数据集,替代数据的历史较短。例如,芝加哥大学的CRSP数据集有1926年以来的美国股票价格和1963年以来的季度基本面信息。这意味着传统的因子模型可以在超过50年的数据上进行训练,而依靠替代数据的机器学习模型必须在不到15年的数据上进行训练。
由于从替代数据集收集到的任何信息在被市场广泛知晓之前都有很短的保质期,所以信息策略一般在较短的时间范围内进行预测。也许在每日股票价格和Twitter数据上训练机器学习算法,可能会在回溯测试中发现一些关系。但这些信号在现实生活中的可靠性可能非常低。下面的图3说明了这一点,它显示了不同时间范围内的平均股票溢价(股票相对于短期债券的超额回报)。夏普比率,类似于信号噪声比,在每日范围内接近于零,而在较长的范围内增加。

图3:美国股票溢价在较长期限内更可预测(1963年1月至2018年12月)。
显而易见,短期价格变动中噪音的作用较大,这对试图预测短线回报的机器学习算法来说是个问题。
长线回报是对因素暴露的补偿
最可靠的投资信号是与合理的因素暴露有关的。由于在经济上是合理的,最好的投资信号可以预测长期的回报。这方面的一个很好的例子是逆向价值因子,它提供了长期稳定的回报预测,以换取承担与共识对赌的风险。

图4:按估值五分位数计算的美国股票年化回报率(1963年1月至2018年12月)
这对机器学习意味着什么?首先,机器学习的作用应该是对传统因素模型的增量,这些模型按价值等因素风险对股票进行分类。仅仅因为机器学习现在可以作为一种新的工具,并不意味着好的旧线性回归应该被扔掉。
其次,如果你的投资策略追求更高的预期收益,那么机器学习的叠加仍应让你拥有一篮子不受宠的证券。简单地说,如果你的战略目标是20%的预期回报,那么机器学习叠加应该让你的投资组合产生20%左右的自由现金流收益。即使你使用机器学习来管理你的错误风险,把自由现金流收益率为20%的好公司与坏公司分开,这也适用。
例如,在Verdad,我们使用机器学习来识别那些更可能偿还债务的公司。但到最后,最有可能偿还债务的公司也有最高的杠杆率,并以最低的估值交易。
图5:欧洲债务偿还的样本外预测(1997年6月至2017年12月)
传统的因素模型可能会发现,更便宜和更多杠杆的股票表现更好,但机器学习算法告诉我们,这种表现的一个关键原因是,这些股票更有可能偿还债务,然后推动股票回报。而且,机器学习算法通过整合更多的变量,而不是简单的杠杆和价值的组合,能够更好地预测去杠杆化。
传统的因素模型已经确定了未来股票回报的最有力预测因素。然而,这并不意味着线性模型是完美的。它只是意味着机器学习应该被用来补充传统的模型,这些模型通过价值等因素暴露对股票进行分类。这在逻辑上是合理的,因为任何科学领域的进步通常是渐进的。
在接下来的两周里,我们将探讨我们如何使用机器学习来微调线性模型的预测结果。我们还将讨论我们关于这些模型为什么有效的一个最有趣的研究发现--它为市场效率和什么使合理的因素策略可能长期存在提供了重要的新见解。我们期待着向您介绍我们在使用机器学习改进传统因子模型方面取得的重大进展,以及机器学习可以揭示股票市场如何运作的情况。
2 On Being Wrong
华尔街充满了聪明的人,他们的简历一尘不染,从八年级开始就在学校里得到了A,并在SAT等标准化测试中取得了前十名的成绩。
不幸的是,市场并没有提供很多完美的分数。在投资中,60%的时间击败市场将是一个胜利的表现。
成功的投资需要我们面对错误的问题--没有投资者可以避免它们,我们可以预期任何好的策略都会产生大量的错误。但是否有可能减少我们的错误,避免错误,同时产生高回报?或者说,愿意犯错是战胜市场的前提条件吗?
像大多数其他量化投资公司一样,我们使用线性因子模型对股票进行排名。这些模型背后的简单前提是看哪些合理的因素在历史上预测了股票收益,然后根据每个因素的得分情况对今天的股票进行排名。因素得分较高的股票将有较高的预期回报。然而,这些因素模型往往只能解释30%左右的市场波动,这意味着它们会产生大量的误差。
以Verdad用来对美国和欧洲的股票进行排名的线性因子模型为例。我们在下面展示了一张图表,将模型的回报预测与实际结果进行了比较。对角线代表模型的预期收益预测,圆圈代表每个十等分的股票排名中的实际收益。每个圆圈与对角线之间的距离代表了预测误差的大小,也就是统计学家所说的 "残差"(定义为已实现收益与模型预测收益之间的差异)。

图1:按线性排名十分位数划分的回报残差(1997年7月至2018年6月)
这个线性模型在股票排名方面做得很好。但是,奇怪的是,随着预期收益的增加,该模型的错误越来越多。平均而言,线性排名第6至第10层的残差比第1至第5层的残差离预期收益线更远。
我们想看看我们是否能找出导致线性模型在高等级股票上犯更大错误的任何模式。我们研究了我们模型中的主要成分,将预测错误与四个单独的因素绘制在一起:杠杆、价值、规模和动量。

图2:单个因素的回报残差(1997年7月至2018年6月)。
这些图显示了一个一致的结果。最大的误差是在每个因素的极值。杠杆率最高的股票有最高的回报分散度,因此,预测误差也最大。最便宜和最小的股票由于回报分散度较高,也有较大的预测误差。最后,过去一年中回报率极低和极高的公司(动量分位数1和10)在下一年的结果有很大的分散性。预测收益的因素似乎也能预测分散性和模型误差。
但是,如果我们可以训练一个单独的模型来消除或减少这些错误呢?投资的圣杯将是投资于这些因素的极端,即分散度最高的地方,但避免最负面的结果。
我们想弄清楚到底是什么导致了排名最高的股票出现这些大错误。
因此,我们建立了一个数据集,其中有我们的线性模型的所有回报预测和1997年至2018年的实际结果。我们用 "1 "标记了最负面的错误(残差的底部三个十分位数),因为这些是我们试图消除的错误。其他每一个残差都被标记为 "0"。 目标残差在下图中以绿色阴影显示。

图3:残差的分布(1997年7月至2018年6月)
然后我们把我们认为可能预测模型误差的每一个公司特征都拉下来:估值、盈利能力、杠杆、动量、盈利波动、行业以及其他几十个合理的解释变量。利用这些数据的一个子集,我们训练了一个机器学习算法,研究哪些量化特征能将1(错误)与0分开。在对我们最初保留的剩余数据进行样本外测试时,机器学习模型提供了每个新公司是1(即我们希望消除的错误)的概率。然后将这些概率与新数据中1的实际比例进行比较,以评估该模型的预测性能。
图4显示了样本外的结果。当遇到全新的数据时,机器学习模型对线性错误的预测与现实非常接近。

看到这些结果,我们感到很兴奋。机器学习模型可以有效地从我们的线性排名系统中预测出错误。 我们很兴奋地想知道我们是否可以利用这些知识来提高我们的投资回报:我们显然找到了圣杯--降低传统因子模型错误率的能力。
但是,当我们把错误的概率与股票回报率作对比时,我们的热情很快就变成了惊讶。下图是按错误概率的十分位数绘制的回报(预期和实现)。条形图两边的两条线代表了每个十分位数中已实现收益的波动性。

图5:按错误概率的十分位数划分的样本外回报(1997年7月至2018年6月)
当你从安全的十分位数1(13%的错误概率)到风险较大的十分位数9(44%的错误概率),每年的平均实现收益从13%增加到21%。这意味着在大约90%的情况下,不值得尝试消除线性模型的错误,因为这样做也会消除高回报的股票。作为一个投资者,大约40%的时间出错实际上是一件好事,因为这意味着你为了获得高回报而承担了足够水平的逆向风险。
错的概率越高,预期收益就越高,实现的收益也就越高
我们曾着手研究是否可以通过减少错误来提高收益,但我们几个月的量化工作得出的结果大多表明,提高收益的唯一途径是承担更高的错误风险!我们已经产生了一个很好的证明,那就是 "逆向"。我们要么产生了市场效率的美妙证明,要么证实了纳西姆-塔勒布的反脆弱思想。"反脆弱的东西喜欢随机性和不确定性,这也意味着--重要的是--喜欢错误。"
我们曾试图找出我们的因子模型的错误来源,从而提高收益,我们发现我们的模型产生更高的收益,正是因为错误。错误是回报的来源,而不是回报的敌人。他们是我们的朋友,而不是我们的敌人。
从广义上讲,也许这就是量化因子投资发挥作用的原因。所有的基本面投资者--全优生--都不想做一个有40%机会出错的投资。想象一下,作为维京公司的分析师,每个月投出的股票有40%的错误率。你要经历多少次灾难才会被解雇?相比之下,量化投资者会看重基准利率,更喜欢这些特征。
然而,这并不是说我们的努力完全是徒劳的,或者只是产生了对市场效率的哲学见解。仔细观察收益图,你会发现,在风险的第10分位数--那里的平均错误概率约为50%--已实现的收益事实上是下降了。尽管第十档的预期收益率为20%,但平均实现收益率为11%,因为这些股票中约有一半在接下来的一年中经历了巨大的价格下跌。
下周,我们将讨论我们如何在投资过程中使用这些第10分位数概率。我们将讨论如何通过消除那些在极端情况下出现未补偿风险的股票,我们可以承担更多的合理因素风险。我们可以进一步涉足深层价值,并承担更多的杠杆风险,因为我们了解哪些地方的风险可以得到最佳补偿。最重要的是,我们明白在我们的投资策略中,高错误率是收益的来源,而不是敌人。
3 Voting Machines
菲利普-泰特洛克在他的开创性著作《专家政治判断》中指出,"整个舆论界的党派人士都很容易偶尔出现意识形态导致的精神错乱"。意识形态的游击队员爱上了宏大的历史理论,然后他们根据不准确的预测过度自信地行事。
在津巴布韦罗伯特-穆加贝的马克思主义独裁统治下长大的我,经历了更多意识形态诱发的疯狂。而我在哈佛大学和芝加哥大学学习政治和经济的这些年,试图辨别如何避免这些类型的灾难。
特洛克的工作提供了宝贵的洞察力。他发现,在预测未来方面,专家并不比非专家更好,这是一个令人信服的民主论点。他还发现,最好的预测者对宏大的理论持怀疑态度,从多种信息来源中获取信息,并对自己的知识持谦卑态度--这是自由政治制度的一个令人信服的案例。
这些发现也为做出投资决策提供了很好的启示。在Verdad,我们的投资过程使用多种方法:线性回归模型、机器学习算法和定性判断。通过引入多个角度,包括定量和定性,我们相信我们能提高决策的准确性和质量。
我们对上周推出的寻找因子模型中的错误的模型感到非常兴奋。我们把这个系统称为 "错误的概率"。而我们表明,对于90%的股票来说,出错的概率越高,预期收益就越高。但在最极端的10%的股票中,我们的模型善于识别有问题的情况。
我们非常兴奋地发现,我们的机器学习模型可以识别这些问题股票。但机器学习可能是高深莫测的,因为它的功能是建立成千上万的概率树,并在其中寻找模式。了解该模型所取得的成果的最好方法是通过观察实例。 下面是我们的机器学习模型给出错误概率最高的两只欧洲股票。

在线性模型中,Astaldi和Noble集团的预期收益率为19%和33%。但是,我们的机器学习模型分别为59%和55%,我们的机器学习模型对拥有Astaldi或Noble Group的错误概率的评价远远高于50%的阈值,而历史上这种错误是不利于回报的,正如我们上周所证明的那样。看一下Astaldi的网站就会发现,该公司可能正走在破产的路上。标准普尔对Astaldi的债务评级为糟糕的 "D",穆迪的评级为 "Ca",前景为负面。惠誉将该公司的债务评级为 "限制性违约",这离最差的 "违约 "评级只有一步之遥,后者是留给破产企业的。同时,在网上搜索诺贝尔集团显示,该公司正在进行重组,还在接受会计欺诈的调查。
看着这个模型识别出的危险股票,我们立即明白了我们所建立的工具是多么强大。一个人类分析师在审查这些股票时,经过几分钟的研究就会决定放弃。对于错误的概率,只需要几秒钟就能得出同样的结论。
那么,在投资过程中应该如何使用极端错误的概率呢?
我们相信,让不同的模型对我们宇宙中的股票进行投票,允许竞争的观点蓬勃发展,并合作确定最好和最差的股票。一个模型预测了我们宇宙中每只股票的债务偿还的概率。第二个模型将这些去杠杆化的概率与其他线性因素如价值、盈利能力和势头结合起来,然后根据股票在所有因素上的得分进行排名。而第三个模型可以预测预测错误。
这些模型一起作为一个集合体发挥作用。每个模型都会在股票领域的极端情况下纠正其他模型的错误。图3说明了我们的量化模型是如何被排列成一条用于选股的投票机流水线的。

图3:投票机的结构
我们的机器学习排名模型将前三个模型的输入纳入其决策中。 图4说明了对这个排名模型最重要的输入变量。条形图反映了每个变量在提高模型对新数据(非样本)准确排名股票的能力方面的效果。

图4:机器学习排名模型中的变量重要性(1997年7月至2018年6月)
不出所料,最重要的变量是犯错的概率。第二个最重要的变量是线性模型的预期收益。接下来的五个变量都与人类分析师在评估我们的目标范围内的股票时会问的最相关的问题有关。该公司产生多少现金流?该公司是否既便宜又有杠杆作用?该股票有多便宜?该公司是否有可能偿还债务?该公司总体上有多少债务?
正如我们之前所写的,任何可靠的金融机器学习方法都应该建立在传统的线性模型之上,而不是取代它们。它还应该在最后提供对合理因素的接触。上图中的结果符合这两个标准。
这如何转化为改进的股票回报?我们可以将我们的线性因子模型--最常见的选股定量工具--的表现与我们的集合模型的结果进行比较。图5显示了根据原始线性模型进行排名的基线样本外回报。数据来自1997年至2018年的美国和欧洲。这个样本在训练期间没有展示给我们的任何一个机器学习模型,所以它对于测试模型在新数据上的表现很有用。

图5:线性模型的基线排名结果(1997年7月至2018年6月)。
然后,我们研究了我们的集合模型--它将这些线性排名与我们的机器学习排名整合在一起,产生一个综合排序--如何改善这些结果。图6显示了合集的样本外表现。

图6:使用合集模型的样本外排名(1997年7月至2018年6月)。
相对于线性模型,这个集合模型在排名前40的名字中提高了约3%的回报率--这是一个巨大的进步。
基于这些证据,似乎很明显,纳入辩论和分歧--允许多种观点相互竞争--会在量化投资中产生更好的结果,就像在政治中一样。