【alphaarchitect】12/17搬运

type

Post

status

Published

date

Dec 17, 2022

summary

1、Machine Learning and The Cross-Section of Emerging Market Stock Returns

本文研究了各种机器学习模型在预测新兴市场股票收益率横截面上的比较研究

36个公司特征：

数据处理

定义股票的异常收益：

月度收益减去市值加权的全市场月度收益：

预测模型：通过t月的特征对t+1月收益建模

模型选择：OLS、弹性网络、梯度提升回归树、随机森林、1~5层神经网络

参数调节：例如，首先用1990到1995年的数据作为训练数据，用1996年到2001年的数据作为验证集，获得模型的最佳参数，选择2003年的数据作为测试集，以此类推，滑动时间窗口。在每个年底我们获得一个训练好的模型，在测试集上的每个月依次获取模型的预测输出。

样本筛选：为了避免小市值股票的影响，我们根据大市值股票子集确定分位数断点；每个月根据分位数进行分组，用最高最低构建多空投资组合，月度再平衡

模型评估：用Rsuquare估计模型表现

定义：将某个特征设定为0，重新进行模型估计，观察Rsquare的减少

不同模型的重要特征是相似的：

所有的模型都发现了短期反转效应、特征波动率。树模型和NN在低和中等特质波动率发现了相当平坦的关系，但是在高特质波动率中较为显著。对于换手率差异更明显，OLS和ENet的斜率都是正的，而对于RF和GBRT和NN，发现了一个倒U型模式：换手率的极端正和负的预期回报低于中间区域。

基于树模型和NN模型的一个显著优势是，他们可以考虑到不同特征之间的相互作用：下面可视化NN对非流动、特质波动率、短期反转和市值的交互关系，通过改变这些特征，保留其他特征不变实现：

左上图表示：流动性非常差的股票（紫线）前一个月的收益高低差是最可观的

右上图表示：对于流动性强（蓝色和橙色）的公司，预期收益通过市值增加而增加

评价指标：

基于机器学习预测的发达市场多空收益率与新兴市场对应的预测方式相同，不能解释新兴市场的样本外收益。然而，仅根据发达市场数据估计的模型对新兴市场股票回报的预测几乎与新兴市场模型一样好。这些发现表明，发达市场和新兴市场的公司特征和未来股票收益之间存在类似的关系，但这些特征的定价在发达市场和新兴市场之间没有完全整合。此外，这些结果表明投资者在发达市场和新兴市场应用这种策略有潜在的多样化利益。

作者还指出，新兴机器学习策略的高回报主要不是来自高风险月份，也不会很快恢复，这表明反应不足的解释比基于风险的解释更有可能。尽管线性和机器学习模型都显示出与更高套利限额相关的股票的更高可预测性，但机器学习预测的影响不如线性回归预测明显，这表明机器学习模型在新兴市场的优越性并非源于套利的限制。

这个想法是叠加一个规模化的波动率指标，旨在改变风险敞口，并希望产生更高的夏普比率。本文通过分析扩展对投资组合的影响来“调整”基础研究。考虑了四个Fama-French因素：Mkt-RF，SMB，HML和MOM。更有趣的问题是，规模波动性是否对时间因素有用。

已实现波动率的倒数来衡量股票因子的回报改善了业绩。检查了另外两种加权方案，包括风险平价（RP）和等权重（EW），结果相似，但略低。总体而言，这些因素的缩放改善了夏普比率，索蒂诺比率和下行风险指标MDD。与买入并持有基准相比，EW 和 MV 策略在所有指标上都表现出色，但最近一段时间除外。RP战略产生了好坏参半的结果，在所考虑的10年窗口期中有5个超过了基准。

作者认为，可以通过波动性缩放来管理因子回报的风险来实现择时因素。如果波动性是可预测的，那么使用基于其过去表现的定时信号可能是有价值的。当然，因子回报的显著自相关函数（ACF）是使时序策略起作用所必需的。对滞后12个月的因子回报的ACF测试是单独测试的，结果对MKt-RF，SMB和HML具有重要意义。正如人们所料，几乎没有证据表明MOM的可预测性，因为自相关已经在MOM因子本身的结构中捕获。

因子择时策略通过仅持有在过去 12 个月内表现出最佳表现的缩放因子来构建的，从而随着时间的推移进行因子轮动。该策略返回以下统计数据：回报率为 7.5% vs BMK 为 5.1%;夏普比率 .90 与 .65 BMK;MDD 3.92 对比 5.7 BMK;和索蒂诺比率 .05 与 .03 BMK。