您所在的位置:黄金理财网 > 交易行情 >

蛾儿雪柳黄金缕从加权IC到机器学习:高频因子多头失效的修正

“海量”专题(163)——从加权IC到机器学习:高频因子多头失效的修正

2020-04-03 08:44 来源:海通量化团队

原标题:“海量”专题(163)——从加权IC到机器学习:高频因子多头失效的修正

股票的因子暴露和未来收益率的截面相关系数,即因子IC,是评判因子有效性的重要标准。在实践中,如果一个新的因子与原始因子(市值、估值、非线性市值、换手率、特质波动率、非流动性、反转、ROE、ROE同比变化,以下简称9因子)正交后的IC越高,意味着该因子很有可能会提升原始组合的表现。

然而,这一结论似乎对很多高频因子并不成立。高频因子虽然有较高的IC,但在加入原始模型构建股票多头组合后,对收益的提升并不显著。造成这种现象的原因是什么,如何进行修正,本文尝试给出有一定可行性的解决方案。

1

高频因子的多头失效现象

1.1

高频因子的分组收益

分组收益是体现因子有效性的常用方式。一般情况下,IC越高的因子,分组后的多空收益也越高。下表展示了海通量化团队前期开发的11个高频因子(因子定义可参考相关专题报告,已与9因子正交)在中证500成分股内的IC,以及分五组后的收益。其中,多头/空头组特指第1、第5组(视因子的选股方向而定);次多头/空头组特指第2、第4组,中值组特指第3组。

蛾儿雪柳黄金缕从加权IC到机器学习:高频因子多头失效的修正

由上表可见,IC与多空收益正相关。如,大买成交金额占比、改进反转和尾盘成交量占比的IC分别为4.8%、3.5%和5.0%,对应的多空收益分别为16.36%、11.04%、14.73%。从这两个角度看,三个因子的选股能力十分突出。然而,如果只看多头组的收益,情况却并非如此,IC高并不一定对应多头组的收益高。以多空收益最高的大买成交金额占比为例,多头组相对全市场平均的超额收益占多空收益的比例不足30%。而大买成交集中度的多头组收益甚至不如全市场平均。这种现象,我们称为多头失效。

在实际构建组合时,我们的目标通常是追求多头端的预期收益最大化。如果加入股票收益预测模型的因子都有IC高,但多头失效的特征。那么,可以想象,该因子对组合收益的提升幅度并不会太大。甚至,还有可能影响原来的股票排序,降低组合收益。以多头失效最为严重(多头组超额收益占多空收益的比例仅为-31.64%)的大买成交集中度因子为例,将它加入原始的9因子模型,构建最简单的最大化预期收益组合(预期收益最高的100个股票的等权组合,下同,并简称组合),其累计收益如下图所示。

展开全文

蛾儿雪柳黄金缕从加权IC到机器学习:高频因子多头失效的修正

如下表所示,虽然大买集中度因子的IC为0.017,t值为2.41,但加入9因子模型之后,组合相对中证500的超额收益反而出现了下降。

蛾儿雪柳黄金缕从加权IC到机器学习:高频因子多头失效的修正

进一步考察复合因子IC可以发现,尽管加入大买成交集中度后,复合因子IC从6.7%小幅上升至6.8%,但多头组(复合因子得分最高的20%股票)的IC却从2.05%降至1.98%。根本原因是复合因子的高IC绝大部分来自空头端,即,股票收益与因子暴露在空头端有很好的线性相关性。而到了多头端,相关性会逐步减弱,甚至反转。

这种现象可通过如下的简单模拟来描述。图中横轴表示因子值,红线代表相应的收益。显然,当因子值小于0.5时,收益与因子值显著正相关;而当因子值大于0.5之后,则变为明确的负相关。蓝线表示根据因子值和收益之间的线性回归得到的预期收益。

蛾儿雪柳黄金缕从加权IC到机器学习:高频因子多头失效的修正

该模拟因子的IC高达0.907,然而,因子暴露较大的那部分股票,显然不是实际收益最高的。由此可见,常规的IC在评价因子有效性,尤其是多头端的效果时,可能会产生误导。

1.2

分组IC

因子IC的计算公式为

在分5组的假定下,如果将同属一组的股票看成一个子集,并定义该集合的IC为

那么,整体IC等于5个子集IC的和。由此,便可以评价每一组对整体IC的贡献。

下表展示了高频因子各个分组的IC。为便于比较,我们将因子IC均调整为正。若某一分组的IC为负,则说明该分组与整体反向。

蛾儿雪柳黄金缕从加权IC到机器学习:高频因子多头失效的修正

上一篇:今天黄金价格多少一克【金融观察】都是负油价惹的祸? 空头“猎杀”多头

下一篇:黄金模拟交易均线多头排列选牛股
TOP