太极量化多因子选股模型简论B
第二:因子的选取
候选因子的选取
(一)大数据因子搜索数据因子,搜索频率因子,搜索关键词因子,关注度因子,大众情绪因子等。
其中搜索数据因子影响较为显著。
(二)规模因子通过对给定时间内(时间为为6年)市场的分析,不管是从总市值、还是流通市值和自由流通市值看,A股市场存在较为显著的小盘股效应。
市值较小股票构造的组合整体上大幅超越沪深300指数,也**优于总市值较大股票构造的组合。
规模因子(总市值、流通市值、自由流通市值)是影响股票收益的重要因子,其中总市值因子最为显著。
(三)估值因子通过6年内市场的分析,整体上来说,从市盈率、市净率、市销率、市现率、企业价值倍数等估值指标看,估值较低的股票组合表现较好。
估值较低股票构造的组合整体上超越沪深300指数,也优于估值较高股票构造的组合。
估值因子(市盈率、市净率、市销率、市现率、企业价值倍数)是影响股票收益的重要因子,其中市盈率(PE,TTM)因子最为显著,其次是市现率(PCF,TTM)。
(四)成长类因子,营业收入同比增长率、营业利润同比增长率,归属于母公司的近利润同比增长率、经营活动产生的现金流金额
同比增长率。
(五)盈利因子通过对时间内市场的分析,整体上来说,从净资产收益率、总资产报酬率和销售毛利率等盈利性指标看,盈利能力较强的股票组合表现较好。
盈利能力较强股票构造的组合整体上超越沪深300指数,也优于盈利能力较弱股票构造的组合。
但销售净利率较高股票构造的组合表现反而较差,落后于沪深300指数,也落后于销售净利率较低股票构造的组合。
盈利因子(净资产收益率、总资产报酬率、销售毛利率)对股票收益的影响不是特别显著,其中净资产收益率指标较为显著。
(六)股东因子户均持股比例、、户均持股比例变化、机构持股比例变化。
其中机构持仓比例变化影响较为显著。
(七)分析师预测因子分析师预测因子(预测当年净利润增长率、预测当年主营业务收入增长率、最近1个月预测净利润上调幅度、最近1个月预测主营营业收入上调幅度、最近1个月盈利预测调高占比、最近1个月上调评级占比)是影响股票收益的重要因子,其中最近1个月净利润上调幅度是最为显著的正向因子。
(八)动量反转因子通过对时间内市场的分析,整体上来说,A 股市场上存在较为显著的反转效应,从前1个月涨跌幅、前两个月涨跌幅、前3个月涨跌幅、前6个月涨跌幅看,前期涨幅较小的股票组合表现较好,而前期涨幅较大的股票组合表现较差。
前期涨幅较小的股票构造的组合整体上超越沪深300指数,也优于盈前期涨幅较大的股票构造的组合。
动量反转因子(前1个月
涨跌幅、前两个月涨跌幅、前3个月涨跌幅、前6个月涨跌幅)是影响股票收益的重要因子,其中前1个月涨跌幅的反转效应较为显著。
(九)交投因子通过对时间内市场的分析,整体上来说,,从前1个月日均换手率看,前期交投较为清淡的股票组合表现较好,而前期交投活跃的股票组合表现较差。
前期交投清淡的股票构造的组合整体上超越沪深300指数,也优于前期交投活跃的股票构造的组合。
前1个月日均换手率由高到低排序处于各区间的组合表现。
(十)波动因子通过对时间内市场的分析,整体上来说,从前1个月波动率和前1个月振幅看,前期波动较小的股票表现较好,而前期波动剧烈的股票组合表现较差。
前期波动较小的股票构造的组合整体上超越沪深300指数,也优于前期波动剧烈的股票构造的组合。
波动因子(前1个月波动率、前1个月振幅)是影响股票收益的重要因子,其中前1个月波动率最为显著。
候选因子有效性检验
有效性检测主要是因子与未来收益之间的线性关系的检验,具体的检验准则按照下面的步骤进行:
(1)排序分组。
先对备选因子逐个按照因子的大小进行排序并分组。
进行的所有测试将备选股票池的股票分为5组。
每组160只股票。
(2)因子的有效性检验。
在历史回测中观察第五组收益率比第一组投资组合收益高或者低的频率,并观察第一组和第二组的合并组与第四组和第五组的合并组之间的检验差值。
如果这两个度量指标显示的数值的符号相同,并且合并组具有较高的收益差值,就可以初步认定该因子具有有效的可能。
用这个方法筛选出所有满足条件的备选因子。
(3)考察因子的分组与因子收益率之间的关系。
需要说明的是:这一步只是对因子进行粗筛选,并不需要因子与收益率之间满足严格的递增或者是递减关系,只要保证满足一定的相关关系即可。
经过有效性的检验的因子可以纳入到备选因子库。
有效但冗余因子的剔除
不同的选股因子可能由于内在的驱动因素大致相同等原因,所选出的组合在个股构成和收益等方面具有较高的一致性,因此其中的一些因子需要作为冗余因子剔除,而只保留同类因子中收益最好、区分度最高的一个因子。
例如成交量指标和流通量指标之间具有比较明显的相关性。
流通盘越大的,成交量一般也会比较大,因此在选股模型中,这两个因子只选择其中一个。
冗余因子剔除的方法:假设需要选出k 个有效因子,样本期共m 月,那么具体的冗余因子剔除步骤为:
(1)先对不同因子下的n个组合进行打分,分值与该组合在整个模型形成期的收益相关,收益越大,分值越高;
(2)按月计算个股的不同因子得分间的相关性矩阵;
(3)在计算完每月因子得分相关性矩阵后,计算整个样本期内相关性矩阵的平均值;
(4)设定一个得分相关性阀值MinScoreCorr,将得分相关性平均值矩阵中大于该阀值的元素所对应的因子只保留与其他因子相关性较小、有效性更强的因子,而其他因子则作为冗余因子剔除。
第三:选股策略
基于因子打分
首先选择影响股票收益的选股指标,并将每个选股指标转换为评分后,通过不同加权方法获得多因素综合评分,并以此为选股依据对股票进行筛选和构建投资组合。
运用多因素综合评分对股票进行排序分为上等、下等和其他三个等级,并将上等和下等中的股票按照市值加权构建最优和最劣两个投资组合。
基于因子排序
多个因子的大小分别排序,选择出排名靠前的股票构建投资组合。
该模型认为因子的大小与股票的未来收益之间存在着一定的相关关系。
不论这个相关关系是正向的还是反向的,只要这个相关关系得到确认,就可以为我们所用,作为选股的依据。
基于因子排序的多因子模型在排序前需要明确因子的重要程度。
重要的因子放在前面,次要的因子放在后面。
也就是说先按照重要的因子排序选出一个股票集合。
然后再按照次要的因子排序,选出
一个股票集合。
最终选出符合要求的投资组合。
基于因子排序因子的选择需要考虑单因子的表现以及各因子之间的相互关系。
同时该模型的构建也可以参考现有的选股逻辑。
之所以采用一些现有的选股逻辑主要是为了避免基于单因子排序选股的盲目性,可以更有效地利用选股过程中的一些先验信息。
对于提高选股成功率具有一定的指导意义。
该模型的具体操作步骤如下:
(1)明确需要因子的个数,以及因子的类型,构建合理的选股逻辑。
(2)从各大类因子中选择合适的具体因子。
这个过程可以通过计算机进行遍历操作,寻找最优秀的因子组合对因子组合进行排序,确定主要选股因子和次要选股因子。
(3)依次按照主要选股因子和次要选股进行排序。
例如我们想选出的股票作为第一档组合,可以按照主要选股因子排序先选出前的股票,然后再按照次要因子选出前的股票,这样股票数目就可以与单因子的结果相一致。
(4)对因子组合的超额收益和因子组别进行相关性分析。
因子排名最高的一档的超额收益率与组别排名最低的一档的超额收益率的取值是异号的,并且因子的大小与各档投资组合的收益率大致上是呈现正相关或者负相关关系,我们就可以认为该因子组合通过了因子的有效性检验。
然后,从时间序列维度对因子组合的历史表现的稳定性做进一步的检验。
如果不能通过稳定性检验
就认为该因子组合是无效的。
这时需要重复第二步到第四步的操作。
(5)跟踪从上一步筛序出来的因子组合的表现,对于能够在实盘中能够获得稳定收益的因子组合我们予以保留;对于在实盘中表现较差的策略,直接删除。
基于因子回归
基于因子回归的多因子模型,通过多元线性回归,对因子和未来收益之间的线性关系进行评估。
基于回归的多因子模型具有基于数据挖掘量化投资模型的特性。
可以更高效的在历史数据中发现一些有效的因子组合,指导我们的投资工作。
回归方程的系数可以看成是我们选股因子的权重。
假定这个回归关系是可以在下一期继续得到保留,将最新一期的因子值代入到回归方程中,得到回归方程的预测值,然后根据预测值的大小对股票进行排序,选择出取值较高的那一组股票作为我们的投资组合。
这样在m 个样本考察期中,我们就可以这样得到m组投资组合。
根据多因子选出的股票直接代入系统进行历史回测,得到回测报告。
直接根据回测报告中投资的收益的稳定性和盈利性,通过观察投资组合在历史行情中的表现检测稳定性。
通过对投资组合的平均收益率分析来验证其收益性。
全文此致
太极量化萧寓仁
20171217。