第38卷第13期2008年7月数学的实践与认识M AT HEM A TICS IN PRACTICE AND T HEORY V o l.38 No.13 July ,2008 金融证券分析师投资评级数据的分析和挖掘金轶雯1,2, 白峰杉1(1.清华大学数学科学系,北京 100084)(2.中国国际金融有限公司,北京 100004)摘要: 证券分析师为股票市场提供上市公司的信息,是股票市场上的重要角色.随着中国股市的发展,各类证券投资咨询机构发布的投资研究报告也越来越多,它们对投资者特别是机构投资者发挥着越来越大的影响.通过建立该问题的数学和统计模型,评估了证券分析师投资建议的实际效果,并通过数据挖掘方法进一步筛选出了各个行业的明星分析师.对金融证券分析师投资评级数据的深入分析和挖掘,有助于投资者更加合理有效的使用这些信息.关键词: 投资评级;超额收益;上调;下调1 引 言收稿日期:2005-12-10 华尔街有这样一句家喻户晓的谚语:不要依靠金融分析师的盈利预测和投资评级买卖股票,但是也不要抛弃他们.盈利预测和投资评级数据中隐藏着重要的信息,如何分析挖掘并合理利用它们,其重要性当然是不言而喻.这些信息无疑是经济学家、统计学家希望挖掘的矿源,设法从中得到闪着金光的信息和有价值的投资策略.股票市场是信息高度密集型的,股价的涨落对于信息的变动十分敏感.而股票分析师作为向投资者提供上市公司信息的群体,在股票市场中扮演着重要的角色[1-3].在美国,金融市场日趋成熟,分析师群体对股票市场有相当大的影响力.随着中国证券市场的发展和成熟,越来越多的投资者(特别是机构投资者)开始关注和积极利用分析师的投资报告.但是,许多投资者在获得盈利预测和投资评级数据后,往往因为不能正确使用这些数据,反而对投资造成不良的影响.一支股票往往有众多分析师跟踪,给出的投资建议也不尽相同,投资者应该听取哪位分析师的建议呢?而且投资评级的给出是相对于一定的时间段的,不同投资风格的投资者持股时间是不相同的.即使是在欧美最发达的金融市场,买入评级的股票也未必比卖出评级的股票市场表现更好[2-4].评估这些投资报告与市场实际走向吻合的程度是本文研究的目标.通过分析报告的预测能力和分析师群体对于股票市场的影响力,投资者才能够基于这些报告来制定和优化投资策略.我们搜集整理了400多份分析师的研究报告,建立了关于盈利预测和投资评级变化的数据库.在利用统计方法对数据进行的预处理和可视化的基础上,对于分析师群体的预测能力及其准确性和对中国股票市场的影响程度进行了研究.结果表明,分析师调低盈利数据和评级报告的预测能力低于调高的报告;分析师群体的一致评级投资报告,在统计意义下显著高于大市收益率.分析师的预测能力是与行业相关的,故进一步通过数据挖掘方法,讨论了筛选行业明星分析师的问题.2 数据准备数据准备是进一步建立数学和统计模型的前提,是数据分析与数据挖掘中最花费时间的步骤,同时也是整个研究工作的关键.本研究的数据准备工作主要包括以下步骤:步骤一:样本选择选择了上证50指数和深圳100指数中共计26家上市公司,每一家上市公司建立一个独立的报告库,收录相关的证券分析师报告.上证50指数和深证100指数,是分别从上海和深圳证券交易所的上市公司中挑选出规模大、流动性好的50和100只股票组成的样本股,综合反映了上海及深圳证券市场的整体状况,具有相当的权威性和市场覆盖性.步骤二:标准化对每份报告设置以下五个要素来描述:报告来源、报告日期、股票名称、盈利预测、投资评级.步骤三:报告有效性判别信息的变动才会导致股价的变动.因此我们对报告库中的每份报告按照时间顺序将要素整理成序列,比较目标报告与其上一份报告,并记录盈利预测和投资评级的变化.定义所有盈利预测或投资评级有变化的报告为有效报告,记录其变化项目和变化方向.如下三类报告被定义为是无效的,1.无变化报告:研究机构一般要定期给出报告,有相当一部分报告的盈利预测和投资评级与上一份相比并无变化;该报告本身被视为无效,相应记录作为后续报告的参照.2.首次关注报告:分析师对某只股票首次给出的评级报告;该报告的记录仅作为后续报告的参照.3.不连续报告:由于样本库的丢失等原因造成某份报告的上一份报告缺失,从而无法界定其变化.步骤四:指标化如何刻画一份报告的有效性是数据分析的关键.这里我们采用事件研究法中的超额收益来检验股价对分析师报告披露的反应.事件研究方法由Fama,Fisher,Jensen 和Roll 提出[5,6],并被广泛地运用于检验事件发生前后的价格变化,或价格对信息披露的反应程度.超额收益是其中一个很重要的指标,用来度量股价对事件发生或信息披露异常反应的程度.在本文中超额收益这个指标一方面可以剔除市场或者行业突发事件的影响,使变量集中反映该个股的影响因素,另一方面可以用持有策略考察累计收益.定义:超额收益=实际收益率-市场平均收益率.ER ij =r ij -r mjr ij =P ij -P i 0P i 0×100%r mj =I j -I 0I 0×100% E R ij :第i 份报告对应的股票,自报告日到j 个交易日期间相对于大盘的超额收益率.r ij :第i 份报告自报告日到第j 个交易日期间对应股票的持有期收益率.r mj :第i 份报告自报告日到第j 个交易日期间大盘的持有期收益率.1913期金轶雯,等:金融证券分析师投资评级数据的分析和挖掘P ij :第i 份报告对应的股票自报告后j 个交易日的收盘价.P i 0:第i 份报告对应的股票在报告当日的收盘价.I j :报告日后j 个交易日大盘收盘的指数.I 0:报告当日大盘收盘的指数.步骤五:建立数据库数据库中的样本来源于六家研究机构(申万41份、国泰98份、中金118份、招商60份、光大21份、天相84份),覆盖26家上市公司,共收录研究报告422份,其中有效报告312份.数据库的记录描述如下:1.以分析师报告公布日为时间原点,向后取共计60个交易日作为待考察的时间区间.即ER ij .j =1,2,3,...,60;i =1,2,3, (312)2.若分析师报告变动方向为调高,则=ER ij ,以描述采取买入持有策略的超额收益.3.若分析师报告变动方向为调低,则=-E R ij ,以描述采取卖出回避策略的超额收益.从整个数据库中可提取出312*60的超额收益矩阵,每份报告对应一个60维的超额收益向量.3 数据可视化数据可视化使我们对研究对象的整体有宏观的理解和把握.原点表示收到评级报告日期,横轴代表收到报告后的交易日天数,纵轴代表超额收益.每一根柱(由颜色深浅区分)分别代表从收到报告至该交易日收市时,所有样本超额收益的均值和标准差,它们组成两个时间序列,如图1所示.可以看出分析师报告超额收益的样本均值为正,并且随时间而增加,即中长期来看,分析师报告整体可以为投资者带来正的超额收益.图1 分析师报告全体样本的超额收益的均值-标准差图我们观察到在数据库的312份有效报告中,盈利数据上调的207家,下调的94家,投资评级上调的52家,下调的32家.我们将样本中所有调低盈利数据和评级的报告组成一个集合,来考察分析师调低报告的超额收益,如图2.20数 学 的 实 践 与 认 识38卷图2 调低评级报告样本超额收益的均值-标准差图从总体来看,分析师倾向于上调盈利数据和投资评级.分析师报告样本中调低盈利数据和投资评级的这部分子样本,均值没有明显大于零,即调低评级的报告预测能力不如调高评级的报告.但投资者依然可以听取分析师的建议回避这类股票,从而降低丧失投资其它股票获得超额收益的机会成本.4 分析师群体的假设检验在讨论了分析师报告全体样本以及调低报告样本的预测能力后,进一步我们选取子样本,满足以下条件:第一,对同一只股票进行评级;第二,报告公布日期在相邻三天内;第三,报告的盈利预测和评级变动方向一致.定义这个集合为一致评级报告.直观上说,在同一时段,分析师群体对同一只股票的有一致的评级变化,那么这个集合的超额收益应当要高于全样本.图3 一致评级报告样本超额收益的均值-标准差图从图3中可以看出,在标准差相当的情况下,一致评级报告样本的均值确实要高于全样本.由于所选样本数量有限,能否得出一致评级报告总体有正的超额收益,也即总体的均值是否大于零?我们下面通过作t 检验来解答上面提出的问题.此时需要检验的假设是2113期金轶雯,等:金融证券分析师投资评级数据的分析和挖掘H0: 0=0, H1: >0.检验的拒绝域为t=X-- 0S/nt (n-1).分别取 =0.1和0.05,短期末、中期和长期的t值都落在了拒绝域中.所以,我们在显著性水平 =0.05下拒绝H0,即认为不同分析师在相邻时间对同一只股票推出的盈利数据和评级变动一致的报告,在其报告推出的短期末、中期和长期,有正的超额收益.表1 假设检验检验时间段短期中期长期初(1~5天)中(6~10天)末(11~20天)21~40天41~60天平均值X-0.0034510.0058320.0162730.0256940.039343样本方差S20.000490.0014650.0016970.0043310.006797标准偏差S0.022130.0382690.0411970.0658070.082445计数n3333333228t-统计量t=X-- 0S/n0.895710.875497 2.269139 2.208662 2.525091t0.1(n-1) 1.3077 1.3077 1.3077 1.3086 1.3125t0.05(n-1) 1.6924 1.6924 1.6924 1.6939 1.70115 明星分析师的数据挖掘作为分析师群体的样本,我们关注他们作为一个整体的表现,从而判断他们对整个股市的影响力.对于投资者而言,他们更加关注的是分析师个体的表现,即谁的报告更加准确.为投资者寻找出明星分析师更有实际价值,所以这也是本文的重点.数据库中的数据是绝对的,数字所对应的是超额收益率.而如果考察每个分析师的表现,相对的排名才是关键.为了得到比较客观的排名,我们先将数据库进行概念分层,使得每份报告在报告日后每一天的超额收益在群体中有相对的等级和对应的评分;其次,我们通过对评分数据的聚集和汇总,按时间顺序将每份报告分割为短、中、长期三个区间,且将短期再细分为初、中、末三个小区间,得到期间各自的平均值.这样每份报告的有效性就由5个评分值来描述;最后将所有样本按行业分类,按分析师汇总,按时间分组,并考虑对应股票的走势对分组进行调整,最终得到排名.1)数据预处理:步骤一:数据归约和概念分层生成数值分层是通过将属性域划分为区间,离散化技术可以用来减少给定连续属性值的个数.对于给定的数值属性,概念分层定义了该属性的一个离散化.通过收集并用较高层的概念(如本文中ex cellent,g ood,fair,po or,bad)替换较低层的概念(如本文中属性超额收益的数字值),概念分层可以用来归约数据.通过这种数字概化,虽然细节丢失了,但概化后的数据更有意义、更容易解释,并且所需的空间比原数据少.我们的作法是:取报告日到60个交易日为时间区间,所有分析师给出报告相同交易日22数 学 的 实 践 与 认 识38卷后的超额收益为一组,作直方图,得到60张.下图为其中之一:所有分析师给出报告40天后超额收益的直方图,从图中我们可以看到近似正态的分布.图4 报告日后第40天样本超额收益率的分布及频率图为了得到每份报告的在报告日后每个交易日超额收益的相对排名,我们对数据进行分层,规则如下:第一,将所有报告的表现分为5大类,ex cellent ,go od ,fair ,poor ,bad ,并赋以5,4,3,2,1的分值;第二,分类依据:各份报告在直方图中的位置,即取15%,35%,65%,85%四个分位点作为分界点.表2 数据分类分布85%~100%65%~85%35%~65%15%~35%0%~15%属性Excellen t Good Fair Poor Bad 赋值54321步骤二:数据变换在数据挖掘中,聚集是指对数据进行汇总和聚集.在这里,我们聚集日超额收益的得分,根据投资经理的建议将60个交易日按时间分段,从而计算得到短期、中期、长期的平均收益得分.表3 时间分类检验时间段短期中期长期1~5天6~10天11~20天21~40天41~60天2)聚类分析在通过数据分层和聚集后,我们得到了每份报告对应的5个时期的得分值.同时,观察个股的走势图后,我们发现在股价不同波段给出评级报告难度是不同的,如果在上升波段给出上调的评级,显然不能与下降波段中给出上调评级置于同组评估,因为后者属于逆势而为,难度相当大,除非有相当的把握,否则很难预测准确.因此如果直接按时间区间取均值比较,会忽视每份报告在公布当日所面临的难度差别,从而最终可能扭曲分析师的相对排名.因此我们需要以报告在相似的时间区段和股价波段的相对排名来替代简单的平均值.综合考虑时间和股价因素,我们对数据进行聚类分析的具体原则如下:第一,按时间顺序分组,以三个月作为基本分段,每组涵盖3~5个样本,若在三个月内2313期金轶雯,等:金融证券分析师投资评级数据的分析和挖掘24数 学 的 实 践 与 认 识38卷样本数大于5,则考虑继续细分,保证每组样本数比较均衡.第二,根据股价走势的波段对样本分组进行调整,即若分组时间段[a,b]涵盖股价由上升变为下降或者由下降转为上升的突变点c,则以突变点c为新的分组点,视组内样本个数将原时间区间[a,b]划分为[a,c]和[c,b]或者直接将区间[a,c]和[c,b]归入各自相邻的区间.3)结论支持我们通过上述方法得到的分析师排名,与《新财富》杂志通过向基金经理发放调查问卷为分析师打分的形式得到的排名有很大程度上的一致性[7,8].6 结 论本文通过数学和统计建模,评估了证券分析师投资建议的影响力,通过数据挖掘方法给出了行业明星分析师的筛选方法.本文的框架结构如下:样本选取数据预处理数据可视化分析师群体假设检验聚类分析寻找明星分析师数据支持和结论我们得到了以下结论:第一,总体来看,分析师的报告可以给投资者带来正的超额收益,尤其是中长期;第二,调低盈利数据以及评级的报告预测能力不如调高的报告;第三,一致评级投资报告在统计意义下显著高于大市收益率;第四,数据挖掘方法可以筛选出各个行业的明星分析师.本文的研究对实际应用具有指导意义:第一,投资者听取分析师群体的每一份建议,不考虑交易成本时,能够获得正的超额收益;第二,当投资者面对调低盈利预测和评级数据的报告时,要更加谨慎参考,采用回避的策略;第三,当不止一位分析师同向变动盈利预测或者投资评级时,投资者可采用积极听取的策略;第四,明星分析师的筛选结果能够帮助投资者对分析师的历史表现有所把握,当投资者拿到一份最新的分析师报告时,可根据他自身的投资特性(短、中、长期)以及历史上各区段最佳分析师名单来确定该份报告的参考价值.中国国情使得中国股市对于研究报告的响应存在很多不确定性.但随着机构投资者力量的壮大,以及价值投资理念的深入人心,分析师评级数据的利用这个课题有很大的应用潜力和一定的前瞻性.参考文献:[1] Barb er B,L ehavy R,M cNichols M,Tru eman B.Can inves tor s pr ofit from th e prophets?Secur ity an alys trecommendations and stock returns[J].J ou rnal of Finan ce,2001,56:531-563.[2] Barb er B ,Lehavy R ,M cNich ols M ,Tr ueman B .Prophets and losses :Reas sess ing th e retur ns to analysts ′stockrecommendations [J].Fin ancial An alys ts Journal,2003,59:88-96.[3] Ivkovic Z,Jegadees h N.The timing an d th e value of forecast and recomm endation revision s [J ].Journal ofFinan cial Economics,2004,73:433-463.[4] Womack K L.Do brokerage analysts ′recommendation s have investment valu e[J].Jou rnal of Finance,1996,51:137-167.[5] Cow les A .Can stock market forecas ters forecas t[J ].E conometrica,1933,1:309-324.[6] Fama E F.Efficien t capital m ark ets:A review of th eory and empirical w ork [J ].Jou rnal of Finance,1970,25:383-417.[7] 2003最佳分析师探寻真实价值[J ].新财富,2003,6:45-49.[8] 最佳分析师脱颖而出.新财富,2004,8:68-73.Mining the Data of the EquityAnalysts ′RecommendationsJIN Yi -w en 1,2, BAI Feng -shan 1(1.T sing hua U niver sity ,Beijing 100084,China)(2.China International Ca pital Co rpor ation L imit ed,Beijing 100004,China)Abstract : Equity analy sts ser ve an impo rt ant ro le in br ing ing infor matio n abo ut companies tothe sto ck ma rket.With the development o f stock mar ket in China,the influence o f the equityanaly sis and their r epo rt s has increased considera bly in t he recent year s .m athematical andstatistical models are est ablished in t his paper to ex amining the info rmaiton value of analysts ′reco mmendations.I t is sho wn that the ana ly st r ecommendatio n do have inv estm ent v alue in the lo ng term especially to lar g e institutions .Data mining str ategies ar e applied t o select t he staranaly sts amo ng t he different industr ies .T his wo uld be helpful in using the infor matio nefficiently.Keywords : reco mmendation ;abnor mal retur n ;upg r ade ;do wng rade 2513期金轶雯,等:金融证券分析师投资评级数据的分析和挖掘。