对外经济贸易大学硕士学位论文银河证券营业部客户分类与活跃度预测姓名:陈晓霞申请学位级别:硕士专业:产业经济学指导教师:陈进;王锦炎20070401BRANCHCODE.SUBBRANCHCODE、MARKETCODE、STOCKHOLDER、CAPn=AL_ACCOUNT、STOCKCODE、STOCK_NAME、STOCK_QTY、MATCHPRICE、MATCHSUM、OCCURSUM、BUSn旺洛SFLAG、BAIANCESUMMARY。
证券账户信息表和资金股份变动表同时以STOCKHOLDER为主码,以升序排列,由于数据量庞大,本文抽取一半客户的数据作为研究对象,抽取的数据为STOCK.HOLDER0000000156到STOCKHOLDERA210157704,一共49670个证券账户,160240条交易记录。
首先利用Access查询生成表方法把证券账户信息表和资金股份变动表整合为一张表,发现有些客户在这三个月期问没有任何交易,因为没有交易所以也没有显示出他们的资产分布状况,这类客户就没有办法进行下一步分析,所以要剔除这些没有交易的客户。
同时,检查数据项是否缺失,由于某些原因,有些交易记录中缺少一些重要的数据值,比如交易量、交易价格等,所以要再删除掉这些不符合进一步分析的数据,最后整合的数据表命名为busyclient,查询生成表如图4.1所示:图4.1查询生成表busyclient资料来源:本文研究整理最后通过整合和筛选得到busyclient表,这就是一张有效数据表,如图4.2所示:图4.2busyclient表资料来源:本文研究整理表的字段属性如图4.3所示:图4.3表的字段属性资料来源:本文研究整理4.2.2统计计算银河证券客户分类与活跃度预测指标根据前面的流程图,在进行指标相关性检验前的工作就是统计计算相关指标,首先计算每个交易客户的交易次数、平均交易额、期末余额、总交易额:交易次数=TRADEDATE计数平均交易额-7--交易总额/交易次数期末余额=BALANCE最后一条记录对外经济贸易大学硕士论文总交易额=交易次数×平均交易额对busyclient表进行统计计算并生client_index表,SQL语句如下:SELECT【busyclient].STOCKHOLDER,Count([busyclient].TRADEDATE)AS交易次数,Avg([busyclient].MATCHSUM)AS平均交易额,Last([busyclient].BALANCE)AS期末余额,【交易次数】.【平均交易额】AS总交易额INTOclient_indexFROM[busyclientJGROUPBY【busyclient].STOCKHOLDERORDERBY【busyclient].STOCKHOLDER;生成的clientindex表如图4.4所示:图4.4client_index表资料来源:本文研究整理接着要计算总资产和持仓比例,因为没有盘后盘点数据,银河证券并没有实现保存盘后数据,所以本文只能以交易数据估算总资产和持仓比例,首先计算出每个客户的每个股票的交易次数、股票余额、平均交易价格以及每个股票的市值:交易次数=每只股票的TRADEDATE计数股票余额=每只股票最后记录的余额平均价格=每只交易价格之和/交易次数股票市值=股票余额×平均交易价格通过对busyclient表的统计分析,可以得出以上数据,SQL语句如下所示:SELECT【busyclient].STOCKHOLDER,fbusyclient].STOCK_NAME,Couut([busyclient].TRADEDATE)AS交易次数,Last([busyclient].STOCK_QTY)AS股票余额,Avg([busyclient].MATCH_PRICE)AS平均价格,【股票余额】1平均价格】AS市值INTOclienttradeFROM【busyclient】GROUPBY[busyclient].STOCKHOLDER,【busyclient].STOCK_NAMEORDERBY【busyclient].STOCKHOLDER,lbusyclient].STOCK_NAME;整理后数据如图4.5所示:图4.5client_trade表资料来源:本文研究整理为了更加进一步的了解客户活跃程度,分析客户的申购新股的频率也非常重要,为此专门对busyclient表统计计算每个客户的申购次数,在次不再详细说明图4.6clientallindex表资料来源:本文研究整理4.2.3银河证券客户分类与活跃度预测指标相关性检验本文在计算出所有指标之后,就进行对指标的相关分析,用以研究指标之间是否显著相关,所用的软件是SPSS。
相关分析是研究变量问密切程度的一种统计方法。
当分析多个事物之间的关系,而这种关系又往往是变量之问的数量关系时,可用双变量相关分析(BivariateCorrelation)方法,并作出统计学推断”。
SPSS包括三种双变量相关分析方法,分别是Pearson相关系数、Spearman等级相关系数、Kendall相关系数。
两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述。
Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,.适用范围要广些14。
对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。
Spearman相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和Y用相应的秩次代替即可。
Kendall’stan.b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况15。
"季忐辉、罗平,(SPSSforWindows统计分析教程》,电子工业出版社,2006年1月“林杰斌、刘明德,(SPSSll.0与统计模型构建》.清华大学出版社.2004年2月”李,占辉、罗平,{SPSSforWindows统计分析教程》,电子工业出版社,2006年1月对相关的有序变量进行非参数相关检验;取值范围在.1.1之问,此检验适合于正方形表格;计算积距pearson相关系数,连续性变量才可采用。
计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。
计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据16。
本文采用的是Spearman相关系数。
把client_allindex数据导入Spss软件中,修改variable的属性,包括type、width、Decimal、label、Measure等,其修改后的结果如图4.7所示:NameITypeWidthlDecimalLabellValuesMiss;ngColumnsIAJignMeasure1STOCk3-10LDERStnng’11一‘3甜ockhoider‰r≈帆.e11LeflNominal2交易次数Numeric…一『8筘…一“tradetimeeNone…’,None一8—一PightScale一3平均交易额Numericllo}oavgamouNNoneNone!BRightScale4期末余额’Numeric一‘:15}2balanceNonf…None;SRighiScale5总交易顿Numeric:15{0allamountNoneNone{8RightScale6总市值Numeric515|2ellstockNone:NonesBRightScale7息资产Numeric、1512;assetNoneNonei8RightScale8持仓比例Numenc1812percentageNoneNone,8Rl晰Scale9申购次数Numeric;S10rlewtlme¥None]None;8RightScale10股票种数一Numeric|5|0[stockkinds1None…~None…“18R心htscaIe图4.7variable属性值资料来源:本文研究整理然后保存数据文件命名为allindex.sav,选择spss的analyze--correlate--bivariate,在弹出的对话框中选择所有数值变量,选择spearman相关分析,如图4.8所示:图4.8spearman相关分析对话框资料来源:本文研究整理最后得到的结果output如图4.12所示:¨李志辉,罗平,tSPSSforWindows统计分析教程》,电子工业出版社.2006年1月29计算得出,交易次数3次以内的客户有3696人,最后把交易次数3次以内的定义为低度活跃客户,交易次数在4与16之间的定义为中度活跃客户,交易次数大于16的为高度活跃客户。
利用table节点查看数据表的ncwthncs变量,按ncwtimies降序排列.发现newtimes等于O的客户多达6.000多人,总人数是10359,所以过半的人是没有申购新股的。
因此定义newtimes为0的客户为不偏好新股,不为0的客户偏好新股。
Clementine软件有一个Derive功能,也就是依据某个变量衍生新变量,在本文中一共要衍生五个新变量congratulation、size、per、active、newstock,分别代表了客户的贡献度、总资产、持仓位、活跃度和新股偏好度。
所以要设置5个Derive节点,数据流如图4.23所示:全一⑩一@一@idetimesalllndex.szH"cor,,gratula_onSiZe图4.23Derive节点数据流图资料来源:本文研究整理每个Derive节点的新变量设置如图4.24、4.25、4.26、4.27、4.28所示:图4.24congratulation变量设置资料来源:本文研究整理匐删一@一一@阿一图4.25size变量设置资料来源:本文研究整理图4.26per变量设置资料来源:本文研究整理图4.27activc变量设置资料来源:本文研究整理图4.28newstock变量设置资料来源:本文研究整理用table节点查看数据表,可以看到新衍生的5个变量了,如图4.29所示:4.4.2关联规则应用图4.29添加新变量的数据表显示资料来源:本文研究整理接下来,分析一下客户指标数据之间的关系,在第二章中介绍了关联规则,关联规则能很好的分析出数据之间的联系。
在这里笔者使用的算法是GRI和WEB图。
Clementine在使用算法时最好都要先添加一个type节点来定义输入输出的属性。