当前位置：文档之家› 银河证券营业部客户分类与活跃度预测

银河证券营业部客户分类与活跃度预测

对外经济贸易大学硕士学位论文银河证券营业部客户分类与活跃度预测姓名：陈晓霞申请学位级别：硕士专业：产业经济学指导教师：陈进;王锦炎20070401ＢＲＡＮＣＨＣＯＤＥ．ＳＵＢＢＲＡＮＣＨＣＯＤＥ、ＭＡＲＫＥＴＣＯＤＥ、ＳＴＯＣＫＨＯＬＤＥＲ、ＣＡＰｎ＝ＡＬ＿ＡＣＣＯＵＮＴ、ＳＴＯＣＫＣＯＤＥ、ＳＴＯＣＫ＿ＮＡＭＥ、ＳＴＯＣＫ＿ＱＴＹ、ＭＡＴＣＨＰＲＩＣＥ、ＭＡＴＣＨＳＵＭ、ＯＣＣＵＲＳＵＭ、ＢＵＳｎ旺洛ＳＦＬＡＧ、ＢＡＩＡＮＣＥＳＵＭＭＡＲＹ。

证券账户信息表和资金股份变动表同时以ＳＴＯＣＫＨＯＬＤＥＲ为主码，以升序排列，由于数据量庞大，本文抽取一半客户的数据作为研究对象，抽取的数据为ＳＴＯＣＫ．ＨＯＬＤＥＲ０００００００１５６到ＳＴＯＣＫＨＯＬＤＥＲＡ２１０１５７７０４，一共４９６７０个证券账户，１６０２４０条交易记录。

首先利用Ａｃｃｅｓｓ查询生成表方法把证券账户信息表和资金股份变动表整合为一张表，发现有些客户在这三个月期问没有任何交易，因为没有交易所以也没有显示出他们的资产分布状况，这类客户就没有办法进行下一步分析，所以要剔除这些没有交易的客户。

同时，检查数据项是否缺失，由于某些原因，有些交易记录中缺少一些重要的数据值，比如交易量、交易价格等，所以要再删除掉这些不符合进一步分析的数据，最后整合的数据表命名为ｂｕｓｙｃｌｉｅｎｔ，查询生成表如图４．１所示：图４．１查询生成表ｂｕｓｙｃｌｉｅｎｔ资料来源：本文研究整理最后通过整合和筛选得到ｂｕｓｙｃｌｉｅｎｔ表，这就是一张有效数据表，如图４．２所示：图４．２ｂｕｓｙｃｌｉｅｎｔ表资料来源：本文研究整理表的字段属性如图４．３所示：图４．３表的字段属性资料来源：本文研究整理４．２．２统计计算银河证券客户分类与活跃度预测指标根据前面的流程图，在进行指标相关性检验前的工作就是统计计算相关指标，首先计算每个交易客户的交易次数、平均交易额、期末余额、总交易额：交易次数＝ＴＲＡＤＥＤＡＴＥ计数平均交易额－７－－交易总额／交易次数期末余额＝ＢＡＬＡＮＣＥ最后一条记录对外经济贸易大学硕士论文总交易额＝交易次数×平均交易额对ｂｕｓｙｃｌｉｅｎｔ表进行统计计算并生ｃｌｉｅｎｔ＿ｉｎｄｅｘ表，ＳＱＬ语句如下：ＳＥＬＥＣＴ【ｂｕｓｙｃｌｉｅｎｔ］．ＳＴＯＣＫＨＯＬＤＥＲ，Ｃｏｕｎｔ（［ｂｕｓｙｃｌｉｅｎｔ］．ＴＲＡＤＥＤＡＴＥ）ＡＳ交易次数，Ａｖｇ（［ｂｕｓｙｃｌｉｅｎｔ］．ＭＡＴＣＨＳＵＭ）ＡＳ平均交易额，Ｌａｓｔ（［ｂｕｓｙｃｌｉｅｎｔ］．ＢＡＬＡＮＣＥ）ＡＳ期末余额，【交易次数】．【平均交易额】ＡＳ总交易额ＩＮＴＯｃｌｉｅｎｔ＿ｉｎｄｅｘＦＲＯＭ［ｂｕｓｙｃｌｉｅｎｔＪＧＲＯＵＰＢＹ【ｂｕｓｙｃｌｉｅｎｔ］．ＳＴＯＣＫＨＯＬＤＥＲＯＲＤＥＲＢＹ【ｂｕｓｙｃｌｉｅｎｔ］．ＳＴＯＣＫＨＯＬＤＥＲ；生成的ｃｌｉｅｎｔｉｎｄｅｘ表如图４．４所示：图４．４ｃｌｉｅｎｔ＿ｉｎｄｅｘ表资料来源：本文研究整理接着要计算总资产和持仓比例，因为没有盘后盘点数据，银河证券并没有实现保存盘后数据，所以本文只能以交易数据估算总资产和持仓比例，首先计算出每个客户的每个股票的交易次数、股票余额、平均交易价格以及每个股票的市值：交易次数＝每只股票的ＴＲＡＤＥＤＡＴＥ计数股票余额＝每只股票最后记录的余额平均价格＝每只交易价格之和／交易次数股票市值＝股票余额×平均交易价格通过对ｂｕｓｙｃｌｉｅｎｔ表的统计分析，可以得出以上数据，ＳＱＬ语句如下所示：ＳＥＬＥＣＴ【ｂｕｓｙｃｌｉｅｎｔ］．ＳＴＯＣＫＨＯＬＤＥＲ，ｆｂｕｓｙｃｌｉｅｎｔ］．ＳＴＯＣＫ＿ＮＡＭＥ，Ｃｏｕｕｔ（［ｂｕｓｙｃｌｉｅｎｔ］．ＴＲＡＤＥＤＡＴＥ）ＡＳ交易次数，Ｌａｓｔ（［ｂｕｓｙｃｌｉｅｎｔ］．ＳＴＯＣＫ＿ＱＴＹ）ＡＳ股票余额，Ａｖｇ（［ｂｕｓｙｃｌｉｅｎｔ］．ＭＡＴＣＨ＿ＰＲＩＣＥ）ＡＳ平均价格，【股票余额】１平均价格】ＡＳ市值ＩＮＴＯｃｌｉｅｎｔｔｒａｄｅＦＲＯＭ【ｂｕｓｙｃｌｉｅｎｔ】ＧＲＯＵＰＢＹ［ｂｕｓｙｃｌｉｅｎｔ］．ＳＴＯＣＫＨＯＬＤＥＲ，【ｂｕｓｙｃｌｉｅｎｔ］．ＳＴＯＣＫ＿ＮＡＭＥＯＲＤＥＲＢＹ【ｂｕｓｙｃｌｉｅｎｔ］．ＳＴＯＣＫＨＯＬＤＥＲ，ｌｂｕｓｙｃｌｉｅｎｔ］．ＳＴＯＣＫ＿ＮＡＭＥ；整理后数据如图４．５所示：图４．５ｃｌｉｅｎｔ＿ｔｒａｄｅ表资料来源：本文研究整理为了更加进一步的了解客户活跃程度，分析客户的申购新股的频率也非常重要，为此专门对ｂｕｓｙｃｌｉｅｎｔ表统计计算每个客户的申购次数，在次不再详细说明图４．６ｃｌｉｅｎｔａｌｌｉｎｄｅｘ表资料来源：本文研究整理４．２．３银河证券客户分类与活跃度预测指标相关性检验本文在计算出所有指标之后，就进行对指标的相关分析，用以研究指标之间是否显著相关，所用的软件是ＳＰＳＳ。

相关分析是研究变量问密切程度的一种统计方法。

当分析多个事物之间的关系，而这种关系又往往是变量之问的数量关系时，可用双变量相关分析（ＢｉｖａｒｉａｔｅＣｏｒｒｅｌａｔｉｏｎ）方法，并作出统计学推断”。

ＳＰＳＳ包括三种双变量相关分析方法，分别是Ｐｅａｒｓｏｎ相关系数、Ｓｐｅａｒｍａｎ等级相关系数、Ｋｅｎｄａｌｌ相关系数。

两个连续变量间呈线性相关时，使用Ｐｅａｒｓｏｎ积差相关系数，不满足积差相关分析的适用条件时，使用Ｓｐｅａｒｍａｎ秩相关系数来描述。

Ｓｐｅａｒｍａｎ相关系数又称秩相关系数，是利用两变量的秩次大小作线性相关分析，对原始变量的分布不作要求，属于非参数统计方法，．适用范围要广些１４。

对于服从Ｐｅａｒｓｏｎ相关系数的数据亦可计算Ｓｐｅａｒｍａｎ相关系数，但统计效能要低一些。

Ｓｐｅａｒｍａｎ相关系数的计算公式可以完全套用Ｓｐｅａｒｍａｎ相关系数计算公式，但公式中的ｘ和Ｙ用相应的秩次代替即可。

Ｋｅｎｄａｌｌ’ｓｔａｎ．ｂ等级相关系数：用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况１５。

＂季忐辉、罗平，（ＳＰＳＳｆｏｒＷｉｎｄｏｗｓ统计分析教程》，电子工业出版社，２００６年１月“林杰斌、刘明德，（ＳＰＳＳｌｌ．０与统计模型构建》．清华大学出版社．２００４年２月”李，占辉、罗平，｛ＳＰＳＳｆｏｒＷｉｎｄｏｗｓ统计分析教程》，电子工业出版社，２００６年１月对相关的有序变量进行非参数相关检验；取值范围在．１．１之问，此检验适合于正方形表格；计算积距ｐｅａｒｓｏｎ相关系数，连续性变量才可采用。

计算Ｋｅｎｄａｌｌ秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据。

计算Ｓｐｅａｒｍａｎ秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据１６。

本文采用的是Ｓｐｅａｒｍａｎ相关系数。

把ｃｌｉｅｎｔ＿ａｌｌｉｎｄｅｘ数据导入Ｓｐｓｓ软件中，修改ｖａｒｉａｂｌｅ的属性，包括ｔｙｐｅ、ｗｉｄｔｈ、Ｄｅｃｉｍａｌ、ｌａｂｅｌ、Ｍｅａｓｕｒｅ等，其修改后的结果如图４．７所示：ＮａｍｅＩＴｙｐｅＷｉｄｔｈｌＤｅｃｉｍａｌＬａｂｅｌｌＶａｌｕｅｓＭｉｓｓ；ｎｇＣｏｌｕｍｎｓＩＡＪｉｇｎＭｅａｓｕｒｅ１ＳＴＯＣｋ３－１０ＬＤＥＲＳｔｎｎｇ’１１一‘３甜ｏｃｋｈｏｉｄｅｒ‰ｒ≈帆．ｅ１１ＬｅｆｌＮｏｍｉｎａｌ２交易次数Ｎｕｍｅｒｉｃ…一『８筘…一“ｔｒａｄｅｔｉｍｅｅＮｏｎｅ…’，Ｎｏｎｅ一８—一ＰｉｇｈｔＳｃａｌｅ一３平均交易额Ｎｕｍｅｒｉｃｌｌｏ｝ｏａｖｇａｍｏｕＮＮｏｎｅＮｏｎｅ！ＢＲｉｇｈｔＳｃａｌｅ４期末余额’Ｎｕｍｅｒｉｃ一‘：１５｝２ｂａｌａｎｃｅＮｏｎｆ…Ｎｏｎｅ；ＳＲｉｇｈｉＳｃａｌｅ５总交易顿Ｎｕｍｅｒｉｃ：１５｛０ａｌｌａｍｏｕｎｔＮｏｎｅＮｏｎｅ｛８ＲｉｇｈｔＳｃａｌｅ６总市值Ｎｕｍｅｒｉｃ５１５｜２ｅｌｌｓｔｏｃｋＮｏｎｅ：ＮｏｎｅｓＢＲｉｇｈｔＳｃａｌｅ７息资产Ｎｕｍｅｒｉｃ、１５１２；ａｓｓｅｔＮｏｎｅＮｏｎｅｉ８ＲｉｇｈｔＳｃａｌｅ８持仓比例Ｎｕｍｅｎｃ１８１２ｐｅｒｃｅｎｔａｇｅＮｏｎｅＮｏｎｅ，８Ｒｌ晰Ｓｃａｌｅ９申购次数Ｎｕｍｅｒｉｃ；Ｓ１０ｒｌｅｗｔｌｍｅ￥Ｎｏｎｅ］Ｎｏｎｅ；８ＲｉｇｈｔＳｃａｌｅ１０股票种数一Ｎｕｍｅｒｉｃ｜５｜０［ｓｔｏｃｋｋｉｎｄｓ１Ｎｏｎｅ…～Ｎｏｎｅ…“１８Ｒ心ｈｔｓｃａＩｅ图４．７ｖａｒｉａｂｌｅ属性值资料来源：本文研究整理然后保存数据文件命名为ａｌｌｉｎｄｅｘ．ｓａｖ，选择ｓｐｓｓ的ａｎａｌｙｚｅ－－ｃｏｒｒｅｌａｔｅ－－ｂｉｖａｒｉａｔｅ，在弹出的对话框中选择所有数值变量，选择ｓｐｅａｒｍａｎ相关分析，如图４．８所示：图４．８ｓｐｅａｒｍａｎ相关分析对话框资料来源：本文研究整理最后得到的结果ｏｕｔｐｕｔ如图４．１２所示：¨李志辉，罗平，ｔＳＰＳＳｆｏｒＷｉｎｄｏｗｓ统计分析教程》，电子工业出版社．２００６年１月２９计算得出，交易次数３次以内的客户有３６９６人，最后把交易次数３次以内的定义为低度活跃客户，交易次数在４与１６之间的定义为中度活跃客户，交易次数大于１６的为高度活跃客户。

利用ｔａｂｌｅ节点查看数据表的ｎｃｗｔｈｎｃｓ变量，按ｎｃｗｔｉｍｉｅｓ降序排列．发现ｎｅｗｔｉｍｅｓ等于Ｏ的客户多达６．０００多人，总人数是１０３５９，所以过半的人是没有申购新股的。

因此定义ｎｅｗｔｉｍｅｓ为０的客户为不偏好新股，不为０的客户偏好新股。

Ｃｌｅｍｅｎｔｉｎｅ软件有一个Ｄｅｒｉｖｅ功能，也就是依据某个变量衍生新变量，在本文中一共要衍生五个新变量ｃｏｎｇｒａｔｕｌａｔｉｏｎ、ｓｉｚｅ、ｐｅｒ、ａｃｔｉｖｅ、ｎｅｗｓｔｏｃｋ，分别代表了客户的贡献度、总资产、持仓位、活跃度和新股偏好度。

所以要设置５个Ｄｅｒｉｖｅ节点，数据流如图４．２３所示：全一⑩一＠一＠ｉｄｅｔｉｍｅｓａｌｌｌｎｄｅｘ．ｓｚＨ＂ｃｏｒ，，ｇｒａｔｕｌａ＿ｏｎＳｉＺｅ图４．２３Ｄｅｒｉｖｅ节点数据流图资料来源：本文研究整理每个Ｄｅｒｉｖｅ节点的新变量设置如图４．２４、４．２５、４．２６、４．２７、４．２８所示：图４．２４ｃｏｎｇｒａｔｕｌａｔｉｏｎ变量设置资料来源：本文研究整理匐删一＠一一＠阿一图４．２５ｓｉｚｅ变量设置资料来源：本文研究整理图４．２６ｐｅｒ变量设置资料来源：本文研究整理图４．２７ａｃｔｉｖｃ变量设置资料来源：本文研究整理图４．２８ｎｅｗｓｔｏｃｋ变量设置资料来源：本文研究整理用ｔａｂｌｅ节点查看数据表，可以看到新衍生的５个变量了，如图４．２９所示：４．４．２关联规则应用图４．２９添加新变量的数据表显示资料来源：本文研究整理接下来，分析一下客户指标数据之间的关系，在第二章中介绍了关联规则，关联规则能很好的分析出数据之间的联系。

在这里笔者使用的算法是ＧＲＩ和ＷＥＢ图。

Ｃｌｅｍｅｎｔｉｎｅ在使用算法时最好都要先添加一个ｔｙｐｅ节点来定义输入输出的属性。

e商务文档

银河证券营业部客户分类与活跃度预测

相关文档推荐：