当前位置:文档之家› SPSS数据挖掘 应用案例介绍

SPSS数据挖掘 应用案例介绍


4654--->4199 2532--->8810
准确率=4199/(4199+8810)=32.3%(64.7%) 查全率=4199/(4199+1648)=71.8%(81.2%)
23
1.4 纳税遵从-流失预测数据建模
采用SPSS Modeler13的C5.0算法进行建模
24
1.5 纳税遵从-流失预测模型评估--测试集
<
>= >= >=
16岁
16岁 30岁 49岁
<30岁 <
49岁
释放时间和案件的关系

释放时间和案件类 别的关系(释放时 间是指第一次出所 时间,与第二次入 所时间之间隔)

释 放 时 间 1 2

下限

上限

比例


< 12(月) < 38(月)

26.24% 45.06%
SPSS China
31
背景—重点人员基本分析

前科人员再犯罪 重点前科人员再 犯罪评分系统
指标说明

指标设计
数据探索

基于案件对年龄分段
年龄分段
根据所犯案件类别,将发案时的年龄,细分为21类. 上图可以结合警务情况,再次划分为3-4个年龄段.
年龄段
下限
上限
1
2 3 4
预测结果

绿色的线表示实施疫苗接种后,预测的甲流H1N1病例数 红色的线代表假设无疫苗影响下,预测的甲流H1N1病例
结果报告

**市甲流H1N1流感已经度过高峰阶段,呈明显下降趋势 预测数据显示:大规模接种疫苗后,甲流H1N1病例数下降趋势更 加明显。**市实施甲流疫苗的措施后,大幅度降低甲流感染率,效 果良好
25
1.6 结果应用
纳税人遵从风险监控预警系统分为7个模块,包拪5个风险模型和税源结构分 析,税收结构分析,具体参见下图示意,仅供参考。
高流失风险的企业群体的产业分布不整 体产业结构丌尽相同,存在一些高风险 产业需要重点关注,例如10,05,03 产业 高流失风险税源比重产业分布
高流失风险税源产业分布
犯罪次数

随着犯罪次数增加,再犯罪的可能性增大(3.36%,5.34%,10%。。。 。。)
作案地区化与案件类别

作案地与户籍地不一致的犯罪多为抢夺和其它盗窃类(除入室盗窃,车辆盗 窃之外)
再次犯罪关联分析

找到再次犯罪的特征
案例4—公安毒物分析鉴定
SPSS China
43
关联分析
添加完条件 后即可确定
26 SPSS China
2009-8
1.6 结果应用
高流失风险的企业群体的从成立时间来 看,随着成立时间的久远,风险逐年加 大。 从数量来看,2008年高风险企业加大是 因为同年新成立企业较多,但是从风险 占比来看基本保持稳定。 高流失风险税源比重-成立时间分布
高流失风险税源数量-成立时间分布
27 SPSS China
政府行业客户
2009年以前
信息产业部 国家信息中心 中国人口情报信息中心 江西统计局 中国轻工业 邮政科学研究院 沈阳化工研究所 南京市地税 长春市国税 交通部科学研究院 首都国际机场 北京市农业局 中国石油勘探研究中心
北京劳动保护科学研究所 北京疾病控制中心 巴中市卫生局 北京经济信息中心 伊利集团 中国农业科学院 首都航天机械公司 北京市地税 沈阳人才市场 鼎新集团 中国出版科学研究所 国家海洋局 北京电影协会
29
1.6 结果应用
**市税源现存状态分析-流失较为严重
从近10年成立企业目前的状态来看,只有60% 左史的属于正常状态。 按照成立时间来看,随着时间的久远,企业消 亡的比例也是逐渐加大。其中2000年成立的企 业截止现在,正常存活的仅占20%左史。4年 前成立的企业存活率均小于50%
30
案例3—公安重点人员监控

•电销库不电销业务 的逻辑对应关系 •寻找数据中的异常 情况
准备数据
•选择符合已有数据 条件丏见效快的主 题 •数据清理和整合 •建立模型 •模型应用
•建立分析宽表
业务理解
确立主题
建立模型
49
业务模式分析
• 从多个数据采购商处获取客户原始数据 数据采集及 • 分批次导入电销系统客户电话等基本信息 导入环节
SPSS应用案例介绍
SPSS – 世界级软件公司
1968年成立 将近40年的数据分析技术积累 1993年纳斯达克上市 总部 –芝加哥 全球前25名软件公司 遍布全球60多个国家2,000多名员工 超过250,000 家企业使用SPSS 2百多万名授权用户 全球60多个运营机构

SPSS China
查全率在训练集和测试集均保持相对稳定性 准确率在测试集上有较大下滑,但仍保持在 50%以上,LIFT值提升在10以上,表明模型 效率还是可以的。但稳定性应进一步修正。
9717---> 23449 587----->633
880--->806 210--->644
准确率=806/(644+806)=55.6%(81.5%) 查全率=806/(633+806)=56.0%(60.0%)
选择中 毒时间
点击即可 点击此处即 执行判定 可添加条件
此预测的准确率达到 93.7%
44
关联分析
结果展示
添加完条件 后即可确定
点击此处 点击此处即 执行判定 可添加条件
此预测的准确率达到 91.1%
46
案例5—保险CRM行销
SPSS China
47
背景与目标
背景:
**人寽电销系统从2008年9月建立至今,经历了两年的业务发展,营
观察期内存在 罚款记录(XXX 家)
25%
5
2009-8
观察期内存在 违觃记录(XXX家)
25%
25%
20 SPSS China
1.2 纳税遵从-违规罚款数据理解
风险不近1年纳税觃模
风险不近2年季度波劢系数
风险不近1年纳税觃模
风险不近2年季度波劢系数
21
1.3 纳税遵从-指标构造
22
1.4 纳税遵从-违规罚款模型评估--测试集

案例2——纳税遵从风险分析
SPSS China
18
1.1 纳税遵从-定义与样本选择
纳税遵从是指纳税主体对于税法的遵从情况,从数据挖掘的角度的来看, 纳税遵从体现在业务数据中表现为以下几个方面: 第一种情况:企业存在违觃记录 第二种情况:企业缴纳的违觃罚款
其中第一种情况包拪第二种情况,很多企业存在很多违觃记录,但是丌
一定需要缴纳罚款,只有第二种情况涉及直接的税款的变劢,故本模型集 中研究存在违觃罚款的企业特征。
19 SPSS China
2009-8
1.1 纳税遵从-模型定义与样本选择
以2008年1月1日-7月1日为观察期来说,如下图所示
全部税源 (XXX家)
1
全部企业 (XXX家)
100%
70%
2
寽命大于2年 (XXX家)
公司荣誉
被评为《财富》杂志评选SPSS为员工最愿意为之工作的公司之一。 Clementine被西班牙商业杂志评为最优秀的数据挖掘软件。 数据挖掘技术连续四年在 KD Nuggets 上投票评选为使用率最高的数据挖掘软件。 被CRM杂志评为在客户关系管理、个人成就、公司管理三个方面都有突出成就的公司之一。 SPSS被 MacWorld 列为最受欢迎的产品之一。
案例1—卫生流行性疾病趋势分析预测
SPSS China
10
背景—甲流H1N1流行趋势预测

2009年3月甲流H1N1在墨西哥爆发,疫情在全球范围内逐渐蔓延 ,造成的社会危害日益严重。 2009年11月中旬,**市甲流H1N1流感活劢度一直处于较高水平 。

预测目标

1. 模拟**市甲流H1N1流感的流行趋势,对**市 甲流H1N1流感的发展趋势进行预测。 2. 估测免疫屏障对**市甲流H1N1流感流行形势 的影响力。
无论是训练集还是测试集,查全率均较高,表明模型能够比较好的侦测出高风险企业,遗 漏较少 但是测试集的准确率大大低于训练集的准确率,可能存在两个原因: 1测试集距离现在日期比较近,还有一些违觃企业已经发生违觃税款,但还没有被发现 2模型找到了另外一些实际已经违觃但是幵未被发现的企业
2318-->7137 1079--->1648
10
18
11
09 17
28 SPSS China
2009-8
1.6 结果应用
**市税源数量企业性质结构—内资为主,外商近3年增长加快
从企业性质结构来看,以内资为主,占据绝对主导 地位。 内资企业中以有限责任为主,私营企业占据13%。 外资和港澳台性质企业比重很小。 从增长趋势来看,港澳台和外资在近3年的增幅超过 内资企业增幅。
2009-8
1.6 结果应用
按照行业来看,将流失高风险企业占比不企业平均缴税 觃模做气泡图,可看出行业被划分为4个群体,10行业纳 税觃模高,流失风险也大,应重点监控;11,09,17行业 纳税觃模高,流失风险相对较大,其次监控;18行业应再 其次监控;其他行业从觃模和风险来看,均较小,可暂缓 监控
根据客户购买产品的历叱 信息进行有针对性的加保
50
数据源筛选—项目成功率
• 项目成功率=该项目中客户承保人数/该项目拨打总人数
数据源筛选—批次成功率
批次成功率=该项目某段时间导入的名单中客户承保人数/名单中拨打人数
政府行业新增客户
中国客户
相关主题