当前位置:文档之家› 富德生命人寿大数据案例分享

富德生命人寿大数据案例分享

富德生命人寿大数据案例分享-传统企业转型大数据分析议程▪富德生命人寿简介▪数据平台项目背景▪POC内容和结果▪Exadata效益分析富德生命人寿公司介绍▪富德生命人寿保险股份有限公司是一家全国性的专业寿险公司,成立于2002年3月4日,总部现位于深圳。

股东由深圳市富德金融投资控股有限公司、深圳市华信投资控股有限公司等资金雄厚的企业构成。

公司现注册资本117.52亿元,总资产已超2000亿元,是国内资本实力较强的寿险公司之一。

▪富德生命人寿建立了覆盖全国重点省市区域的营销网络和多元化服务平台,目前共拥有35家分公司,1000多个分支机构和服务网点,超过13万人的管理和销售人员。

▪人寿保险、意外险、健康险和养老保险和投资理财计划。

特色产品有保额分红产品,兼具保障与理财功能。

目前,公司在售寿险产品有100多款,通过个人营销、银邮代理、电话销售、团险销售、电子商务等多个渠道,面向社会各个年龄、群体的不同客户提供全面专业的人身保障产品。

2014人寿公司保费收入排名互联网保险的典型模式互联网渠道(主流) 以客户体验为中心的服务互联网产品创新互联网特征的创新产品,碎片化产业链整合保险不可或缺•交互式保险 •移动销售•客户分类、精准营销,客户个性化服务•社会化坐席,渠道整合 •O2O•运费险、众乐宝、天猫医药险 •航班延误险、加班险 •保险创意众筹 •UBI(Usage basedInsurance •阳光重疾险“健康随心保” •垂直市场个性化产品•养老社区•二手车销售平台 •用于健康管理的可穿戴设备 •场景化保险产品创新依赖于数据分析保险行业正在积极探索、尝试,新产品不断出现互联网保险的IT能力交互式营销IT平台基础设施云计算平台客户行为、偏好分析、实时推荐精准营销和绩效分析产业链上下游整合实时推荐风险控制结构化和非结构化数据整合高性能、高可靠、靠可用端到端监控管理资源分配、共享客户项目背景▪IT部希望通过IT驱动业务创新,改变传统的业务需求驱动IT方式。

▪已招聘数学统计学专业研究生,尝试做利用R做大数据分析。

▪R分析人员精通统计学,对IT了解不多,更不了解Hadoop技术。

▪目前存在R性能问题:单机性能比较差,无法对大数据量进行挖掘,正在考虑Hadoop平台可行性。

▪受限于没有第三方数据来源,停留在探索阶段▪认为一体机是方向,不想继续尝试传统架构的基础设施。

▪生命人寿于2014年6月份,由于核心系统切换,EDW数据量翻倍,EDW批作业时间窗口过长。

大数据战略大数据实施策略▪渐进实施大数据分析,保留现有资产–兼容现有EDW技术–优先应用现有企业数据(结构化数据)–兼容现有Oracle技术–未来支持非结构化数据分析–明确R作为分析工具–优化现有数据架构–多种数据挖掘算法并进▪IT驱动业务创新–场景驱动,先做业务员评级当前的数据架构现状核心系统渠道应用操作数据存储ODS数据仓库EDW 报表平台绩效考核客户分析数据挖掘。

ETLOGGPOC目标▪测试目标:兼容性、高性能、高可用性、数据分析▪测试内容:–兼容性:GoldenGate, MSTR–性能测试:top SQL、批作业、MSTR并发、压缩率和压缩查询性能–高可用:节点故障、磁盘故障和网络故障–R测试:各种算法、性能、并行▪测试方式:以客户为主,亲自体验,厂家辅助POC 机器配置I n -D a t a b a s e A n a l y t i c sEDWOracle AdvancedAnalyticsOracle DatabasePOC内容-不仅仅是性能不仅仅关注模型、性能…完备的软硬件生态环境统一技术技能,人员储备数据安全,用户控制,数据漂白 快速升级数据模型测试-TOP SQLTOP SQL资源监控(1/3) –全方位资源管理批作业压缩测试(1/2)-多种压缩类型选择压缩测试(2/2)-压缩能提高性能R 测试将R 请求转为SQL 请求数据库执行R 引擎R 客户端User tablesDatabase请求数据库端的计算引擎服务器端的R 执行RR系统部署 Exadata 包含企业版Oracle Database+OAAR测试全面的大数据平台客户洞察精准营销交叉销售风险预测舆情监控理赔反欺诈利用OAA 建设大数据分析平台数据源费率测算 存储平台业务场景大数据分析平台(结构化、半结构化、文本、语音分析等)分析平台测试OAA 多种算法▪数据探查和可视化–Summary & Descriptive Statistics–Histograms, scatter plots, box plots, bar charts–R graphics: 3-D plots, link plots, special R graph types –Cross tabulations–Tests for Correlations (t-test, Pearson’s, ANOVA) –Selected Base SAS equivalents▪数据选择,贮备和转换–Joins, Tables, Views, Data Selection, Data Filter, SQL time windows, Multiple schemas –Sampling techniques–Re-coding, Missing values –Aggregations –Spatial data –SQL Patterns–R to SQL transparency and push down▪分类模型–Logistic Regression (GLM) –Naive Bayes –Decision Trees–Support Vector Machines (SVM) –Neural Networks (NNs)▪回归模型–Multiple Regression (GLM) –Support Vector Machines-丰富的数据库数据挖掘算法和统计功能•聚集–Hierarchical K-means –Orthogonal Partitioning –Expectation Maximization•异常值监测–Special case Support Vector Machine (1-Class SVM)•关联分析–A Priori algorithm•属性选择和降维技术–Attribute Importance (Minimum Description Length) –Principal Components Analysis (PCA) –Non-negative Matrix Factorization –Singular Vector Decomposition•文本挖局–Most OAA algorithms support unstructured data (i.e. customer comments, email, abstracts, etc.)•交易数据挖掘–Most OAA algorithms support transactional data (i.e. purchase transactions, repeated measures over time)•支持R 开源包–Broad range of R CRAN packages can be run as part of database process via R to SQL transparency and/or via Embedded R mode*数据挖掘中常用的数学模型及算法企业版尝试多种访问工具R Client▪内嵌在数据库中挖掘算法和开源R 算法 ▪多种语言:R,SQL, PL/SQL ,BIEE(展现结果)▪可伸缩的并发挖掘▪和数据库集成,避免数据抽取和转换 ▪运行在数据库服务器之上,充分利用数据库硬件能力,实现R 并发执行,性能更高 ▪简化分析过程,使得分析人员专注于挖掘算法,忽略技术细节关键特性OAA 的优势更快支持企业数据挖掘和预测OAA最佳实践1. 从业务场景开始2. 不移动数据3. 组织正确数据4. 逐渐增加变量5. 多算法综合应用6. 快速应用于生产7. 企业自动部署Exadata附加服务完善的服务支持:操作系统、数据库、备份、硬件、监控管理、数据挖掘•安排ORACLE 一体机安装、使用和管理的培训•安排一体机性能调优的培训•安排OAA软件的开发培训、新功能培训、性能调优培训•安排数据仓库的新功能培训•数据迁移过程中的现场技术支持(包含OGG)•数据迁移完成后的性能调优(包含OGG)•Oracle Linux系统管理、调优、故障处理培训•EM监控的培训、安装、配置•一体机的备份/恢复培训选择Exadata原因和收益实时分析,Exadata是唯一能够支持混合负载的平台优化的数据架构大数据系统核心系统 渠道应用 操作数据存储ODS数据仓库 EDW报表平台 绩效考核客户分析数据挖掘HadoopNoSQL Database。

大数据来源ETL外部表 外部表 外部表OAA总结▪分析工具选择尽可能简单易用,不引入过多技术复杂性,而数据平台选用必须能够大大简化分析技能▪大数据分析不是纯粹IT,更多是统计学,技术选择应尽可能降低门槛▪寻找适合自己的大数据切入点,非必需非结构化数据▪大数据强调分析,而非数据存储平台▪不是只有数据量大才是大数据分析▪大数据平台建设应兼容现有环境▪深度挖掘还是需要结构化分析▪场景驱动和数据驱动并存▪大数据分析是长期积累的过程,不断试错过程。

相关主题