当前位置:
文档之家› 基于大数据的统计分析方法和工具
基于大数据的统计分析方法和工具
主流大数据统计分析工具
案例3: 用友UAP成功案例大大提高波司登竞争力
15
成功案例
波司登基于用友UAP统一应用平台的ERP系统,打 通从客户下订单到生产、仓储、发运、财务等环节,构 建企业的完整的内部管理信息系统,提高企业的内部协 同能力,从而提高企业竞争力。并且将财务、销售、订 单等大集中,订单数据能实时统计到集团总部,为采购 业务提供精确支撑,实现按订单采购,保证采购原辅料 能够满足生产需要,避免大量库存积压,也避免缺货等 风险。
高效的压缩率,不仅节省储存空间也节省计算内存和 CPU 非常适合做聚合操作
黄金时代
大数据统计分析案例
Infobright InfiniDB
29
黄金时代(行式到列式)
黄金时代
MonetDB Vertica
列存储 AggressiveCompression(CPU/IO平衡) shared-nothing,grid-based(并行查询) 多备份(高可用性)
主流大数据统计分析工具
13
成功案例
案例1: 民生银行借IBM InfoSphereBigInsights应对金融业的 大数据挑战 IBM InfoSphereBigInsights大数据解决方案和企 业级NoSQL数据库SequoiaDB合作,为民生银行搭建 低成本、高性能、高可靠且水平扩张的数据平台,帮助 民生银行通过大数据分析应对金融业的大数据挑战,完 善交易流水查询分析系统,产业链金融管理系统,以及 私人银行产品货架管理系统。
文档
图形
MongoDB,Couchbase等
OrientDB,Neo4J等
统计分析方法和技术原理
10
传统关系型数据库向大数据处理方式的转移
数据迁移工作: Apache Sqoop 访问接口改造: Pig Latin 半结构化/非结构化数据存储 数据统计分析方式改造:Hadoop
目录
主流大数据统计分析工具
14
成功案例
案例2: 华为FusionInsight:招行数据生产力的“挖掘机” 招商银行部署华为FusionInsight之后,构建起基 于云计算平台的大数据应用和分析平台,实现7年内海量 交易历史明细信息的实时查询、实时征信、实时事件营 销,以及针对准确客户群的精准营销。信用卡征信时间 将由2周左右降到10分钟以内。根据招商银行某重要分行 客户为样本测算,招商银行只要发送原来数量19.6%的 短信,就可以覆盖95%最终购买的客户。
4
结构化数据与非结构化数据
背景
形状
5
传统数据分析与大数据分析
传统数据分析
大小
销量
重量
关联性 大数据分析适合送礼?
适合男生or女生?
适合喝茶or咖啡?
背景
6
NoSQL的特点
NoSQL数据库的主要特点:
NoSQL具有灵活的数据模型 NoSQL容易实现可伸缩性(向上扩展与水平扩展) 动态模式
目录
大数据统计分析案例
30
黄金时代(行式到列式)
select avg( score ) from example where class =‘Junior’ and grade = 'A' group by gender;
黄金时代
大数据统计分析案例
31
黄金时代(行式到列式)
黄金时代
查询速度(ms) 存储能力(G)
大数据统计分析案例
32
云端时代
云端时代
Bitmap服务,高吞吐、高随机查询下下谁更合适? Aerospike/Redis LevelDB/RocksDB
大数据统计分析案例
列式数据库(count/Group by) HDFS/Kafka等文件存储(scan) 搜索引擎(文本随机查询)
草根时代
开发人员少 业务方向不清晰 产品需求简单 简单、可用、快速开发 批量插入效率一般 大数据量下Schema变化 难
大数据统计分析案例
24
草根时代(统计分析系统计算模型)
count sum group by multi join distinct count
草根时代
主流大数据统计分析工具
16
成功案例
案例4: 农行携手曙光构建大数据系统推动业务创新
农行采用曙光XData大数据一体机系统,满足系统 对于并发用户数和性能的要求,能够支撑农业银行历史 数据查询和分析业务,为推动农行业务持续不断创新奠 定基础。
主流大数据统计分析工具
17
成功案例
案例5: 九次方企业征信大数据平台令金融交易更加简单便携 九次方企业征信大数据平台利用互联网大数据挖掘 技术采集互联网全部与企业相关的信用指标,比如企业 违法违规信息、行政处罚信息、客户投诉信息等等。同 时九次方还联合20多个省市政府,协助政府搭建当地的 企业征信大数据平台获取地方政府的数据授权,通过脱 敏处理之后,向银行、小贷公司、担保公司等客户提供 企业信用分析服务。
主流大数据统计分析工具
案例7: 宜信金融云打造大数据变现超级伙伴
19
成功案例
宜信旗下的宜人贷,是利用宜信金融云平台,其极 速模式将对用户的授信时长从原来的十多分钟压缩到了 一分钟之内,极大提高了用户体验和放款效率。宜信商 通贷是基于宜信金融云推出的面向电商的一个实时授信 产品。这种电商贷款模式通过高效整合交易数据、第三 方数据以及社交网络行为数据,为用户提供个性化的融 资产品。
33
云端时代
云端时代
Redis/LMDB/RocksDB等KV数据库
传统关系型数据库
大数据统计分析案例
34
云端时代
云端时代
大数据统计分析案例
35
小结
目录
概论 统计分析方法和技术原理 主流工具 案例 总结
36
总结
不同的时期不同的选型 每种数据库都有它特定的场景---读写优化的平衡 数据库和计算紧密捆绑在一起---存储和计算的平衡 自主创新和产品使用珠联璧合---底层研究和应用能力的 平衡
基于大数据的
统计分析方法和工具
目录
背景 统计分析方法和技术原理 主流工具 案例 总结
2
背景
3
●结构化数据与非结构化数据 ●传统数据分析与大数据分析 ●NoSQL的特点
背景
结构化数据:行数据,存储在数 据库里,可以用二维表结构来逻 辑表达实现的数据。 非结构化数据:不方便用数据库 二维逻辑表来表现的数据,包括 所有格式的办公文档、文本、图 片、XML、HTML、各类报表、 图像和音频/视频信息等等。
大数据统计分析案例
基于Hadoop生态的批处理系统 数据库批量Insert/Update,压力大 数据库读压力小 Schema 更新多
25
青铜时代
青铜时代
大数据统计分析案例
26
青铜时代
青铜时代
大数据量 Insert/Update/Delete/优化,均是message Schema更改,例如Column增加/删除/更改 lazy式操作,自上而下逐步Flush到leaf节点 天然多版本,无需做undo log Fast insert/ Fast update,延迟小
37
38
主流大数据统计分析工具
18
成功案例
案例6: 王府井百货与百分点合作搭建王府井大数据平台
在王府井百货与百分点合作搭建的王府井大数据平 台将用来分析商品、用户和业务数据,以打通用户和后 端运营的关系,构建用户画像,以及分析商品的全渠道 经营状况。其中,百分点帮助王府井针对线上用户的浏 览和购买行为,进行数据分析,从而形成实时的商品个 性化推荐和消息推送。
移动广告监测
网盟对接 行业广告主 日监测点
Enterprise
企业解决方案
11500+ 7.5亿+ 2500万+
35%覆盖 2.5亿+ 1000万+
49家 40%覆盖 1500万点击
两大一线应用市场 三大运营商
四大银行
大数据统计分析案例
22
计算需求
大数据统计分析案例
23
草根时代(HelloWorld)
概论 统计分析方法和技术原理 主流工具 案例 结
7
统计分析方法和技术原理
8
基于NoSQL的统计分析方法和技术原理
基于NoSQL的数据管理 传统关系型数据库向大数据处理方式的转移
统计分析方法和技术原理
9
基于NoSQL的数据管理
类型
键/值 列
项目
Redis,MemcacheDB等 Cassandra,HBase等
概论 统计分析方法和技术原理 主流工具 案例 总结
11
主流大数据统计分析工具
12
目前,大数据分析工具在金融服务、零售、医疗 卫生/生命科学、执法、电信、能源与公共事业、数 字媒体/精准营销、交通运输等行业都有着广泛的应 用。但纵观国内企业,不论是国企还是民企,真正在 业务决策中以数据分析结果为依据的,主要还是集中 在银行,保险,电信和电商等几个行业。
大数据统计分析案例
大数据量插入能力,更 新能力的确比较突出 InnoDB 也 不 差 , 和 索 引、数据Layout、操作 模式有关
27
青铜时代
青铜时代
大数据统计分析案例
28
黄金时代(行式到列式)
极高的装载速度(最高可以等于所有硬盘IO的总和, 基本是极限了) 适合大量的数据而不是小数据
目录
概论 统计分析方法和技术原理 主流工具 案例 总结
20
大数据统计分析案例
21
TalkingData
App Analytics
移动应用统计分析