当前位置:文档之家› 大数据技术的发展35

大数据技术的发展35


踏实肯干,努力奋斗。2021年1月20日 上午12 时37分 21.1.2 021.1.2 0
追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2 021年1 月20日 星期三 上午12 时37分 8秒00: 37:082 1.1.20
严格把控质量关,让生产更加有保障 。2021 年1月上 午12时 37分21 .1.200 0:37January 20, 2021
73.1%
60.3%
57.0%
40%
20%
0%
证券/股票投资
险种开发
信用卡欺诈
电子支付业务
100.0% 80.0% 60.0% 40.0% 20.0% 0.0%
电信行业大数据应用场景
76.6%
42.3%
30.7%
15.9%
实时营销 线路监控 新业务挖掘 业务推送
制造行业最关注的大数据应用场景
100.0% 80.0% 60.0%
大数据的诠释
“大数据或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通 过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”(维 基百科)
“大数据是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到 撷取、管理、处理、并整理成,力务 安全之 实。202 1年1月 20日星 期三12 时37分 8秒Wednesday, January 20, 2021
相信相信得力量。21.1.202021年1月2 0日星 期三12 时37分8 秒21.1. 20
谢谢大 家!
事件订阅适配器
保证金账户风 险监控模型
客户异常交易 行为监控模型
市场行情 监控模型
其他模型
事件流连接适配器
历史数据访问适配器
交易数据 结算数据
市场数据
其他数据
树立质量法制观念、提高全员质量意 识。21. 1.2021 .1.20W ednesday, January 20, 2021
人生得意须尽欢,莫使金樽空对月。0 0:37:0 800:37: 0800:3 71/20/ 2021 12:37:08 AM
风险溢价计量:在小微企业业务方面,银行可以 在准确计量风险溢价的基础上,构建自动审批模 板,适当提高价格、加快授信流程,既满足企业 融资需求,又确保风险调整后的总体收益水平。
金融大数据产学研项目
2014年,基于CEP的金融期货会员端风险监控(中国金融期货交易所)
风险监控 异常报警
状态展示
流程处理
“大数据是人们获得新认知、创造新价值的源泉,还是改变市场组织机构,以及政府与 公民关系的方法 。”(《大数据时代》)
“大数据是数据量在10TB以上、需要采用新兴的大数据技术加以收集、处理和应用,以 展现更多社会、商业价值的数据。”(个人总结)
非结构化处理案例(BigTable)
数据变革的现实驱动力
作业标准记得牢,驾轻就熟除烦恼。2 021年1 月20日 星期三 12时37 分8秒0 0:37:0 820 January 2021
好的事情马上就会到来,一切都是最 好的安 排。上 午12时3 7分8秒 上午12 时37分 00:37: 0821.1. 20
专注今天,好好努力,剩下的交给时 间。21. 1.2021 .1.2000 :3700: 37:080 0:37:08 Jan-21
72.5%
66.3%
50.9%
40.0% 20.0%
24.8%
0.0%
供应链优化
产业研发
仓储监控
企业统一管理
综合来看,未来几年大数据在商业智能,公共服务和市场营销三个领域的应用非常 值得看好,大多数大数据案例和预算将发生在这三个领域。 29
数据来源:CCW Research,2012/4
农业管理
粮食安全、农业结构调整等方面的管理问题,都可通过大数据研究预测和解决。
中英人寿保险有限公司分析客户多种生 活数据(爱好、常浏览网站、常看节目 等),找出更有可能患高血压、糖尿病 和抑郁症的人。
商业营销
通过客户行为特征分析,进行产品推荐,实现精准营销。
淘宝、亚马逊等电商企业,通过客户商品浏览 与购买行为,进行偏好分析,并准确的预测客 户的产品购买意向,进行相关推送。
精准营销:北美折扣零售商Target在完全不和 准妈妈对话的前提下,仅分析顾客的购买习惯, 并进行“怀孕趋势”评分,能较准确地预测预 产期,以便在孕期寄送相应的优惠券。
交易风险监控:交易所对于实时交易数据进行及时 扑捉,对金融期货等异常交易行为、持仓、资金、 行情风险进行监控,及时制止扰乱市场的行为。同 时通过对海量交易数据的存储进行交易反演,旨在 挖掘风险监控的最优阀值,提升风控可靠性。
创建环境监控物联网系统,利用大数据手段监控、 评估、分析诱因(地域气象条件、生产生活方式、 植被治理模式,城市建设方式),找到解决方案。
医疗健康
通过大数据预测疾病,定位患者
2009年,Google不借助任何医疗手段, 仅通过5000万条用户检索关键词,比美 国疾控中心提前数周预测H1N1流感的爆 发!
根据IDC 监测,人类产生的数据量正在呈指数级 增长,大约每两年翻一番,这个速度在2020 年 之前会继续保持下去。这意味着人类在最近两年 产生的数据量相当于之前产生的全部数据量
TB PB EB ZB
▪ 这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力 所能处理的范畴
▪ 大数据时代已经来临..
安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。21. 1.2000 :37:080 0:37Jan-2120 -Jan-21
加强交通建设管理,确保工程建设质 量。00: 37:080 0:37:08 00:37 Wednesday, January 20, 2021
安全在于心细,事故出在麻痹。21.1. 2021.1. 2000:3 7:0800 :37:08J anuary 20, 2021
采用条形码及RFID技术进行记录、监督,从而 在河北廊坊郊区,农田里安装了内置摄像头的传感
实现针对生产、收获、库存、流通和食品安全
器,通过传感器、摄像头等终端应用收集、采集农
等的管理,再根据不同地区、不同作物类型进
产品的各项指标,并将数据汇聚到云端进行实时监
行相应的数据信息调整,以便监控管理软件能
览16 年… • 每天亚马逊上将产生6.3百万笔订单… • 每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达
1.3EB • Google上每天需要处理24PB的数据…
变化来只二:非结构化类型增加成主流
大数据来源
大数据的兴起 数据量增加
数据结构日趋复杂
大量新数据源的出现则导致了非结构化、半 结构化数据爆发式的增长
NoSQL应用现状
大数据应用领域
大数据应用前景
100.0% 80.0% 60.0% 40.0% 20.0% 0.0%
互联网行业大数据应用场景
83.4%
75.5%
51.6%
39.4%
20.9%
社交网络
B2C业务
精准营销 在线音视频业务 广告监测
100% 80% 60%
金融行业大数据应用场景
80.9%
左起 Ed Oates、Bruce Scott、Bob Miner、 Larry Ellison
Oracle CEO Larry Ellison
变化来了之一:数据量爆炸增长
大数据时代到来
• 全球每秒钟发送290万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年… • 每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… • 推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏
无需预定义模式、不需建立确定的列
NoSQL数据模型及分类
NoSQL运动两个核心理论基础:
• Google的BigTable BigTable提出了一种很有趣的数据模型,它将各列数据进行排序存
储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保 证。
• Amazon的Dynamo Dynamo使用的是另外一种分布式模型。Dynamo的模型更简单,它将数据按key进行
Neo4J FlockDB InfoGrid
db4o Versant
Berkeley DB XML BaseX
特点
顾名思义,是按列存储数据的。最 大的特点是方便存储结构化和半结 构化数据,方便做数据压缩,对针 对某一列或者某几列的查询有非常 大的IO优势。
文档存储一般用类似json的格式存 储,存储的内容是文档型的。这样 也就有有机会对某些字段建立索引, 实现关系数据库的某些功能。
hash存储。其数据分片模型有比较强的容灾性,因此它实现的是相对松散的弱一致 性:最终一致性。
NoSQL数据模型及分类
类型 列存储
部分代表
Hbase Cassandra Hypertable
文档存储
MongoDB CouchDB
key-value存储
图存储 对象存储 xml数据库
Tokyo Cabinet / Tyrant Berkeley DB MemcacheDB Redis
多样化数据的存储体系。 MongoDB Hbase Redis NEWSQL希望以尽可能兼容原有体系的基础上,逐渐过渡到分布式存储 VoltDB MEMsql
变革方法
纵向扩展 (很难分布式部署、无Master 架构) ---横向扩展
分库分表 —分片
行式存储 ----列式存储
ACID
-BASE
• 对于分布式数据系统,分区容忍性是基本要求 • 对于大多数web应用,牺牲一致性而换取高可用性,是目前多数分布
相关主题