当前位置:文档之家› 大数据安全方案

大数据安全方案


GridFS
MongoDB是一种知名的NoSql数据库,GridFS是MongoDB的一个内置功能,它提供 一组文件操作的API以利用MongoDB存储文件,GridFS的基本原理是将文件保存在两
个Collection中.
25
大数据使用的关键技术—非关系型数据库 NoSQL
26
大数据使用的关键技术—云计算与云存储
4
大数据基本概念
14:00,吃过午饭,你想去附近的公园玩玩,但你不知道应该去世纪公园还是去中山公园。你又打 开“XX预测”,希望它帮你分析一下,哪个公园相对不太拥挤。根据结果,你去了中山公园。
16:00,你正在公园里休息,收到了催缴电话费的短信。你很好奇自己过去三年每个月的消费记 录。但过去运营商只能让你查到六个月以内的消费信息。因为中国电信至少有5亿用户,每天至 少能产生10次计费记录。每天50亿的计费记录,一年下来就是1800亿条记录。这是一个大数据的 存储和归纳技术难题。但在大数据时代,过去几年的电话通讯信息都可以查到了。
9:00,今天你要带朋友到上海的南京路步行街逛逛,你打开某互联网公司的大数据产品“XX预测 ”,看看步行街今天预计会有多少人,再看看上海今天的交通预测。 “XX预测” 根据以往用户定 位请求信息建议你乘地铁前往步行街。
12:00,逛了一圈,你和朋友都累了,想找个地方吃饭。你打开大数据软件,寻找附近的餐馆。通 过该软件,你可以提前看到餐馆的视频环境,看看是否人多。大数据还可以把你脸的部分打成马赛 克,你不用担心个人信息泄露。
23
大数据使用的关键技术—分布式文件系统
分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定 直接连接在本地节点上,而是通过计算机网络与节点相连。
24
大数据使用的关键技术—分布式文件系统
GFS(Google File System)
mooseFS
Google公司为了满足本公司需求而开发的基于Linux的专有分布式文件系 统。。尽管Google公布了该系统的一些技术细节,但Google并没有将该 系统的软件部分作为开源软件发布。
传统技术手段的ROI已经达到无法接收水平

追求时效性
时效性要求高,长的 时效性一般T+n(离 线),实时计算的化 ,则要求秒级
16
大数据应用要解决的问题
企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数 据中获取新的洞察力,并将其与已知业务的各个细节相融合。
大数据产品 大数据管理 大数据终端使用
相对比较轻量级,对master服务器有单点依 赖,用perl编写,性能相对较差.
HDFS
Hadoop 实现了一个分布式文件系统( Hadoop Distributed File System),简称HDFS
FastDFS
一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文 件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问
大数据的数据够“大”,数据不再是稀缺资源,不能 像小数据时代那样,用最小的数据获得最多的信息; 而应该要拿到与领域相关的全数据
大 数 据
大数据的数据够“杂”,来源广泛,格式五花八门, 用户需从海量数据中提炼有价值信息,个体数据(或

严格因果模型)的精确性不再重要,重要的是大多数

数据群共同指出的结论(相关性关系);
Scribe
• Scribe是Facebook开发的数据(日 志)收集系统.
Scribe
Chukwa
Chukwa
• Chukwa基于Hadoop的HDFS和Map Reduce来构建,提供扩展性和 可靠性。Chukwa同时提供对数据的展示,分析和监视。
22
大数据使用的关键技术—数据存储与管理
数据采集
“大数据:或称巨量数据、海量数据、大资料,指的是所涉及的数
据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处
理、并整理成为人类所能解读的信息。”
——维基百科
7
大数据基本概念
仅仅是 “大”

比“大”更重要 的是数据的复杂 性,有时甚至大 数据中的小数据 如一条微博就具 有颠覆性的价值
8
大数据基本概念
大 杂Biblioteka 价值密度Value大量的不相关信息 对未来趋势与模式的可预测分析

深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)
速度Velocity
实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效

10
大数据基本概念 大
海量沙漠

充满杂质

只为粒金

争分夺秒
11
大数据基本概念
•更好地对外提供公共服务 •舆情分析 •准确预判安全威胁
•创造更多联合、交叉销售商机 •准确评估广告效用
•促进客户购买热情 •顺应客户购买行为习惯
15
大数据应用要解决的问题



体量大
非结构化数据的超大 规模和增长
多样性
数据多形态:音频、 视频、文本、图片、 文件等
价值
价值密度
大量不相关信息
ROI(投资回报率)
大数据安全方案
目录
1、大数据基本概念
4、应用举例
2、大数据应用介绍
3、大数据安全现状
2
大数据基本概念
大数据基本概念
7:00,你被手机闹钟叫醒。昨晚你带着一款小型可穿戴设备睡觉的。这个设备连接着你手机里的一 款大数据的APP,你打开它就可以看到你昨晚睡觉时翻身次数、心跳和血压状况。根据测量结果, 它建议你今天出门之前多喝点橙汁类的饮品来补充维生素。
水平扩展
NoSQL
水平扩展
数据库
大部分垂直扩展,少数水 平扩展
数据类型
文件存储,没有数据类型
简单数据类型
丰富的数据类型
数据仓库
大部分水平扩展
丰富的数据类型
数据模型
数据关系 数据一致 数据安全 计算类型
适用场景
11
常见用例
非常简陋的数据模型
简单灵活数据模型
丰富的数据模型
没有数据关系描述
非常简单的数据关系描 述
Enterprise Search
Text Analytics Engine Visual Data Modeling
描述 分布式文件系统
流计算引擎
服务器/存储间高速通信
文本检索、智能搜索、实时搜 索 自然语言处理、文本情感分析、 机器学习、聚类关联、数据模 型
19
大数据涉及的关键技术
部署架构
大数据(Hadoop)

大数据的数据够“快”,数据产生得快,数据增加得
快,数据随时间的折旧也快,数据的时效性成为关键

12
大数据基本概念
对比
传统方法
数据采集手段
采样数据
数据源
单数据源
判断方法
基于主观因果假设
演绎方法
孤立的推算方法
分析方法
描述性分析
对产出的预期
绝对的精确性更重要
大数据方法 全局数据
多数据源整合 机械穷举相关关系 大数据+小算法+上下文+知识积累 预测性和处方性分析 更注重实时性(具体根据需求而定)
RDBMS Analytical DB NoSQL DB ERP/CRM SaaS Social Media Web Analytics Log Files RFID Call Data Records Sensors Machine-Generated
存储 处理 过滤
挖掘 分析 搜索 扩充
大数据技术被设计用于在 成本可承受的条件下,通 过非常快速(velocity) 地采集、发现和分析,从 大量(volumes)、多类 别(variety)的数据中提 取价值(value),将是I T 领域新一代的技术与架 构。
海 量
劣 质
异 构
高 维
9
大数据基本概念
体量Volume
非结构化数据的超大规模和增长
总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍
多样性Variety
大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义
如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝 藏的利器。没有强大的计算能力,数据宝藏终究是镜中花;没有大数 据的积淀,云计算也只能是杀鸡用的宰牛刀。
17
软件是大数据的引擎
• 和数据中心(Data Center) 一样,软件是大数 据的驱动力.
• 软件改变世界!
18
大数据涉及的关键技术
需求
技术
海量数据存储技术
Hadoop,x86/MPP Map Reduce
实时数据处理技术
Streaming Data
数据高速传输技术 搜索技术 数据分析技术
Infini Band
Splunk Forwarder Splunk Forwarder
• 在商业化的大数据平台产品中,Splunk提供完整的数据采集,数 据存储,数据分析和处理,以及数据展现的能力。.
采集
Logstash
Logstash
• Logstash用JRuby开发,所有运行时依赖 JVM。支持丰富的输入、过滤和输出.
•收视率统计、热点信息统计、分析
•基于用户位置信息的精确促销 •社交网络购买行为分析
价值
•增加市场份额 •提升客户忠诚度 •提高整体收入 •降低金融风险
相关主题