当前位置:文档之家› 科普版浅谈大数据

科普版浅谈大数据


顾客:你怎么知道我会喜欢吃这种的? 客服:您上星期一在中央图书馆借了一本《低脂健康食谱》。 顾客:好。那我要一个家庭特大号比萨,要付多少钱? 客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚
刚做了心脏搭桥手术,还处在恢复期。 顾客:那可以刷卡吗? 客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在
在传统领域大数据同样将发挥巨大作用:帮助农业根据环境气候土壤作物状 况进行超精细化耕作;在工业生产领域全盘把握供需平衡,挖掘创新增长点;交 通领域实现智能辅助乃至无人驾驶,堵车与事故将成为历史;能源产业将实现精 确预测及产量实时调控。
大数据将成为国家间竞合关系 的最高依据,同时也是最高机密,数据战争将 成为战争的主要形式。
某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的 安全标准和保密性需求。
大数据的几个关键问题(2/2)
成本问题 对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成
本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的 部件。 数据的积累
有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场 右侧骑着这辆摩托车。 顾客当即晕倒。
大数据应用的一个案例
啤酒与尿布的故事 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但
是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这是一个发生在美国 沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。原来,美国的妇 女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之 后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是很 多的。
数据挖掘
数据挖掘(Data Mining),也称数据融合、模式识别,即从大量的、不完全 的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先不知 道的、但又有潜在价值的信息和知识的过程。
这个定义包括以下几层含义: 1) 数据源必须是真实的、大量的、含噪声的; 2) 发现的是用户感兴趣的知识; 3) 发现的知识要可接受、可理解、可运用; 4) 并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
还欠银行4807元,而且还不包括房贷利息。 顾客:那我先去附近的提款机提款。 客服:陈先生,根据您的记录,您已经超过今日提款限额。 顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到? 客服:大约30分钟。如果您不想等,可以自己骑车来。 顾客:为什么? 客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记
比如医疗信息、财务信息通常要保存 7 年,而有些使用大数据存储的用户却希 望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分 析大都是基于时间段进行。 灵活性
大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保 证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。
设想三 人工智能全面渗透人类生活
从苹果的 Si频繁互动将极大提升人工智能的进化速度。机器将得以理解人类文字、语音、 图像、动作甚至表情背后的微妙含义,并以大数据为支撑,为人类提供效率与个性兼 备的决策与服务;
想象一次旅行,人工智能分析你以往出行记录以及近期生活轨迹,结合对各大旅 游景点、交通状况、天气预测等数据分析,提供给你最贴合心意的目的地,规划好线 路的无人驾驶车辆依照行程将你送至景点,并根据你的行程及时调配车辆接送。所有 的酒店、餐饮、服务都已经依照你的生活数据进行深度订制。
浅谈大数据
预测未来最好的方法,就是去创造 未来。
——Peter F. Drucker
目录
1 认识大数据 2 大数据与数据挖掘分析 3 大数据的未来
有关大数据的一个笑话
某披萨店的电话铃响了,客服人员拿起电话: 客服:XXX披萨店,您好,请问有什么需要我为您服务? 顾客:你好,我想要一份…… 客服:先生,烦请您先把您的会员卡号告诉我。 顾客:16846146…… 客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是 2642****,您公司电话是46666***,您的手机号是1391234****。请问 您想用哪一个电话付费? 顾客:你为什么知道我所有的电话? 客服:陈先生,因为我们联机到CRM系统。 顾客:我想要一个海鲜披萨…… 客服:陈先生,海鲜披萨不适合您。 顾客:为什么? 客服:根据您的医疗记录,你的血压和胆固醇都偏高。 顾客:那你们有什么可以推荐的? 客服:您可以试试我们的低脂健康披萨。
1 认识大数据 2 大数据与数据挖掘分析 3 大数据的未来
大数据时代,数据挖掘是最为关键的工作。 大数据的核心并非数据的体量,而是如何进行价值挖掘,大数据将改变传统的 个人生活与商业模式。大数据其实就是一堆杂乱无章的数据,本身是无法产生任何 作用的,如果想让其产生价值,就需要运用一些处理方法,而数据挖掘是处理这些 海量数据的关键技术。数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识 的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识。大数据的方向 应在数据分析及挖掘领域,多维数据分析应该会成为未来趋势。
1 认识大数据 2 大数据与数据挖掘分析 3 大数据的未来
运营商在大数据中做的相关工作
在运营商的实践过程当中,我们对数据挖掘、数据处理、数据分析的实时性需求越 来越迫切。
大数据方面我们同时关注分析型的产品和交易型的产品。分析型产品目前主要基于 Hadoop,在 Hadoop 这块我们目前结合自己需求做中国移动的分支 BCHadoop,我们现 在把 BCHadoop 也做了一个开源,在今年 CCF 的创业大赛上,我们中国移动出的这两道 题基本上在中国移动 BCHadoop 上进行实现。另外我们在 Hadoop 基础之上做了做了一 个数据仓库和一个数据挖掘系统,主要基于中国移动自己的经营需求做了分类规则等等 的方法,在社区文本挖掘方面做了相关算法和工具,在搜索引擎方面也做了一些工作。
这里所说的“大容量”通常可达到 PB 级的数据规模,存储系统的扩展一定 要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。 延迟问题
“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类 相关的应用。有很多“大数据”应用环境需要较高的 IOPS 性能,比如HPC 高性 能计算。 安全问题
从应用层面来说:大数据注重对全量数据的分析处理,以关联预测为核心, 以场景化应用为先导,侧重对客户行为的监控与洞察,通过数据挖掘分析,助 力企业优化经营决策。
大数据的几个关键问题(1/2)
大数据的“4V 特性”(大体量、多样性、时效性、精确性)决定了大数据的 处理首先要解决以下几个关键问题: 容量问题
1 认识大数据 2 大数据与数据挖掘分析 3 大数据的未来
设想一 数础 架构及商业化 模式,从数据的存储、挖掘、管理、计算等方面提供 一站式服务,将各行各业的 数据孤岛打通互联。
在用户与数据服务商之间是算法提供商,他们雇佣专业领域的 精英人才与数 据科学家,通过数据挖掘的方式,寻找事物间的联系 ,如基因集与疾病的对应关 系,大气状况如何影响农作物收成,以及某一款酒类广告如何带动鲜花的销售。
大数据的定义
大数据的概念可以用一句话概括:以场景化应用为根本,以云存储、云计 算、Hadoop 等先进技术为工具,以数据监测为基础,以关联预测为核心的企 业数据化管理新模式。
从技术层面来说:大数据指在云存储、云计算的前提下,运用 Hadoop 等 技术对 Exabyte/Zettabyte 级别的非结构化数据进行实时处理与深度挖掘的运算 模式;
数据挖掘常用方法
利用数据挖掘进行数据分析的常用方法主要有分类、回归分析、聚类、关联 规则、特征、变化和偏差分析、Web 页挖掘等, 分别从不同的角度对数据进行 挖掘。
“啤酒”和“尿布”两个看上去没有关系的商品放在一起进行销售、并获得 了很好的销售收益,这种现象就是卖场中商品之间关联性,研究“啤酒与尿布” 关联的方法就是关联规则分析法,又称“购物篮分析”。商品相关性分析是购物 篮分析中最重要的部分,在数据分析行业,将购物篮的商品相关性分析称为“数 据挖掘算法之王”。
而用户(无论个人或组织)所需要做的便是像今天下载手机 App 一样,选择 相应的数据服务端,付费,享受“ N=All”的实时数据所带来的深刻洞察与行动 指南。
设想二 大数据浪潮席卷全行业
个人的生活数据将被实时采集上传,饮食、健康、出行、家居、医疗、购物、 社交,大数据服务将被广泛运用并对用户生活质量产生革命性的提升,一切服务 都将以个性化的方式为每一个“你”量身定制,为每一个行为提供基于历史数据 与实时动态所产生的智能决策。
相关主题