当前位置:文档之家› 云计算大数据案例分享

云计算大数据案例分享

思考题1:如何实现快速拦截? 思考题2:如何只拦截套牌车? 。。。。
9-26
1.5 大数据带来的大挑战
IT领域数据激增
谷歌公司每天要处理超过24PB(250字节)的数据, 这意味着其每天的数据处理量是美国国家图书馆所 有纸质出版物所含数据量的上千倍。 YouTube每月多达8亿的访客,平均每一秒钟就会 有一段长度在一小时以上的视频上传。 Facebook每天更新的照片量超过1000万张,每天 人们在网站上点击Like按钮或者写评论大约有三十 亿次,为Facebook公司挖掘用户喜好提供了大量 的数据线索。 Twitter上的信息量几乎每年翻一番,目前统计是每 天都会发布超过4亿条微博
下雪了,怎么能没有炸鸡和啤酒
《来自星星的你》和《纸牌屋》最近的火爆收视 证明了:大数据,可以为影视界带来--精准的对 应人群,及社交网络话题贡献力!
从《纸牌屋》说起
2月14日,《纸牌屋》第二季的热播 让在线影片租赁公司Netflix再次 成为万众瞩目的焦点 奥巴马总统2月15日在其twitter上 恳请大家不要剧透 纸牌屋是2013年Netflix基于大数据 而投资拍摄的在线剧,无论是剧 情设置还是演员、导演阵容,都 以用户在网站上的行为和使用数 据做支撑,从开发之日起便注定 会受到观众的青睐。
1.4 大数据开启时代转型
数据是一种优质商业资本
数据已经成为了一种商业资本,一项重要的经济投 入,可以创造新的经济利益。 一旦思维转变过来,数据就能被巧妙地用来激发新 产品和新型服务。 数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段 的人所知。
大数据是服务
大数据是人们在大规模数据基础上可以做到的事情 这些事情在小规模数据基础上是无法完成的。 大数据是人们获得新的认知、创造新的价值的源泉; 大数据还是改变市场、组织机构,以及政府与公民 关系的方法 本质是提供了一种服务方法和手段
大数据影片带动大收入
Netflix花费1亿美元制作的《纸牌屋》第一 季受到了广泛的好评,投资者也提高了 对Netflix的热情。 除了《纸牌屋》,Netflix已经投资数亿美 元来制作原创的系列电视剧——如《铁 杉树丛》、《发展受阻》与梦工厂联合 出品的《极速蜗牛》、以及由瑞奇·热维 斯主演的《德里克》等。 大数据影片,带动2013Netflix营收较2012 增长18%。单单是在美国市场上, Netflix的用户人数就增加了200万人。
推荐无所不在
在Amazon的带领下,成千上万的网站可以推荐产 品、内容及相关的信息 例如:在线电影租赁公司Netflix公司,四分之三的 新订单都来自推荐系统。
4 大数据侧重对相关关系分析
4.1 个性化的推荐系统 4.2 关联物,预测的关键 4.3 “是什么”而不是“为什么” 4.4 大数据从操作方式开始改变 4.5 大数据改变人类探索世Amazon的个性化推荐系统
Greg Linden受命承担此任务,很快就找到了一个解 决方案。 他意识到,推荐系统实际上并没有必要把顾客 与其他顾客进行对比,需要做的是找到产品之 间的关联性。 1998年,Linden和他的同事申请了著名的 “item-to-item”协同过滤技术的专利。 方法的转变使技术发生了翻天覆地的变化。目 前Amazon销售额的三分之一都是来自于它的 个性化推荐系统
Hadoop采用的数据处理方式
Hadoop的输出结果没有关系型数据库输出结果那么精 确,它不能用于处理银行账户明细这种精确度要求很 高的任务。 但是对于不要求极端精确的任务,它就比其他系 统运行得快很多,比如说把顾客分群,然后分别 进行不同的营销活动。 信用卡公司VISA使用Hadoop,能够将处理两年内730 亿单交易所需的时间,从一个月缩减至仅仅13分钟。 这样大规模处理时间上的缩减足以变革商业了。 也许Hadoop不适合正规记账,但是当可以允许 少量错误的时候它就非常实用。
1.3 大数据变革商业
微软收购Farecast
2008年全球在线旅游业最令人关注的消息是微软以 1.15亿美元收购了机票价格搜索及预测公司 Farecast并入Bing搜索引擎。凭借其创新的机票 价格预测技术和Fare Guard最低价格保证模式 Farecast的Fare Guard最低价格担保模式,客人只需 支付10美元购买此项服务,如果在未来7天内机票 价格最终上涨,Farecast将支付客人锁定价格与最 终实际票价之间的差额。如果机票价格下跌,客 人将可以享受由此带来的费用节省。
国内数据
搜狐视频买下《纸牌屋》内地播放版权,《纸 牌屋》播放数显示 第一季 13 集播放次数达2000 多万次 2月14日上线当天,第二季第1集播放数 已经超过 145 万。 新浪微博中,带”纸牌屋“标签的微博多达 102 万条
内容
第一部分 大数据时代已经来临 第二部分 大数据时代的思维变革 第三部分 大数据时代的商业变革 第四部分 大数据时代的管理变革
谷歌利用大数据预测流感
在甲型H1N1流感爆发的几周前,谷歌公司的工程师们 在Nature杂志上发表了一篇引人注目的论文。它令 公共卫生官员们和计算机科学家们感到震惊。 文中解释了谷歌为什么能够预测冬季流感的传播:不仅 是全美范围的传播,而且可以具体到特定的地区和州。 谷歌通过观察人们在网上的搜索记录来完成这个预测, 谷歌保存了多年来所有的搜索记录,而且每天都会收 到来自全球超过30亿条的搜索指令,如此庞大的数 据资源足以支撑和帮助它完成这项工作。
大数据用于投资决策
Netflix:没人比你更懂用户 Netflix每天会对全美和世界的2700万和3600万注册 用户的3000万次“动作”(包括播放、暂停、倒 退和快进等动作)、400万次评级、300万次搜索, 以及一天中用户观看视频的时间和所用设备进行观 测。 此外,Netflix上的电影和电视节目还被观众贴上了数 以百计的标签,包括影片的演员、情节、基调、类 型等方面的描述。 过去,这些标签的作用是根据个体用户的喜好向他们 推荐网站上的电影和节目,而现在,Netflix开始根 据用户的偏好制作原创内容。
信息分析的三个重要转变
首先,要分析与某事物相关的所有数据,而不是 依靠分析少量的数据样本。 其次,我们乐于接受数据的纷繁复杂,而不再追 求精确性。 最后,我们不再探求难以捉摸的因果关系,转而 关注事物的相关关系。
第二部分 大数据时代的思维变革
民调偏差
以固定电话用户为基础进行投票民调就面临了这样的 问题,采样缺乏随机性,因为没有考虑到只使用移 动电话的用户,自然就得不到正确的预测。 2008年美国总统大选中,盖洛普等咨询公司发现,如 果不把移动用户考虑进来,民意测试结果就会出现 三个点的偏差,一旦考虑进来偏差就只有一个点。 鉴于奥巴马与麦凯恩之间的票数差距极其微弱,这已 经是非常大的偏差了。
云技术给了人们廉价获取 海量计算和存储能力
大数据处理之所以发生是因为:廉价技术使大数据 变成可能 以前一个大型机,或者一个数据处理中心的事情, 目前可以用一个Hadoop集群来完成 – 宽带连接的普及使得人们时刻保持在线状态
例子:套牌车的自动发现与拦截
采集的数据流(源)
... 201306131127京NTC223501132101401230...11771029... ... 201306131127京P82112451131113210140...11770272... ... 201306131129京F21245621112711321014...11771022... ... 201306131132京B92206641129113210141...11771021... ... 201306131127京NTC223501132101401230...11771029... ... 201306131127京P82112451131113210140...11770272... ... 201306131129京F21245621112711321014...11771022... ... 201306131132京B92206641129113210141...11771021… ... 201306131127京NTC223501132101401230...11771029... ... 201306131127京P82112451131113210140...11770272... ... 201306131129京F21245621112711321014...11771022... ... 201306131132京B92206641129113210141...11771021...
其它领域
2003年人类第一次破译人体基因密码的时候,辛苦 工作了十年才完成了三十亿对碱基对的排序。 十年后的今天,世界范围内的基因仪每15分钟 就可以完成同样的工作。 在金融领域,美国股市每天的成交量高达70亿股 其中三分之二的交易都是由建立在数学模型和 算法之上的计算机程序自动完成的。这些程序 运用海量数据来预测利益和降低风险。 天文、农业、航天。。。。
每5分钟后某车牌经过的路口次数
– (京NTC2311, 20) – (京P821074, 5) – (京B922356, 6) – 。。。。 发现问题车牌 (京NTC2311, 20) 因为其在5分钟内经过了 20 个路口 问题原因 该车超速 套牌车(有两辆同号牌车在不同的地点行驶)
快速拦截处理
大数据基础
谷歌公司把5000万条美国人最频繁检索的词条和美国 疾控中心在2003年至2008年间季节性流感传播时期 的数据进行了比较。 谷歌公司为了测试这些检索词条,总共处理了4.5亿个 不同的数学模型。在将得出的预测与2007年、2008 年美国疾控中心记录的实际流感病例进行对比。 谷歌公司发现,他们的软件发现了45条检索词条的组 合,将它们用于一个特定的数学模型后,他们的预 测与官方数据的相关性高达97%。
1.2 大数据变革公共卫生
甲型H1N1流感
2009年出现了一种新的流感病毒。这种 甲型H1N1流感结合了导致禽流感和猪 流感的病毒的特点,在短短几周之内迅 速传播开来。 全球的公共卫生机构都担心一场致命的流 行病即将来袭。有的评论家甚至警告说, 可能会爆发大规模流感,类似于1918 年在西班牙爆发的影响了5亿人口并夺 走了数千万人性命的大规模流感。 糟糕的是,当时还没有研发出对抗这种新 型流感病毒的疫苗。公共卫生专家能做 的只是减慢它传播的速度。但要做到这 一点,他们必须先知道这种流感出现在 哪里。
相关主题