大数据与智慧校园
20世纪90年代,我们主要对文本进行数字化。 随着过去的几十年里存储能力、处理能力 和带宽的提高,我们也能对图像、视频和 音乐等类似的内容执行这种转化了
数字化是大数据的基础
量化一切、利用所有的数据
--大数据的基础
在数字化时代,获取数据正变得比以往任何时候都 简单而不受限制
文字、方位、社交关系等都变成了数据
17
大数据提供了一种
廉价获取海量计算和存储能力
• 大数据处理之所以发生是因为: 宽带连接的普及使得人们时刻保持在线状态 廉价技术使大数据计算变成可能 以前一个大型机,或者一个数据处理中心的事 情,目前可以用一个Hadoop集群来完成
大数据的四个特点
• 大数据特点,业界通常用4个V来概括 • Volume、Variety、Value、Velocity
大数据影片带动大收入
Netflix花费1亿美元制作的《纸牌屋》第一 季受到了广泛的好评,投资者也提高了 对Netflix的热情。
除了《纸牌屋》,Netflix已经投资数亿美 元来制作原创的系列电视剧——如《铁 杉树丛》、《发展受阻》与梦工厂联合 出品的《极速蜗牛》、以及由瑞奇·热维 斯主演的《德里克》等。
大数据影片,带动2013Netflix营收较2012 增长18%。单单是在美国市场上, Netflix的用户人数就增加了200万人。
下雪了,怎么能没有炸鸡和啤酒
《纸牌屋》和《来自星星的你》最近的火爆收视 证明了:利用大数据对社交网络话题进行分析,可为
影视界带来精准的对应人群,及票房贡献力!
大数据带来的技术挑战
过去标签用于根据用户的喜好向用户推荐节目 现在Netflix开始根据用户的偏好制作原创内容
主演为啥选 凯文·史派西
通过大数据及标签分析 Netflix知道,相当一部分观众 喜欢大卫·芬奇的作品,由凯文·史派西主演的电影 通常很卖座,英国版的《纸牌屋》也很受欢迎。
有了这三个兴趣人群,Netflix找到了一个维恩图解交集, 证明如此配置一部新版《纸牌屋》将稳操胜券。
大数据重点
挖掘数据背后隐含的信息
之前信息技术变革的重点在“T”(技术)上,而不 是在“I”(信息)上。
现代信息系统让大数据成为了可能,是时候开始关 注信息“I”本身了。
大数据发展的核心动力来源于人类测量、记录和分 析世界的渴望。
大数据应用于决策支持
以电影投资为例
电影娱乐行业,开始采用大数据做投资决策
资源发展不平衡
• 资源的分类 – 计算能力,存储能力,网络速度
• 瓶颈问题 – 数据读取能力的改进跟不上数据传输速度 – 磁盘读取速度 100 MB/s – 1T数据需要1000000/(100*60)= 165min
16
Google遇到的问题
• 数据来源种类多且量大 • 需要高效可扩展处理 • 绿色环保、价格适宜 • 可靠性保证,充分利用带宽资源
大数据技术应用
与智慧校园
杨文川 2014.4
ห้องสมุดไป่ตู้
大数据推动各行业进入新时代
• 一是关注社会民生,带动管理服务创新 • 二是促进信息消费,加快经济转型升级
数字化生活的重点
--将一切转换为数据
1995年美国MIT的Nicholas Negroponte (尼古拉斯 · 尼葛洛庞帝)发表他的标志 性著作Being Digital(数字化生存)的时 候,他的主题就是“从原子到比特”。
剧情设置、演员、导演阵容,都以用户在网站 上的行为和使用数据做支撑
精准定位观众人群,满足其口味,并提供足够 的社交话题
VS
从《纸牌屋》说起
美国第一部大数据在线剧
这是2013年Netflix基于大数 据而投资拍摄的在线剧
剧情设置、演员导演,都以用户 在网站上的行为和数据做支撑;
从开发之日起便注定会受到观众 的青睐。
注意:Netflix是在线影片租赁公司
大数据确定 剧情、演员
Netflix上的电影和电视节目还被观众贴上了数以百计的 标签,包括影片的演员、情节、基调、类型等方面的 描述。
Netflix每天会对全美和世界的2700万和3600万注册用户 的3000万次“动作”(包括播放、暂停、倒退和快进 等动作)、400万次评级、300万次搜索,以及一天中 用户观看视频的时间和设备进行观测。
第一,数据体量巨大
• 从TB级别跃升到PB乃至EB级别。 – 要知道目前的数据量有多大,我们先来看看一组 公式。 – 1024GB=1TB;1024TB=1PB;1024PB=1EB ; – 1024 EB=1ZB;1024ZB=1YB。
• 到目前为止,人类生产的所有印刷材料的数据量是 200PB,而历史上全人类说过的所有的话的数据量 大约是5EB。
Twitter上的信息量几乎每年翻一番,目前统计是每 天都会发布超过4亿条微博
海洋环境监测与预报
• 为监测海洋环境,感知海表的高度和温度变化 – 每150平方海里海洋部署1个传感器,每个 传感器都以每秒10次的速率传回数据 – 每次传送的是4字节数据,每天产生的数据 量为3.5MB – 环美洲的海洋需要100万个传感器,每天传 回的数据3.5TB – 全球海洋面积3.6亿平方海里,需要360万个 ,每天传回10T以上的数据
IT领域数据激增
谷歌公司每天要处理超过24PB(250字节)的数据, 这意味着其每天的数据处理量是美国国家图书馆所 有纸质出版物所含数据量的上千倍。
YouTube每月多达8亿的访客,平均每一秒钟就会 有一段长度在一小时以上的视频上传。
Facebook每天更新的照片量超过1000万张,每天 人们在网站上点击Like按钮或者写评论大约有三十 亿次,为Facebook公司挖掘用户喜好提供了大量 的数据线索。
与此同时, Netflix还根据精确的算法判定出为这样一 部电视剧付出多少投资是合理的。
《纸牌屋》第二季热播
搜狐视频买下《纸牌屋》内地播放版权,《纸 牌屋》播放数显示 第一季 13 集播放次数达2000 多万次 2月14日上线当天,第二季第1集播放数 已经超过 145 万。
新浪微博中,带”纸牌屋“标签的微博多达 102 万条
第二,数据类型繁多
• 这种类型的多样性也让数据被分为结构化数据和非 结构化数据。