大数据时代的行业变革
互联⺴网网
物联⺴网网
天 文文
大大数据
气气 象 其他
医疗健康
1、大数据时代的背景
数据产生生和消费模型开始转变
旧模式:少量公司产生数据,其他大量人消费数据。
新模式:人们产生数据,人们消费数据。
1、大数据时代的背景 美国大数据研究情况
机构/项⺫目目
美国国防部 美国国土土安全局 美国资源部 美国退伍军人人管理部 美国卫生生和人人类服务部
1.大大数据挖掘及智能匹配 ,帮助推荐人人找到适合推荐的候选人人。
3.2、人力资源行业大数据分析
人人才模型vs匹配算法
3.2、人力资源行业大数据分析 每个参与推荐的人,均获奖励
…
校友会、商业合作伙伴等
企业 员工工 论坛、线上平台等 中间推荐人人 候选人人
2.更激励:传统员工工推荐只有员工工获得奖金金,触达范围有限。我们让所有参与推荐 过程的人人都得到奖励,将奖励延展至至所有关联并信任的网网络。
内容提纲
大数据时代的背景 大数据分析技术与实践 大数据时代的行业变革 大数据时代未来展望
2、大数据分析技术与实践 基于Hadoop的数据挖掘技术
2、大数据分析技术与实践
基于Hadoop的数据挖掘平台操作界面
2、大数据分析技术与实践
■ Native贝叶斯和Kmeans算法性能对比
Kmeans 6 5 471M 4710M
2、大数据分析技术与实践 文本大数据处理技术(海量短信过滤)
2、大数据分析技术与实践 音频大数据处理技术(音乐内容分析)
2、大数据分析技术与实践 音频大数据处理技术 图1:输入音乐波形
切分音符 (音长)
2、大数据分析技术与实践 音频大数据处理技术
情景分类
2、大数据分析技术与实践 图像大数据处理技术
“新疆七五事件” 之 观点分析
2、大数据分析技术与实践 文本大数据处理技术(舆情发现与预警)
■ 电子科技大学 《BBS监控系统》 ■
成都大东网络安全技术有限责任公司 《舆情处置分析系统》
2、大数据分析技术与实践 文本大数据处理技术(海量短信过滤) 堵
内容特征 + 行为特征
流量过滤
拦 截
黑白名单
垃 圾 短 信
4
3 2
1
0
1
2
3
4
2、大数据分析技术与实践 文本大数据处理技术(基础平台) ■ 分布式深度爬虫系统 ■ 新闻门户、微博、论坛、社交网站、电商网站 ■ 元文件解析系统 ■ 网页、word、PDF,其他… ■ 文本分析系统 ■ 文本分词、同义词 ■ 分布式算法 ■ Hadoop、Graphlab
2011
2012
1、大数据时代的背景 大数据的概念
我们的观点,简单地说:“大大数据”就是“海量数据”+“复杂计算”。具体地说:是面面对! 规模巨大大、高高速产生生的形式多样的数据,只有通过复杂计算才能获取其中有价值信息的计算模! 式。其中,“规模巨大大”与“高高速产生生”反映出海量数据的特点;“形式多样”与“信息价值”! 反映出复杂计算的特点。“4V”的具体含义如下:
智能图片搜索技术
2、大数据分析技术与实践 图像大数据处理技术
2、大数据分析技术与实践 图像大数据处理技术
智能图片背景分离技术(阴影干扰)
2、大数据分析技术与实践 图像大数据处理技术
智能图片背景分离技术(光线干扰)
2、大数据分析技术与实践 图像大数据处理技术
智能图片背景分离技术(复杂背景)
2、大数据分析技术与实践 图像大数据处理技术
概括为4个V:! 大大规模(Volume)! 多样化(Variety)! 快速增⻓长(Velocity)! 潜藏价值(Value) 2012
Science推出专刊 《Dealing with Data》,说明大大数 据对于科学研究 的重要性
!
!
美国国家科学基 金金,发布大大数据 指南
!
2008
2010
美国国家档案和记录管理部
方方针
基础设施
应用用服务
美国国家航空和航天局 美国国家人人文文基金金会 美国国家卫生生研究院 美国国家科学基金金 美国国家安全局 美国地质勘探局
多模式多通道数据融合
月月球绘制与建模、环境条件评估等 大大数据对人人文文社会科学的影响 展开临床实践决策支支持,医学生生物工工 程等方方面面的研究
18世纪60年代 – 19世纪70年代 – 21世纪初 19世纪40年代 20世纪初 蒸汽 金金属 机器制造 规模化 电力力 化学 精密仪器 自动化 计算 数据 证析 个性化
1、大数据时代的背景
大大数据1.0
■ 自身业务需求产生生大大量数据 ■ 利用这些数据,通过深入入证析, 优化相关业务 ■ 数据指导决策
大大数据时代的行行业变革革
周俊临 jlzhou@ 电子科技大学 互联网科学中心
内容提纲
大数据时代的背景 大数据分析技术与实践 大数据时代的行业变革 大数据时代未来展望
1、大数据时代的背景 大数据概念的发展脉络
2011.5 2010.4 列入维基百科: 2010年4月21日, 首次列入入“维基 百科”条目 2008 概念最初提出: 《Nature》推出 了Big Data专刊
1、大数据时代的背景
1.0案例
■ Quantified Self ■ 婚恋匹配 ■ Netflix
1、大数据时代的背景
大大数据2.0
■ 搜集与目标业务直接或间接关联的大大量异 质数据 ■ 建立复杂的分析和预测模型,产生生针对目 标业务的输出 ■ 数据即决策
1、大数据时代的背景
大大数据3.0
■ 对数据质量、价值、权益、隐私、安全等产生生充 分认识,出台量化与保障措施 ■ 数据运营商出现,数据市场形成,数据产品丰富, 数据客(Dacker)活跃 ■ 学术团体、企业和政府通过大大量异质数据和数据 产品产生生科学、社会、经济等方方面的新价值
3.1 、金融行业大数据分析
金融大数据案例1:企业画像
■ Zest Finance ■ 阿里金金融 ■ 个人人预授信 ■ 企业预授信
深圳前海股权中心心企业画像
基于SaaS服务终端
PRD01:建立深圳信用网企业数据库
PRD02:建立前海企业数据库
PRD03:建立和社交网络关联的数据库
通过打通前海和深信网的数据,我们发现了和新浪微博近
规模巨大(Volume) 高速产生(Velocity) 形式多样(Variety) 潜藏价值(Value)
巨量:从TB级别,跃升到PB级别,甚至至ZB级别。
动态:数据高高速持续生生成,要求处理能力力高高,具有! 很强的实时性。 多态:数据类型繁多,如文文本、视频、音音频、图片片! 等及其变化组合。
1、大数据时代的背景 典型的大数据
! !
2、大数据分析技术与实践 文本大数据处理技术(舆情发现与预警)
■
杭州70码
2、大数据分析技术与实践 文本大数据处理技术(舆情发现与预警)
舆情群体分析
1. 2. 3. 三鹿事件报道 问责食品安全 网民调侃三鹿
2、大数据分析技术与实践 文本大数据处理技术(舆情发现与预警) “开胸验肺事件” 之 发展趋势预测
大大规模⺴网网络态势安全分析
1、大数据时代的背景 其他国外研究大数据情况总览
机构/项⺫目目
财政部科学资金金
方方针
发展大大数据和节能计算的研究,带动 企业在该领域的投资。
基础设施
加强计算基础设施,捕捉并 分析通过开放式数据革革命获 得的数据流。
应用用服务
基于医疗保健、人人口口统计、农 业和环境领域数据量提供服 务。 通过大大数据向用用户提供免费查 询服务;用用户可以根据税率和 交通情况等条件筛选最宜居的 地点等 .
3.2、人力资源行业大数据分析 游戏化机制,积分奖励
参与任务获得积分、积分排行行榜 积分商城换购
3.游戏化:吸引更多员工工加入入,参与就能得到激励,并非非只关注结果。
3.2、人力资源行业大数据分析 微信版,更便捷使用
4.更简单:微信端使用用,相当于系统的移动客户端,手手机就能操作!
3.2、人力资源行业大数据分析 成功案例
对ICT战略进展中产生生的大大 数据进行行收集、解析、利 用用。对国有的、学术界的和 产业界的大大数据进行行融合。
基于GPS的“道路交通图”在受 灾地区救助活动中应用用;基于 匿名化的手手机定位信息展现人人 口口移动的“移动空间统计”等。
1、大数据时代的背景
大大数据驱动新工工业革革命
第一一次工工业革革命 时间 能源 材料 工工艺 特征 第二二次工工业革革命 第三次工工业革革命?
金融大数据案例2:个性化推荐
■ 个性化产品推荐 ■ 个性化资讯推荐 ■ 个性化着陆页
Yes !
3.1 、金融行业大数据分析 金融大数据案例3:反欺诈
■ 股票交易中的麻袋用户甄别 ■ 信用卡恶意透支
3.1 、 金融行业大数据分析 金融大数据案例4:保险歧视
■ 健康评估 ■ 行行为车险
3.2、人力资源行业大数据分析 拓展员工社交网络,精准匹配
准备将全球企业和信息汇 总;对位置数据进行行整合。
第七框架计划(FP7)
欧 盟
将数据信息化基础设施作为 计划的优先领域。 .
大大数据欧盟会议(Big Data Europe)
组织发布商业智能和社交⺴网网络 分析的相关大大数据信息。
日日 本
总务省“活力力ICT日日 本”计划
把大大数据发展作为国家层面面战略提 出,新ICT战略重点关注大大数据应用用 技术。
油画效果 本地执行:230s 加速执行:16s 大小:49K 浮雕效果 本地执行:166s 加速执行:14s
黑白效果 本地执行:62s 加速执行:14s