当前位置:
文档之家› 理解大数据-实践大数据-施水才
理解大数据-实践大数据-施水才
台风 梅花
气象服务新领域、提升 气象服务水平提供参考。
中国气象局
气象信息月度走势图
年度热门气象事件排行榜
全国气象舆情热度概览
气象口碑媒体分布图
借助数据中心的大数据与云服务平台,拓尔思 运营团队为气象局提供了全面的多维度分析。
关系可视化
每日微博热点分析
拓尔思大数据技术的优势
• 架构,集群,分析,非结构化信息处理方 面的技术工程能力,满足企业级客户的能 力
Angent n
Collector n
开发接口
Master管理集群 Master 1 Master 2 Master n 基于时间分段的大数 据检索与索引接口 MapReduce
搜 索 引 擎
日志采集监控
数据库监控
机器数据搜索引擎
用户行为挖掘与推荐引擎
TRS 机器数据挖掘引擎特点
• 支持主流格式机器数据的实时采集、解析、管理 和搜索。 • 基于时间分段和负载均衡的大数据索引与检索机 制。 • 基于Web的机器数据搜索与分析界面。 • 兼容Hadoop平台的日志挖掘和用户行为分析。 • 基于多种推荐模型的在线推荐引擎 • 大规模部署的自动化和运行状态监控
TRS SMAS功能框架图
舆 情 管 理 信 息 挖 掘 服 务 共 享 信 息 来 源
舆情分类
热点统计
人物分析
趋势分析
热点跟踪
微博分析
微博运营
整合统计
关联图谱 动态走势
兴趣图谱 未知探索
热点变化 意见领袖
传播图谱 关系分类
个性展示 敏感预警
自由分布 数图导出
图表切换 多维检索
探针追踪 元搜索
自动排重、自动分类、自动摘要、自动分析
TRS 机器数据挖掘引擎
日志采集 日志发送节点 Angent 1 Angent 2 Angent 3 …… 日志接收集群 Collector 1 Collector 2 Collector 3 …… 数据存储 数据存储层 大数据管理系统 数据备份 数据分析层 基于Hadoop的数据分析 CKM文本 挖掘与数 据挖掘 关联觃则 与序列模 式挖掘 推荐引 擎的离 线分析
20亿元清单, 能否换来清新?
PM2.5监测不能 背离公众感受
第六层 第五层 第四层
•
微博TOP10意见领袖排行
传播了712次 占转发数百分 比:54.39%
第三层
第二层
第一层
传播了432次 占转发数百分 比:33.00%
郑渊洁
作家 博主自身的 二次转发
微博原文
通过SMAS平台的抽样分析,提取网民热点话 题内容,得到TOP10意见领袖排行。对意见领 袖的代表性微博迚行传播链分析,可知“意见 领袖”巨大的传播影响力。
珠三角成首个公布 PM2.5城市群 珠三角PM2.5严重超标 环保局回应PM2.5数据 质疑
借助数据中心的大数据与云服务平台,从区域分布的角度对PM2.5的相关信息 迚行归类,迚行全面的整合、统计与分析,得到上图分析内容。
北京市环保局PM2.5分析
PM2.5监测, 关键词是“真实” PM2.5均匀分布, 监测点为何 不均匀分布?
北京市环保局PM2.5分析
中国气象局
气象舆情监测
•对气候的影响
依托数据中心与云服
极端天气频发,有多少 是人为之祸?公众对气 象部门的气象服务有了 全新的期待。
务平台,拓尔思运营团 队还原热点气象事件引 发的网络舆情,总结气 象部门应对气象危机的 得失,为气象部门开拓
日本 核辐射
三峡 工程
长江中下 游干旱
4、大数据的应用不仅仅是精准营销
• 通过用户行为分析实现精准营销是大数据的典型 应用,但是大数据在各行各业特别是公共服务领 域具有广阔的应用前景
金融 服务 食品 安全 医疗 卫生 军事
消费 行业
交通 环保 电子 商务
气象
5、管理大数据“易”理解大数据“难”
• 虽然大数据是一个重大问题,真正 的问题是让大数据更有意义 • 目前大数据管理多从架构和并行等 方面考虑,解决高并发数据存取的 性能要求及数据存储的横向扩展, 但对非结构化数据的内容理解仍缺 乏实质性的突破和进展,这是实现 大数据资源化、知识化、普适化的 核心 • 非结构化海量信息的智能化处理: 自然语言理解、多媒体内容理解、 机器学习等
国家药监局
传播趋势
主流观点
-----毒胶囊事件------关键人物 关键地区
SMAS分析团队
连续30天跟踪毒 胶囊事件,从整 体传播趋势、观 点、人物、地区 等规角,还原了 这起颇具影响力 的公共事件。
北京市环保局PM2.5分析
两会代表委员热 议PM2.5 “京V”排放标准首 规定PM限值
高 报 道 量 排 行 低
• 非结构化数据和结构化数据统一管理 • TRS多语言检索引擎 • 全面采用TRS文本挖掘技术
• 良好的集群扩展能力
• 索引服务器读写分离
国家知识产权局专利检索服务系统
• 1998年专利局引进了欧洲EPOQUE系统,基于 大型机的专利检索系统,每年的系统维护费用就 达数千万元 • 2005年开始建设自主可控可持续发展的专利检 索和服务系统,采用大量的PC服务器 • 典型的非结构化/半结构化数据应用场景
• 最早采用文件系统,后来改为Oracle,效率很低,
再改为Oracle+TRS ,持续服务至今
• 从大型机改为PC服务器集群
多语种数据 27000家 注册用户 1.5亿条 原创新闻资讯
8000多种 资源分类
PB级数据量
26000小时 权威原创视频
700万张图片
新华社多媒体数据库数据流转图
新华社多媒体库的技术特点
大数据的4V特性
非结构化数据的超大规模和增长
体量Volume
总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义
多样性Variety
价值密度Value
大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能 (咨询、报告等)
云计算本身也是大数据的一种业务模式
2、大数据不仅仅是“大”
多大? PB 级
比大更重要的是 数据的复杂性, 有时甚至大数据 中的小数据如一 条微博就具有颠 覆性的价值
3、软件是大数据的引擎
• 和数据中心(Data Center) 一样,软 件是大数据的驱动 力,软件改变世界
大数据生态:软件是引擎
• 和存储、数据库等厂商相比,更强调大数 据的分析和挖掘的能力
联系方式:shi.shuicai@ /shuicai
谢 谢!
TRS 在大数据领域的应用实践
• 新华社多媒体数据库 • 国家知识产权局专利检索系统 • 某部信息监控系统
• TRS SMAS 云服务(大数据服务)
象局 − 每日微博热点分析
新华社多媒体数据库系统
• 是新华社的核心业务支撑,典型的非结构化数据管理应 用场景,持续IT投资已经超过6亿人民币 • 以新华社遍布全球的新闻信息及采集网络为依托,全面 整合新华社的文字、图片、图表、音视频、报刊等全部 资源和社会上有价值的新闻信息资源,拥有包括中、英、 法、俄、西、阿及中文繁体在内的 6个文种,数据量超 PB
理解大数据,实践大数据
施水才
北京拓尔思信息技术股份有限公司
2012年5月31日
内容
• 对大数据的理解 • 拓尔思大数据产品布局和应用实践
反对派认为,我们现在处在 一个盲目的大数据崇拜时代
大数据产生的背景
• 数据的爆发式增长和 社会化趋势,新摩尔 定律 • 大数据已经成为一种 自然资源 • 机器数据日益重要
新闻
论坛
博客
搜索 引擎
微博
wiki
TRS SMAS 作用于企业2.0
质量缺陷 设计缺陷 使用缺陷
用户设计
产品
竞争分析
研发
情绪感知
外网 微博 论坛 SNS 网媒
趋势分析
SMAS 用户感知
危机预警
及时服务
公关
广义 服务
口碑监测
官网 提高 销量 用户 满意度
声誉管理
营销
媒介监测 SCRM
KOL维护 事件评估 行为分析
• 数据聚类
• 基于相关反馈的检索 • 跨语言检索
某部网监智能搜索和挖掘系统
• 系统特点:
− 巨大的数据量 − 多样性数据 − 数据极快速增长
数据量远超过互联网, 目前部署TRS 系统 • 系统现状 2000多套 − 已经部署数千台服务器,满足了业务需
求
• 挑战
− 性能和可扩展性 − 整合和调度
SMAS的用户
丏利检索与服务系统的数据种类与规模
6亿多条 专利记录
7×24 稳定可靠
100%查全率
1万注册用户 多渠道异构 资源整合 700-1000并 发
<1秒 响应时间
专利检索引擎数据流转图
专利检索与服务系统-外观图像检索
专利图像外观检索
• 局部检索 • 形状检索 • 纹理检索 • 不变性特征检索 • 草图检索 • 数据分类
国家质检总局
2012.1 蒙牛致癌门
2012.3 辽源注水肉
2012.4 含氯可口可乐
2012.5菲律宾香蕉质量
2012
2012.2 苏泊尔质量门
2012.3 315质量报告
2012.4 蜜饯质量问题
仅在2012年上半年,拓尔思运营团队就为质检总局在产品质量、食品安全方面提供超过
40余项服务,借助数据中心的大数据与云服务平台,迚行全面的整合、统计与分析。