当前位置:
文档之家› 2.2-微博数据获取处理平台
2.2-微博数据获取处理平台
7
WebAPP:心理地图、社会感知系统、 社会幸福感分析、热点事件监控等等
HBase数据仓库: •存储用户微博数据
• 用户数:简要信息~55m,详细信息~1m • 微博条数(~1.06m User):~3.5b
•压缩后逻辑存储容量:~4TB
Cloudera Hadoop方案: •集群管理(48 集群结点) •HBase键值数据仓库 •MapReduce分布式计算框架
Graphx
Sqoop
基础组件
MapReduce
Spark
离
线 导
Hadoop Yarn
入
HBase
Hadoop Hdfs
爬虫集群
Hadoop处理集群
统一接口
中间计 算
结果
Hbase KV 查询 API
业务应用 心理地图
社会感知
辛福感分 析
热点事件 监控
特定事件 监控
自杀意念
用户分析 ……
Web应用
具备Token申请的条件
申请Token
具备微博API获取数据权限
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
12
2016‐7‐14 4
系统介绍 » 分布式爬虫系统
微博开放平台特性:
下载频次限制、有效期
解决方案:分布式爬虫系统构建分布式Token获取服务
分布式爬虫系统
Thrift
Kafka
基于Hadoop的批量数据处理 系统
基于Storm的流数据处理系 统
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
22
系统介绍 » Hadoop计算平台
数据处理流程—特征提取
• 基于哈工大LTP语言分析平台
基于云计算的 微博数据获取分析平台
朱廷劭 中国科学院心理研究所 计算网络心理实验室
目录
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
2
目录
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
30
2016‐7‐14 10
应用实例»文心中文心理信息系统
URL:/textmind/
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
31
中国科学院心理研究所计算网络心理实验室
shehe they ipron
语言 过程
动词 助动词 副词
verb auxverb adverb
介系词
preps
连接词
conj
否定词
negate
量词
quant
数字
number
2016‐7‐14
中国科学院大学,
University
of
Chinese
脏话 Academy of Sciences
swear 23
微博提及(@)
AtMention
话题
HashTag
URL网址
URL
• Python、Java程序unct
代名词
pronoun
特定人称代名词
ppron
第一人称单数代名词
i
第一人称复数代名词
we
第二人称代名词
you
語文 歷程
第三人称单数代名词 第三人称复数代名词 非特定人称代名词
目录
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
11
系统介绍 » 分布式爬虫系统
微博开放平台(Weibo Open Platform)是基于微博 海量用户和强大的传播能力,接入第三方合作伙伴服务, 向用户提供丰富应用和完善服务的开放平台。
Hbase
2016‐7‐14 5
系统介绍 » Hadoop计算平台
离线处理模式(MapReduce):
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
16
系统介绍 » Hadoop计算平台
在线分析模式(Storm):
2016‐7‐14
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
29
应用实例»舆情分析直报系统
URL::20032/
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
5
目录
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
6
2016‐7‐14 2
人机交互 处理应用
平台系统组成
系统平台 基础设施
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
大数据分析基础平台 分析工具
平
Python
台
网
关
接
机器学习
口
Mahout
Mlib
R
Graph
Graphx
Sqoop
基础组件
MapReduce
Spark
离
线 导
Hadoop Yarn
入
HBase
Hadoop Hdfs
两大作用: • 离线处理 • 在线分析
五大功能: • 数据传输 • 数据存储 • 数据处理 • 模型建立 • 模型应用
20
系统介绍 » Hadoop计算平台
数据处理流程
采集
传输
特征 提取
模型 应用
展示
2016‐7‐14
存储
计算平台处理流程
中国科学院大学, University of Chinese Academy of Sciences
21
2016‐7‐14 7
系统介绍 » Hadoop计算平台
数据处理流程—传输
系统介绍 » Hadoop计算平台
数据存储:
Master Server
Zoo Keeper Cluster
HDFS Cluster
HDFS
Region Server
Region Server
Region Server
HStore
HStore Region
HFiles
HFiles
Hbase
2016‐7‐14
27
2016‐7‐14 9
应用实例»社会感知系统
URL:/SA/
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
28
应用实例»全国环保事件监控中心
URL::20017/
3
2016‐7‐14 1
平台概述 » 微博信息概况
我国网民数已以逾6亿(含移动客户端) 在新浪微博(我国最大的开放社会媒体)上: 日均活跃用户数约7660万 月活跃用户数约1.67亿
社会媒体兴起,用户在社会媒体上 获取信息、表达自我、进行互动…
数据即行为的记录
社会媒体→在线心理学实验室
2016‐7‐14
系统介绍 » Hadoop计算平台
数据处理流程—模型应用
特征数据
模型
• 大五人格 • 社会态度 • 辛福感 • 自杀意念 • 心理健康 • 环保事件 • 心理抑郁
……
预测结果
可视化
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
24
Server:维护TokenClient上报的有效Token;生成微博下载API的Url;处理Crawler的URL请求。
TokenClient:与Server通信,当有效Token小于一定阈值后,从数据库获取用户信息,申请Token
并发送到Server。
CrawlerClient:与Server通信,获取Url,根据更新机制下载微博数据,并将微博数据存储到
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
13
系统介绍 » 分布式爬虫系统
Server
消
息
队
列
CrawlerClient
… CrawlerClient
CrawlerClient
网 关
TokenClient
…
TokenClient
中国科学院大学, University of Chinese Academy of Sciences
19
系统介绍 » Hadoop计算平台
模型建立:
Mahout:基于Mapreduce Mlib:基于Spark GraphX:基于Spark ……
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences
• Spark、Spark streaming、storm • Kafka消息队列 • Mlib、Mahout等 • 模型库
2016‐7‐14
中国科学院大学, University of Chinese Academy of Sciences