在线社交网络数据挖掘
如何做数据挖掘
1. 深入学习数据挖掘理论基础 关联规则挖掘、分类、聚类算法等 2. 广泛阅读著名会议论文跟踪热点技术
KDD,ICDM等
3. 尝试参加数据挖掘比赛培养全方位解决实际问题的能力 SigKDD,Kaggle等 4. 尝试为一些开源项目贡献自己的代码
谢谢!
有了在线社交网络我们如何出去吃一顿?
为什么需要数据挖掘?
在线社交网络上:
1.我们每天产生
2.5x1018
2
byte的数据量 年
2.这些数据均产生于过去
在线社交网络研究核心:
Application Prediction Search
Information Diffusion
Advertise
X1..Xn X1* (1).. Xn* (1) X1* (2)..Xn* (2)
*(1) n
③ 控制方法
*(1) *( m) (n ...... n )
*(2) n
X1* (m)..Xn* (m)
…
*( m ) n
…
近期相关研究1:用户购买行为预测
淘宝 用户 的四 种行 为预 测及 其分 布
你不知道的社交网络
信息安全基本概念
第一次工业革命
第二次工业革命
第三次工业革命
第四次工业革命
信息安全基本概念
信息量大 信息安全
真假难分
数据异构
在线社交网络现状:
• 1.26 billion users • 555 million users 700 billion minutes/month 5 billion tweets/day
小波分析
频谱包络
经验模态法
...
S
A1
x( ) F 1 lg F [ f (t )* h(t )]
...
D1
F 1 lg[ F (e jw )* H (e jw )] F 1[lg F (e jw )] F 1[lg H (e jw )] ˆ ( ) h ˆ( ) f
( ) H [ x(t )] x
A2
A3
D2
S A1 D1
(t )
x( )
D3
A2 D1 D2 A3 D1 D2 D3
2 (t ) x(t ) x 2 (t ) x
S
s V
s v
s v
... v xX Nhomakorabeax
x
利用发动机工作的海量的数据,根据数据的来源及其代表的属性,采用张量分 解等,抽出核心数据,快速进行故障诊断。
• 800 million users ~50% revenue from network life • 560 million users influencing our daily life • 79 million users per month 9.65 billion items/year • 500 million users 35 billion on 11/11 • 280 million users 80% of users are 80-90’s
其中购买和购物车以及收藏符合明显的齐普夫(帕累托)分布,即80%的人 购买少量的物品,只有大约20%的人大量购物(图中红色点为“双11”记录)
近期相关研究2:用户移动轨迹和移动方式预测
Supervised methods Decision tree Support vector machine Markov Models Unsupervised methods empirical method kernel method
speed values location features heading change rate stop rate velocity change rate ......
近期相关研究3:发动机异常检测
发动机监控 系统 结构监控系 统 执行器监控 系统 ... 航空电子监 控系统
强健的故障特征提取与信号处理
BIG Social Data
在线社交网络研究核心:
① 社交网络的结构特性与演化机理
② 社交网络的群体行为与互动规律
③ 社交网络信息传播模型与影响力
实际案例1:位置信息挖掘
位置 共享
公园
宿舍
?
位置信息
通讯信息
?
?
活动信息
教室
KTV
?
运动场所
?
情绪信息
位置情感 兴趣点发现
兴趣点发现
通过兴趣点发现最佳轨迹
实际案例:谷歌流感预测
研究目标
构建大数据智能决策计算范式 实现个体智能到群体智能的跨越
科学问题 1:复杂数据的 精简表达与度量
① 分布规律
科学问题 2:全模态数据的 计算模型与方法
① 核数据提取
N K
科学问题 3:群体智能的 计算模式
① 预测模型
② 结构规则
② 决策机制
② 多重小样本近似
③ 关联模式
实际案例:谷歌流感预测
在流感爆发季节,人们也会通过
twitter等工具反映用户本人、朋友
是否感染流感,或者与流感相关的 信息等。因此利用google/twitter等
工具抓取与流感相关的关键词,通
过分析这些关键词的频率发现,相 对于传统的疾病监测系统,这种方 法可以很好预测流感的传播情况, 尤为重要的是,这种方法的代价低 甚至可以提早很多天进行预测。
Social Network Analysis
Macro Community ER model BA model
Meso Social tie Group behavior Dunbar
Micro Social influence Action
Theory
Social Theories
Algorithmic Foundations