当前位置:
文档之家› 社交图谱挖掘与社会化推荐引擎
社交图谱挖掘与社会化推荐引擎
多模型组合提高精度 • • Boosting Random Forest
离线评估/模型更新自动化
• • • MAE/RMSE AUC 训练、评测、更新自动化
线上实验 • • A/B test 实时报表反馈
摘要
• • • • • • • • 人人应用研究中心简介 社会化图谱挖掘案例概述 图谱挖掘一:社会化推荐系统概览 图谱挖掘二:好友推荐算法库 图谱挖掘三:好友亲密度模型 图谱挖掘四:好友智能分组算法 图谱挖掘五:热点内容检测及传播分析 社会化图谱挖掘主要任务归纳及展望
前沿关键技术成果
• 涉及图挖掘学习、文 本挖掘、社区检测
推荐 系统 社交 网络
• 研发面向超海量异构
网状数据的推荐框架 及算法 • 关系推荐、内容推荐 • 研究SNS和SMS的社 会化生态圈 • 社交图谱、兴趣图谱、 信息流
摘要
• • • • • • • • 人人应用研究中心简介 社会化图谱挖掘案例概述 图谱挖掘一:社会化推荐系统概览 图谱挖掘二:好友推荐算法库 图谱挖掘三:好友亲密度模型 图谱挖掘四:好友智能分组算法 图谱挖掘五:热点内容检测及传播分析 社会化图谱挖掘主要任务归纳及展望
• 应用场景举例 – Web端“好友推荐位” • 应用场景举例 – Web端“名片卡”(推荐解释) • 应用场景举例 – Web端“推荐好友新鲜事” • 应用场景举例 – Web端“连续推荐好友” • 应用场景举例 – 移动端 通讯录好友推荐、“附近的人” • 应用场景举例 – Web端照片内容推荐 • 应用场景举例 – “人人头条” • 应用场景举例 – Web端“推荐加入小组小站” • 应用场景举例 – Web端“推荐聊天群” ….
摘要
• • • • • • • • 人人应用研究中心简介 社会化图谱挖掘案例概述 图谱挖掘一:社会化推荐系统概览 图谱挖掘二:好友推荐算法库 图谱挖掘三:好友亲密度模型 图谱挖掘四:好友智能分组算法 图谱挖掘五:热点内容检测及传播分析 社会化图谱挖掘主要任务归纳及展望
数据挖掘案例二:好友推荐算法库
数据挖掘案例一:社会化推荐系统
• 背景:信息爆炸、信息过载
• • • • •
1分钟互联网产生多少数据?
48小时新视频@Youtube 2000000次搜索请求@Google 684478分享消息@Facebook 100000条微博@Twitter 3600张照片@Instagram
“We are
好友申请发送率提高近 100% 首页推荐位发送申请数 提高近70%
好友推荐算法库2:好友簇算法
• 算法原理:
社会网络拓扑结构中存在大量的强关系紧密结构 将用户分成簇,同簇的成员之间具备相近的社交关系
• 好友簇模型: • 效果:
最大团,层次聚类
加好友转化率提高122% 首页推荐位加好友数提高近89%
推荐解 释 数据统 计
实验分流 平台
系统监控
好友 推荐
User
新二度好友/好友簇/关联 规则/用户趋势/…
内容 推荐
协同过滤/内容关联/…
SocialGraph 一度人脉:同学/校友/同事/老乡; 二度人脉;同兴趣;亲人;情人; … 用户 好友 page
Content
基础数据
小站
视频
日志
…
线上统一排序模型
from , Oct. 2011
搜索排序
热点内容发现、预测 好友推荐
导航浏览 优化
新鲜事排序 + 用户关系建模
广告排序优化
from , Oct. 2011
应用研究中心主要工作领域
机器 学习
Mining Social Graph @renren
• 整合并改进机器学习
Friend Rec.
Family
• 好友智能分组及命名算法; • 群/讨论组推荐; • 搜人排序;新鲜事排序
?
? ?
• 二度好友模型、基于加好友趋势预估模型; • 接受率模型; • 通讯录社交图谱合并算法;好友亲密度模型
摘要
• • • • • • • • 人人应用研究中心简介 社会化图谱挖掘案例概述 图谱挖掘一:社会化推荐系统概览 图谱挖掘二:好友推荐算法库 图谱挖掘三:好友亲密度模型 图谱挖掘四:好友智能分组算法 图谱挖掘五:热点内容检测及传播分析 社会化图谱挖掘主要任务归纳及展望
moving from an Information Age to the Recommendation Age. ”
– “The Long Tail ” by Chris Anderson
• 推荐系统:给用户推荐符合其喜好的信息
好友推荐,商品推荐,日志推荐,视频推荐,App推荐,广告推 荐
Amazon, Facebook,Google, Netflix, Youtube, Apple…
Feature Extraction
Regression
。。 Logit
Model Selection
Model Updation
...
Random Forest
Offline Evaluation
多数据源整合生成特征 • • • • Action/Business LOG Cache MySql Hbase
大学同学
人人游戏同 事 商业产品部& 应用研究中心
新入职人人同事
Jun. 2011 renren @李伟
增加近700条边
Jun. 2013
好友推荐算法库4:加好友趋势预估模型
Action Log
Data Collection
Cache
Decistion Tree SVM
线上实验
HBase
Data Preproces sing
社交图谱挖掘与社会化推荐引擎
摘要
• • • • • • • • 人人网及人人应用研究中心简介 社会化图谱挖掘案例概述 图谱挖掘一:社会化推荐系统概览 图谱挖掘二:好友推荐算法库 图谱挖掘三:好友亲密度模型 图谱挖掘四:好友智能分组算法 图谱挖掘五:热点内容检测及传播分析 社会化图谱挖掘主要任务归纳及展望
Products: 可能认识的人、 附近的人
Friend Rec.
Family
• 好友智能分组及命名算法; • 群/讨论组推荐; • 搜人排序;新鲜事排序
?
? ?
• 二度好友模型、基于加好友趋势预估模型; • 接受率模型; • 通讯录社交图谱合并算法;好友亲密度模型
SNS大数据挖掘案例
Interest Discovery
• The method
交互建模
以交互周期为单位增量计算 不同行为赋予不同权重 区分交互对象,人重要于内容 区分短时间连续交互行为与间隔交互行为 资料相似度 共同好友
静态资料建模
图谱挖掘三:好友亲密度模型
• @ 黄晶(85432256): top 15 Strong Renren Friends
• 主要挑战之二
Two-step Link Prediction
x‰
(展示好友推荐) Show (发送好友申请) Invitation 目标 增加总体发送量 提高发送转化率 提升推荐准确度 不足 仅提升发送方的体验 好友关系边增长缓慢 xx % (接受好友申请) Accept 目标 增加好友关系的边数 提高发送-接受转化率 提升推荐准确度 提升双方的体验
好友推荐算法库3:加好友趋势预估模型
• Motivation
• The model
发现用户对不同群组的倾向性 根据用户反馈及时调整倾向性 为用户推送当前时刻最想扩充的群组对应的 好友
有道同事 主站&3G业务 同事
好友最大扩充的方向未必是当前 时间最大的群组
大学同学
有道同 事 人人同 事
推 荐 技 术 多 样 化
推 荐 社 会 化
2010年
Facebook公布 其二度好友推 荐算法,标志 社会化推进技 术逐步成熟。 Hadoop平台已 趋于成熟, Mahout子项目 也逐步丰富
2009年 2007年
Google Personalized News推进个性化 推荐技术影响力 巨大进步 Netflix Prize推荐 大赛结束,推荐 技术开始受到普 遍关注,
图谱挖掘三:好友亲密度模型
• 为什么有用?
好友Ranking UGC Ranking
图谱挖掘三:好友亲密度模型
• 为什么有用?
好友Ranking UGC Ranking
图谱挖掘三:好友亲密度模型 • What matter?
交互行为 用户资料 用户主动排序
特别好友 新鲜事黑白名单
推荐系统历史
推 荐 系 统 诞 生
1992年
Collaborative Filtering算法诞 生,推荐系统 诞生;
GroupLens Project应用CF 到新闻过滤
推 荐 个 性 化
2004年 2003年
Karypis引入个性 化推荐系统并逐 Amazon商品推荐、 步发展 CDNOW音乐专 辑推荐使用Itembased CF; MovieLens电影 推荐;
f1uf2 Nhomakorabeafof
• Computing paradigm
建立好友关系的可能性:有10个 共同好友是有1个共同好友为12倍 HDFS/HBase/MapReduce 线下计算:全量更新4.5小时/次;增量1小 时/次 线上更新:月活跃用户每天2次,日登用户 每天4次
• Results
• The system
Products:人人头条、 横插内容新鲜事推荐 Products: 群聊讨论组推荐、好友分组
Renren Colleagues College mates