当前位置:
文档之家› 百度技术沙龙30期:推荐引擎实践:策略篇_赵岷
百度技术沙龙30期:推荐引擎实践:策略篇_赵岷
用用户-item行行为数据的价值
ü 推荐算法设计与评估的基础
– 数据充足足,简单算法性能可以很好 – 数据缺失,任何算法也不可能有好的性能
ü 要求:不仅要吸引用用户提供反馈,而而且要吸引 用用户提供准确反馈
– 给用用户充足足便利的反馈机会 – 促使用用户促销购买 • 浏览行行为:排行行榜的强引导作用用
– 机器学习
35
例:关联计算 – 基于内容的(专家标注)
: Movie Genome
36
基于内容的关联计算:解决冷启动的好办法
ü 和其他领域紧密结合
– 新闻、博客、… – 自自然语言言处理 – 音音乐 – 音音频处理;图像 – 图像处理;视频 – 视频处理
例:关联计算 – 基于用用户行行为统计的
关键在于用户是否需要此功能 不在于算法简单或复杂
ü 例2:贴吧帖子子推图片片、视频 – 用用户:浏览该帖子子的用用户,可能是贴吧忠实用用户或搜索带来的非非贴吧用用户 – 推荐功能:
• • • • • 推荐内容:帖子子相关的图片片或视频 是否个性化:非非个性化的关联推荐,每个用用户看到的都一一样 展现形态:关联列表(文文字标题+多媒体内容) 实时反馈:点击查看 时效性需求:固定周期更新(旧帖)or 实时关联计算(新帖)
ü 数据
– – – – 内容:文文本、图片片、音音频、视频、…… Metadata:Ontology/类别信息、tag、…… 用用户行行为日日志:点击、评分、…… SNS:好友关系、群组关系、……
ü 同一一个算法可实现不同功能;同一一个功能可用用不同算法实现 ü 用用户建模、内容建模:将用用户、内容用用特征向量描述
– 属性、term、topic、……
ü 离线关联算法:计算<用用户-用用户>/<用用户-item>/<item-item>关联并排序
– 关联/相似度计算
• 基于内容的:专家标注、ontology、tag、文文本/音音频/图像/视频、…… • 基于用用户行行为的:统计方方法、关联规则、相似度经验公式 • 混合算法 • 协同过滤 :knn、基于模型的、…… • 各种经典算法:分类、回归、聚类、图算法、……
uid/cookie/无无线/…
产品线日日志
⺴网网⻚页库
资源库
推荐系统设计之策略篇
推荐的核心心任务
ü Task 1: 通过人人的行行为/偏好/兴趣、事物的特性等建立立事物 间和人人之间的关联 – 行行为:浏览购买、地理位置、Social Network、…… – 口口味:吃喝玩乐、衣衣食食住行行、…… ü Task 2: 把关联的人人或物推荐给人人 – 书籍、电影、音音乐、文文章、⺴网网站…… – 商品、干广广告…… – 人人、团体、活动……
13
推荐引擎技术Overview
评估 产品策略 产品分析 贴吧 video 推荐效果评估 新首首⻚页 新闻 分析框架/工工具 知道 …
架构
在线 服务 流式 计算 算法 平台 数据 仓库
用用户有需求 && 不知道怎样描述自自己己的需求 or 不知道去哪寻找 / 懒得找
3
推荐与个性化
ü ⺫目目标:协助用用户高高效便捷地寻找/发现信息 ü 管理&组织、搜索&引导、浏览&发现
A
e.g., 关联商品推荐
非个性化 个性化推荐 推荐 e.g., 基于个人消费
32
推荐系统之策略设计
功能分析、数据分析、算法设计
33
例:简单的个性化推荐流程图
用户 展现策略:相关、新热、多样、…… 实时反馈 推荐排序 触发召回 实时用户模型 实时内容模型 通知提醒
在线 算法
内容更新
离线用户模型
用户建模算法
离线关联 * 离线关联算 法
离线内容模型
内容建模算法
算法选择:基于数据和功能
推荐系统设计要素 推荐系统设计之策略篇
例:个性化上⺴网网入入口口 -- 新首首⻚页9例:知道问题推荐
10
例:贴吧帖子子推荐图片片、视频
11
例:音音乐推荐12推荐实践小小结ü 全类型 – 资讯 – 多媒体 – LBS、APP ü 全方方位 – 个人人上⺴网网入入口口、各垂直领域、PC+无无线
考虑因素: -- 用用户是否需要? -- 系统收益? -- 数据是否支支持? -- ……
界面面设计
3
ü 如何将推荐结果呈现给用用户? ü 如何收集用用户信息和反馈数据? ü ⺫目目的: – 提高高用用户满意度,达到推荐⺫目目的 – 更多更好地收集高高质量的用用户反馈 – 准确评测推荐算法效果
• 书、电影、音音乐、文文章 à 以用用户对内容主题的兴趣为主
– 价格不一一致,用用户经常购买的类别
• 服饰、日日用用百货 à 视觉、品牌、价格、内容
ü 何时(例) : – Email VS. 手手机短信 VS. APP推送 – 短期、⻓长期、周期(节假日日、季节、……) ü 何地(例) : – 商家、优惠券推送
ü 用用户数据的积累已经可以支支撑个性化应用用
– 能够在线获得大大量用用户行行为、偏好数据 – SNS的流行行,用用户逐渐养成分享和接受推送的习惯
5
个性化推荐:“钱”景
ü 个性化营销
– 电子子商务公司
ü 个性化干广广告
– 以面面向个人人用用户的干广广告为主要盈利模式 的互联⺴网网公司
6
但是……
ü — 除了干广广告/商品推荐之外,推荐还能带来什么显著收益? ü — 推荐是锦上添花,还是雪中送炭?独立立推荐产品能成功吗? ü — 会出现像搜索引擎一一样成功的推荐引擎吗?或者,推荐引擎将 与搜索引擎合二二为一一? ü 以上,期待大大家的实践体实现哪些功能?
ü 产品分类(例) – 文文本:新闻、博客、小小说、论文文、…… – 图片片:⻛风景、商品、旅游、…… – 音音频:歌曲、歌手手、专辑、…… – 视频:电影、电视剧、综艺节⺫目目、短视频、…… – 其他:app、位置服务、…… – SNS:人人、群组、…… – 混合类别~~ ü 数据(例) :文文本或其他内容 + metadata + 用用户行行为 + SNS ü 功能(例) – 1) item à item list:e.g., 关联商品、关联视频、关联app、关联⺴网网站 – 2) item set à item set list:e.g., 关联列表、关联专辑 – 3) user à item list、item set list:e.g., 您可能喜欢的XXX – 4) user à user list、 user set list:e.g., 您 推荐系统设计之策略篇
搜索 VS. 推荐:互为补充 信息爆炸 信息过载
方方法 1 用用户主动搜索
知识匮乏 时间有限
方方法 2 系统主动推荐
用用户知道自自己己想要什么 && 知道如何描述自自己己的需求
27
推荐系统设计之策略篇
功能分析、数据分析、算法设计
28
数据类型 ü Item – 内容:文文本、图片片、音音频、视频 – Ontology、tag ü 用用户 – profile ü 用用户-item行行为数据 – 点击、收藏、删除、观看、评分历史 ü 关键:各类数据是否充足足?可用用性如何?
ü 精度取决于相关领域的研究进展 ü 专家标注:限于item数量少且有相对客观标准的领域 – 电影 VS. 书籍 – 自自动专家发现? ü 可与Metadata结合:
– ontology(量少准确):商品分类
• 分类排行行榜:很土土很有效的推荐列表
– tag(量大大不准确)
37
历史的推荐
C
B
非推荐的 个性化
e.g., 用户个人中心
ü 产品可兼顾三者,搜索与推荐功能有机结合
为什么个性化推荐越来越热?
ü 提升用用户体验和满意度,增强用用户粘性
– 消费需求的变化:
• 单一一/从众 à 多样/个性/品位
– 信息的极大大丰富
• 需要有效的信息过滤工工具
• 每个产品特性导致不同的评估指标 • 如何评估用用户需求满足足 推荐系统设计之策略篇
推荐系统设计之策略篇
功能分析、数据分析、算法设计
25
用用户群体、推荐功能
ü 用用户数:万 à 十十万 à 百万 à 千万à 亿 ü 用用户群体:低端/高高端、大大众/小小众、职业、年龄…… ü 推荐功能: – 推荐内容:资讯、视频、图片片、…… – 个性化?非非个性化? – Session?Cookie?用用户? – Top-N?列表浏览? – 实时反馈的更新:点击、收藏、喜欢、删除、换一一批 – 用用户模型的更新:实时、小小时级、天级、周级?
20
架构设计
4
ü 大大规模存储 ü 分布式计算 ü 用用户量、访问频次、峰值 ü 实时响应的要求: – 毫秒级、秒级、小小时级? ü 硬件资源的最大大利用用
21
算法设计
5
ü 优化准则: – 准确性、多样性、新颖性、覆盖率、时效性、…… ü 数据预处理 ü 离线算法 ü 在线算法 ü 功能实现策略 ü 推荐解释 – 对消费代价大大的(时间、金金钱)item尤其重要
推荐子系统 关联 触发
视频类推荐 协同 过滤
ontology: 作品类
资讯类推荐 内容 关联 用户 模型 用户 数据 UGC数据 CTR 预估
用用户兴趣 模型
…… ……
用用户行行为 模型
推荐算法 内容 模型 推荐 资源 基础数据
文文本内容模型: 资讯/视频/图片片
资讯/视频/图片片/音音乐/…
22
系统评测
6
ü 上线前:基于人人工工标注评测集 ü 上线后: – 基于用用户点击数据
• 将用用户显示示/隐式反馈转化为评测集