当前位置:
文档之家› 7-SDCC2015-爱奇艺-王敏-爱奇艺推荐系统架构与实践
7-SDCC2015-爱奇艺-王敏-爱奇艺推荐系统架构与实践
实现分布式的实时数据计算 • 视频内容相关性计算 • Online Learning
技术架构 - Offline
数据建模 •用户兴趣建模 •视频建模 •用户/视频聚类 •内容去重 推荐算法 •Item CF •矩阵分解 •基于内容的推荐 •热门视频 机器学习 •排序模型 •CTR预估
技术架构 - 上线与迭代
分布式模型特征持久化
线下推荐候选集合计算
个性化视频推送 - 在线学习
概念 • 实时采集每个样本进行训练并更新模型 优化目标: • 推送点击率 模型: • Logistic Regression 算法: • 在线梯度下降(OGD) / 随机梯度下降(SGD) • Follow-The-Regularized-Leader (FTRL), Google 2011
算法优化:
理论支持 线下测试 在线A/B测试 全量上线
测试失败
Agenda
• 推荐系统@爱奇艺 • 推荐系统与大数据 • 技术架构 • 实例介绍
实例介绍 – 私人影院
私人影院
2014年12月上线,与旧版电影首页相比
人均电影 播放量提 高60%
人均电影 播放时长 提高65%
视频点击 率提高 200%
爱奇艺推荐系统架构与实践
王敏 2015-11-21
关于爱奇艺
• 1.5亿独立用户 • 1.8亿独立设备 • 1.9亿小时视频观看时长 • 11亿次视频观看次数
Agenda
• 推荐系统@爱奇艺 • 推荐系统与大数据 • 技术架构 • 实例介绍
推荐系统@爱奇艺
• 全端智能化推荐战略
• 个性化推荐 • 相关推荐
技术架构 - Nearline
用户行为收集
• 从日志服务器收集用户行为 • 基于Apache Flume进行读取分发
用户行为分发
• 近在线部分将事件发送给Kafka • 离线部分将数据存储到HDFS
技术架构 - Nearline
基于Kafka + Storm
• 高稳定性 • 高实时性 • 高并发度
私人影院
基于用户 深度挖掘 的个性化 推荐 高互动性 和高定制 化
智能生成 的口语化 电影主题
家庭成员 Profile化 浏览
私人影院
用户
主题Байду номын сангаас
智能电影主 题生成算法
精准用户和 会员模型
算法
机器学习和 数据挖掘
电影个 性化推 荐
私人影院 – 主题
电影标 签分类
句法分 析
二战时期的 关于军事的 悲剧电影
• 基于HDFS的数据仓库 • 类SQL查询语言
推荐系统与大数据 – 数据流
Flume
• 高可用的,高可靠的, 分布式的海量日志采 集、聚合和传输
Kafka
• 分布式消息队列 • Push & Pull
Storm
• 实时计算框架
Agenda
• 推荐系统@爱奇艺 • 推荐系统与大数据 • 技术架构 • 实例介绍
技术架构
• 一个好的推荐系统
快速处理新 增数据和实 时交互
分析处理海 量数据
灵活加入和 迭代各种推 荐算法
低延迟响应 高QPS的推 荐请求
技术架构
技术架构- Online
服务引擎 • 高并发、低延迟、高稳定 • Load Balance / Scalability 在线计算 • 数据缓存 – Couchbase / Redis • 数据加载和更新 • 运算和预测
• 2014年6月 • 业界第一个个性化的H5网页端
推荐系统@爱奇艺
• 2014年12月 • 业界第一个“私人影院”
推荐系统@爱奇艺
• 2015年7月 • 业界第一个个性化的移动APP客户端
Agenda
• 推荐系统@爱奇艺 • 推荐系统与大数据 • 技术架构 • 实例介绍
推荐系统与大数据
• 基于爱奇艺云平台
推荐系统与大数据
整个推荐系统的底层运转和计算大量依赖于 Hadoop生态系统
计算 • 超过20000个 MapReduce 任 务 • 超过100个 Spark任务 存储 • 超过200TB HDFS存储 • 超过20TB Hbase使用 • 每天新生成数 据超过1TB 数据流 • 处理超过 500GB的数据 流 • 处理超过10亿 条消息
个性化视频推送
主要产品: • 手机端消息推送服务
难度和挑战:
• Context-aware • 个性化 • 实时计算
个性化视频推送
效果对比:
• 日活跃用户同比增加 46% • 日客户端开启次数增加50%
个性化视频推送
在线
实时用户行为和上下文收集
计算最佳推送时间和推送结果
近在线
推荐模型的实时学习和更新 离线
• 覆盖所有终端的数十种产品形态
• 日均贡献3.5亿vv
• 占爱奇艺全站流量30%
推荐系统@爱奇艺
• 个性化推荐
• 首页推荐/主题推荐/个性化push
推荐系统@爱奇艺
• 相关推荐
• 联播推荐/相关推荐/协同推荐
推荐系统@爱奇艺
• 2013年7月
• 业界第一个个性化的视频客户端
推荐系统@爱奇艺
推荐系统与大数据 - 计算
Map Reduce
Spark与推荐算法
• 基于内存的数据缓存和计算
• 基于RDD的数据集逻辑结构 • Scala简洁的基于函数式的编程体验
Spark
推荐系统与大数据 - 存储
HDFS
• 分布式文件系统
HBase
• 分布式Key-Value • Schema Free
Hive
私人影院 – 算法
基于Spark的模型训练和计算 • 协同过滤 • ALS • Item neighborhood based • 内容相似度和个性化计算 • 主题、视频聚类 • Learning to Rank • Logistic Regression • RankSVM
实例介绍 – 个性化视频推送
关于社会问 题的伦理电 影
30万 主题
关联规 则
维多利亚时 代的震撼人 心的电影
适合18岁以 上观看的暴 力惊悚电影
尼古拉斯· 凯 关于父亲的 奇主演的动 温暖家庭电 作大片 影
DAG语 法图
私人影院 – 用户
我们了解每一个用户 • • • • • • 口味 观影偏好 性别 年龄 好友关系 观影时间、地点