当前位置:
文档之家› 【资料】阿里巴巴大数据竞赛介绍汇编
【资料】阿里巴巴大数据竞赛介绍汇编
ODPS
ODPS (Open Data Processing Service)阿里云开放数据 处理服务,是阿里巴巴公司借助阿里云提供的大规模分布 式数据处理服务。 ODPS以REST API的形式,支持用户提交类SQL的查询语 言,对海量数据进行处理。
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
实的商业数据;二是缺少具有强大功能的计算平台支持 复杂的数据处理。 • 阿里巴巴集团于2014年正式推出“天池”平台,“天池” 平台基于阿里集团的海量数据离线处理服务ODPS,向 学术界提供科研数据和开放数据处理服务。
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
竞赛机制
阿里巴巴大数据竞赛
March 21,2014
评比机制 准确率与召回率
评比机制
最后我们用F1-Score 来拟合准确率与召回率,并且大赛最终 的比赛成绩排名以F1得分为准。
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
现阶段排名
排行榜
Xiao Liu (VISPER)
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
评比机制 准确率与召回率
评比机制
准确率:
注: N 为参赛队预测的用户数 pBrandsi为对用户i 预测他(她)会购买的品牌列表个数 hitBrandsi对用户i预测的品牌列表与用户i真实购买的品牌交 集的个数
Xiao Liu (VISPER)
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
数据介绍
数据介绍 天猫提供了884位用户对于9531种商品的操作类型,共提供 了182881条记录。
Xiao Liu (VISPER)
t_alibaba_data.csv
阿里巴巴大数据竞赛
March 21,2014
数据介绍
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
531种商品的操作类型,共提供 了182881条记录。
用户对任意商品的行为都会映射为一行数据。其中所有商品ID 都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程 度的数据抽样,且数字ID都做了加密。所有行为的时间都精确 到天级别(隐藏年份)。
Season 1赛季数据 1) 数据说明: 用户4种行为类型(Type)对应代码分别为: 点击:0;购买:1;收藏:2;购物车:3 2) 提交评分方式: 参赛者将预测的用户存入文本文件中,格式如下: user_id \t brand_id , brand_id , brand_id \n 上传的结果文件名字不限(20字以内),文件必须为txt格式。
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
数据介绍
数据介绍 天猫提供了884位用户对于9531种商品的操作类型,共提供 了182881条记录。
用户对任意商品的行为都会映射为一行数据。其中所有商品ID 都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程 度的数据抽样,且数字ID都做了加密。所有行为的时间都精确 到天级别(隐藏年份)。
阿里巴巴大数据竞赛介绍
竞赛机制
阿里巴巴大数据竞赛是阿里巴巴集团主办,在阿里巴巴 大数据科研平台——“天池”上开展的,基于天猫海量 真实用户的访问数据的推荐算法大赛。
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
竞赛机制
天池-大数据研究平台 • “平台、金融、数据” • “数据分享平台” • 针对当前学术界面临的两个问题,一是缺少有价值的真
如图: 将预测结果文件上传至大赛官网结果提交入口即可。(提交结果 入口在参赛者的个人中心)
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
数据介绍
Season 2赛季数据 1) 数据获取方式: 参赛者只能登陆阿里巴巴天池集群获取数据,且数据不能下载 ,所有数据分析,计算,提交评分都将在天池集群上完成。 2) 数据说明: 提供的数据量,涉及千万级天猫用户,万级天猫品牌,时间跨 度4个月的行为记录。
March 21,2014
赛制安排
竞赛机制
赛制安排
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
竞赛机制
奖项设置:
Season 1 不设奖项,但是会从参赛队伍中选择较优者进入Season 2阶 段比赛 Season 2 阶段奖项: 一等奖:1支队伍,奖金贰拾万 二等奖:1支队伍,奖金伍万 三等奖:1支队伍,奖金贰万 (上述奖项以决赛答辩成绩的最终名次决定) 月星星奖:每期月度榜单排名Top10的参赛队成员都将获得搭载云OS的 手机一部(具体手机型号在公布榜单时公布) 优胜奖:决赛全国赛排名Top50的参赛队成员直接进入阿里巴巴校园招 聘绿色通道(即招聘流程省略简历筛选及笔试筛选阶段,直接进入面试阶 段) ,在校期间均有效;并将获得阿里纪念T恤和大赛获奖证书 总决赛Top10的主要参赛队成员可直接入围“阿里星”计划,参赛队的指 导老师(如有)将享受天池数据的最高使用权限1年 Season 3 线上阶段奖项: Season 2 阶段的优胜者,将会受邀访问天猫,在天猫实际开发2014年 双11线上算法,并有机会赢取100万大奖(组委会将在Season 2结束后 公布细则)
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
数据介绍
赛题介绍 本赛题适用于season1 和season 2的比赛,season 3 为线 上赛(season 2 赛后公布题目)。
在天猫,每天都会有数千万的用户通过品牌发现自 己喜欢的商品,品牌是联接消费者与商品最重要的 纽带。 本届赛题的任务就是根据用户4个月在天猫的行为日 志,建立用户的品牌偏好,并预测他们在将来一个 月内对品牌下商品的购买行为。
阿里巴巴大数据竞赛
March 21,2014
此课件下载可自行编辑修改,仅供参考! 感谢您的支持,我们努力做得更好!谢谢