当前位置:
文档之家› 大数据技术与应用3 大数据分析的基础方法 新版本
大数据技术与应用3 大数据分析的基础方法 新版本
ML:构建复杂系统的可能方法/途径
4
什么情况下可以使用机器学习?
机器学习使用场景的核心三要素
存在潜在模式(underlying pattern)
performance measure可以得到提升 ML的必要性 ML的前提
不容易列出规则并编程实现
有历史数据
授人以鱼不如授人以渔!
5
哪一个不能使用机器学习?
增强学习通常用在在线学习方式上 在线学习: hypothesis g 通过不断的顺 序接收数据来学习
34
主动学习:靠提问来不断学习
批量学习:‘duck
feeding’ 在线学习: ‘passive sequential’ 主动学习: ‘question asking’ (sequentially)
大数据分析的基础方法
10
感知器算法 PLA
Perceptron Learning Algorithm(PLA) 借鉴一个案例来分析
该不该发信用卡? 年龄 性别 年收入 工作年限 当前债务 单位类型 23岁 男 15万 3年 20万 私企
11
解决思路及过程
h 能否简化表示?
12
感知器算法的向量表示
每一个wT 代表了一个 h
wT后文中很多时候直接表示为w
h 能更加容易理解?
13
h 的几何表示
h(x) = sign(w0+w1x1+w2x2)
实数二维平面上的感知器 ( Perceptron) R2
客户属性 x:平面上的点(Rd 上的点) 标记y:ο(+1), ×(-1) 假设h:平面上的线(Rd 上的超平面) +1 在线的一侧,-1在线的另一侧 不同的线以不同的方式区分客户
三者都比较重要、常用;
具体特征的问题最简单
42
学习的不同分类小结
根据输出空间的不同进行分类
二分类,多分类,… 有监督,无监督,半监督,… 批量学习,在线学习,… 具体特征,原始特征,抽象特征,…
根据输入数据的标记不同分类
根据学习的过程分类
根据X的输入空间不同分类
43
谢谢
2016/9/26 45
26
输入数据有标签:有监督的学习 Supervised
数据集上每一个Xn都有对应的label(分类结果) Yn
有监督的多分类问题
27
输入数据无标签:无监督的学习 Unsupervised
聚类 更多聚类问题
从文章中抽取主题 从客户的profile文件为客户分群组
聚类是一个很用价值的问题
感知器 线性二维分类器(linear (binary) classifier)
14
从H 中选择g
目标:g ≈ f ( f未知 ) 方法:在D上,如果:g ≈ f ,那 么可否认为: g(xn) = f (xn) = yn 难点:
H中的h是无限多的
思路:从某个g0开始,如果有错 误发生,那么就根据D来“更正” 错误
ML
技能(Skill)
什么是技能?
使performance measure得到提升,如预测得更准确
数据(data)
ML
性能提升、改善 (improved performance)
3
为什么要使用机器学习?
给出机器可理解的机器的定 义、规则,并且编程实现是 几乎不可能的事情 但3岁小孩可以轻易识别出 树 我们希望:基于ML的系统 可以同样较为轻易的做同样 的事情
预测初生婴儿下一次啼哭的时刻是否是偶数分钟? 给定一个几何图形,是否包含圆形? 是否向一个特定的用户发放信用卡? 猜测下一个十年之内地球是否会被核武器所毁灭?
6
一些基本的数学符号
以普通用户申请信 用卡为例
f 产生的 {( Xn ,Yn)}
ML
g
7
机器学习的数学过程
数学上描述的机器学习的基本过程
大数据技术与应用
概
要
机器学习的基础 感知器算法 机器学习的分类
大数据分析的基础方法
2
什么是学习?
学习:通过观察世界,从而累积经验,进而获得技能
观察(observations)
学习
技能(Skill)
机器学习:通过观察世界(分析计算数据),从而累 积经验,进而获得技能
数据(data)
30
根据输入数据的标记不同分类
Supervised有监督学习:所有的数据都有yn unsupervised无监督学习:没有yn semi-supervised半监督学习:部分数据有yn Reinforcement增强学习:隐性的yn …
and more!
最重要、最常用:
有监督学习
8
一个练习 [ X, Y , H, D]
S1 = [0, 100] S2 = 所有的(userid, songid)对 S3 = 所有可能“用户因子”和“歌曲因子”的各种可 能的乘积组合 S4 = 1,000,000个 ((userid, songid), rating)对
1) 2) 3) 4)
S1 = X; S2 = Y; S3 = H; S4 = D S1 = Y; S2 = X; S3 = H; S4 = D S1 = D; S2 = H; S3 = Y; S4 = X S1 = X; S2 = D; S3 = Y; S4 = H
9
概
要
机器学习的基础 感知器算法 机器学习的分类
查询特定的xn对应的 yn 是什么?
主动学习: hypothesis g 通过不断的问问题 得到提升,需要少量的yn
35
根据学习的过程分类
批量学习: 已知所有数据 在线学习:顺序的已知数据(被动方式) 主动学习:有挑选的少量数据 …and more!
最重要、最常用:
批量学习
36
信用卡发放问题
X
对于任意 (xn(t) , yn(t)) ,更新之后 wf wt↑
wf wt+1 = wf ( wt + yn(t)xn(t) ) ≥ wf wt + min ym wf xm > wf wt + 0 两个向量内积越大,二者就越靠近!
20
Pocket算法—贪心PLA
初始化一组ws
随意设置一组w0,(此处全0)
找到一个wt,称为(xn(t) , yn(t)) sign( wtxn(t) ) ≠ yn(t) 尝试以如下方式更正错误 wt+1 ← wt + yn(t)xn(t) 如果wt+1比ws犯的错误更少,则使 用wt+1代替ws 直到足够多次的循环,将最终的w (称为wPocket) 返回,称其为g
25
根据输出空间的不同进行分类
二分类 多分类 回归 Structured Learning(不是重点)
a fancy but complicated learning problem 如:识别句子的语法结构,蛋白质的结构等等
…and more! 最重要、最常用算法工具:
二分类和回归
批量学习:一个非常普遍的学习方式
33
在线学习
批量学习中
从已有的邮件对(email, spam)中学习,预测一个确定 的g 观测一个新到达邮件 xt 预测此邮件是否属于垃圾邮件 gt (xt ) 接收到用户的反馈结果yt ,根据(xt , yt )更新gt
在线垃圾邮件过滤器,顺序做如下事情:
无监督的多分类也叫聚类
28
部分输入数据有标签:半监督学习 Semi-supervised
有监督
半监督
无监督
Facebook:标记部分人脸,进行人脸识别 药品研发:有部分药品有效果记录,预测其 他药品的治疗病症 semi-supervised :标注全部数据成本太高!
29
增强学习
一种非常自然的学习方式
23
多分类
对硬币进行分类(一角, 五角, 一元)(重量、大小) Y={一角, 五角, 一元} 或者{1,2,3,…,K} 二分类是 K = 2的特殊情况 更多的多分类
0—9的数字识别 水果图片识别 邮件:垃圾,重要,社交,促销,通知,…
24
回归: Regression
年龄 性别 年收入 工作年限 当前债务 单位类型
23岁 男 15万 3年 20万 私企
37
更多的具体特征
(size, mass)硬币识别 (客户信息)信用卡发放 (患者信息)癌症诊断 通常包含人类的智慧
特征工程
基于具体特征的机器学习: ML中较为‘easy’
38
原始特征:数字识别
数字识别问题:特征 => 数字的含义 典型的有监督多分类问题
31
Batch Learning 批量学习
硬币识别
批量的有监督多分类(batch supervised multiclass classification)
从全部的已知数据中学习
32
更多的批量学习方法
批量(email, spam) => 垃圾邮件过滤器 批量(patient, cancer) => 癌症分类器 批量(patient data) => 病人分类