当前位置:文档之家› 大数据技术与应用3 大数据分析的基础方法 新版本

大数据技术与应用3 大数据分析的基础方法 新版本


ML:构建复杂系统的可能方法/途径
4
什么情况下可以使用机器学习?

机器学习使用场景的核心三要素

存在潜在模式(underlying pattern)

performance measure可以得到提升 ML的必要性 ML的前提
不容易列出规则并编程实现

有历史数据

授人以鱼不如授人以渔!
5
哪一个不能使用机器学习?

增强学习通常用在在线学习方式上 在线学习: hypothesis g 通过不断的顺 序接收数据来学习
34
主动学习:靠提问来不断学习
批量学习:‘duck
feeding’ 在线学习: ‘passive sequential’ 主动学习: ‘question asking’ (sequentially)
大数据分析的基础方法
10
感知器算法 PLA
Perceptron Learning Algorithm(PLA) 借鉴一个案例来分析


该不该发信用卡? 年龄 性别 年收入 工作年限 当前债务 单位类型 23岁 男 15万 3年 20万 私企
11
解决思路及过程

h 能否简化表示?
12
感知器算法的向量表示

每一个wT 代表了一个 h

wT后文中很多时候直接表示为w
h 能更加容易理解?
13
h 的几何表示

h(x) = sign(w0+w1x1+w2x2)
实数二维平面上的感知器 ( Perceptron) R2
客户属性 x:平面上的点(Rd 上的点) 标记y:ο(+1), ×(-1) 假设h:平面上的线(Rd 上的超平面) +1 在线的一侧,-1在线的另一侧 不同的线以不同的方式区分客户

三者都比较重要、常用;
具体特征的问题最简单
42
学习的不同分类小结

根据输出空间的不同进行分类

二分类,多分类,… 有监督,无监督,半监督,… 批量学习,在线学习,… 具体特征,原始特征,抽象特征,…
根据输入数据的标记不同分类

根据学习的过程分类

根据X的输入空间不同分类

43
谢谢
2016/9/26 45
26
输入数据有标签:有监督的学习 Supervised

数据集上每一个Xn都有对应的label(分类结果) Yn
有监督的多分类问题
27
输入数据无标签:无监督的学习 Unsupervised

聚类 更多聚类问题

从文章中抽取主题 从客户的profile文件为客户分群组
聚类是一个很用价值的问题

感知器 线性二维分类器(linear (binary) classifier)
14
从H 中选择g

目标:g ≈ f ( f未知 ) 方法:在D上,如果:g ≈ f ,那 么可否认为: g(xn) = f (xn) = yn 难点:


H中的h是无限多的
思路:从某个g0开始,如果有错 误发生,那么就根据D来“更正” 错误
ML
技能(Skill)

什么是技能?

使performance measure得到提升,如预测得更准确
数据(data)
ML
性能提升、改善 (improved performance)
3
为什么要使用机器学习?


给出机器可理解的机器的定 义、规则,并且编程实现是 几乎不可能的事情 但3岁小孩可以轻易识别出 树 我们希望:基于ML的系统 可以同样较为轻易的做同样 的事情

预测初生婴儿下一次啼哭的时刻是否是偶数分钟? 给定一个几何图形,是否包含圆形? 是否向一个特定的用户发放信用卡? 猜测下一个十年之内地球是否会被核武器所毁灭?
6
一些基本的数学符号
以普通用户申请信 用卡为例
f 产生的 {( Xn ,Yn)}
ML
g
7
机器学习的数学过程

数学上描述的机器学习的基本过程
大数据技术与应用


机器学习的基础 感知器算法 机器学习的分类
大数据分析的基础方法
2
什么是学习?

学习:通过观察世界,从而累积经验,进而获得技能
观察(observations)
学习
技能(Skill)

机器学习:通过观察世界(分析计算数据),从而累 积经验,进而获得技能
数据(data)
30
根据输入数据的标记不同分类
Supervised有监督学习:所有的数据都有yn unsupervised无监督学习:没有yn semi-supervised半监督学习:部分数据有yn Reinforcement增强学习:隐性的yn …
and more!
最重要、最常用:
有监督学习
8
一个练习 [ X, Y , H, D]

S1 = [0, 100] S2 = 所有的(userid, songid)对 S3 = 所有可能“用户因子”和“歌曲因子”的各种可 能的乘积组合 S4 = 1,000,000个 ((userid, songid), rating)对
1) 2) 3) 4)
S1 = X; S2 = Y; S3 = H; S4 = D S1 = Y; S2 = X; S3 = H; S4 = D S1 = D; S2 = H; S3 = Y; S4 = X S1 = X; S2 = D; S3 = Y; S4 = H
9


机器学习的基础 感知器算法 机器学习的分类

查询特定的xn对应的 yn 是什么?
主动学习: hypothesis g 通过不断的问问题 得到提升,需要少量的yn
35
根据学习的过程分类
批量学习: 已知所有数据 在线学习:顺序的已知数据(被动方式) 主动学习:有挑选的少量数据 …and more!

最重要、最常用:
批量学习
36
信用卡发放问题
X

对于任意 (xn(t) , yn(t)) ,更新之后 wf wt↑
wf wt+1 = wf ( wt + yn(t)xn(t) ) ≥ wf wt + min ym wf xm > wf wt + 0 两个向量内积越大,二者就越靠近!
20
Pocket算法—贪心PLA

初始化一组ws

随意设置一组w0,(此处全0)

找到一个wt,称为(xn(t) , yn(t)) sign( wtxn(t) ) ≠ yn(t) 尝试以如下方式更正错误 wt+1 ← wt + yn(t)xn(t) 如果wt+1比ws犯的错误更少,则使 用wt+1代替ws 直到足够多次的循环,将最终的w (称为wPocket) 返回,称其为g

25
根据输出空间的不同进行分类
二分类 多分类 回归 Structured Learning(不是重点)


a fancy but complicated learning problem 如:识别句子的语法结构,蛋白质的结构等等

…and more! 最重要、最常用算法工具:
二分类和回归

批量学习:一个非常普遍的学习方式
33
在线学习

批量学习中

从已有的邮件对(email, spam)中学习,预测一个确定 的g 观测一个新到达邮件 xt 预测此邮件是否属于垃圾邮件 gt (xt ) 接收到用户的反馈结果yt ,根据(xt , yt )更新gt

在线垃圾邮件过滤器,顺序做如下事情:
无监督的多分类也叫聚类
28
部分输入数据有标签:半监督学习 Semi-supervised
有监督
半监督
无监督
Facebook:标记部分人脸,进行人脸识别 药品研发:有部分药品有效果记录,预测其 他药品的治疗病症 semi-supervised :标注全部数据成本太高!
29
增强学习

一种非常自然的学习方式

23
多分类
对硬币进行分类(一角, 五角, 一元)(重量、大小) Y={一角, 五角, 一元} 或者{1,2,3,…,K} 二分类是 K = 2的特殊情况 更多的多分类


0—9的数字识别 水果图片识别 邮件:垃圾,重要,社交,促销,通知,…
24
回归: Regression

年龄 性别 年收入 工作年限 当前债务 单位类型

23岁 男 15万 3年 20万 私企
37
更多的具体特征
(size, mass)硬币识别 (客户信息)信用卡发放 (患者信息)癌症诊断 通常包含人类的智慧
特征工程
基于具体特征的机器学习: ML中较为‘easy’
38
原始特征:数字识别

数字识别问题:特征 => 数字的含义 典型的有监督多分类问题
31
Batch Learning 批量学习

硬币识别

批量的有监督多分类(batch supervised multiclass classification)

从全部的已知数据中学习
32
更多的批量学习方法
批量(email, spam) => 垃圾邮件过滤器 批量(patient, cancer) => 癌症分类器 批量(patient data) => 病人分类
相关主题