当前位置：文档之家› 大数据技术与应用3 大数据分析的基础方法新版本

大数据技术与应用3 大数据分析的基础方法新版本

ML：构建复杂系统的可能方法/途径
4
什么情况下可以使用机器学习？

机器学习使用场景的核心三要素

存在潜在模式（underlying pattern）

performance measure可以得到提升 ML的必要性 ML的前提
不容易列出规则并编程实现

有历史数据

授人以鱼不如授人以渔！
5
哪一个不能使用机器学习？

增强学习通常用在在线学习方式上在线学习： hypothesis g 通过不断的顺序接收数据来学习
34
主动学习：靠提问来不断学习
批量学习：‘duck
feeding’ 在线学习： ‘passive sequential’ 主动学习： ‘question asking’ (sequentially)
大数据分析的基础方法
10
感知器算法 PLA
Perceptron Learning Algorithm（PLA）借鉴一个案例来分析

该不该发信用卡？年龄性别年收入工作年限当前债务单位类型 23岁男 15万 3年 20万私企
11
解决思路及过程

h 能否简化表示？
12
感知器算法的向量表示

每一个wT 代表了一个 h

wT后文中很多时候直接表示为w
h 能更加容易理解？
13
h 的几何表示

h(x) = sign(w0+w1x1+w2x2)
实数二维平面上的感知器 ( Perceptron) R2
客户属性 x：平面上的点（Rd 上的点）标记y：ο(+1), ×(-1) 假设h：平面上的线（Rd 上的超平面） +1 在线的一侧，-1在线的另一侧不同的线以不同的方式区分客户

三者都比较重要、常用；
具体特征的问题最简单
42
学习的不同分类小结

根据输出空间的不同进行分类

二分类，多分类，… 有监督，无监督，半监督，… 批量学习，在线学习，… 具体特征，原始特征，抽象特征，…
根据输入数据的标记不同分类

根据学习的过程分类

根据X的输入空间不同分类

43
谢谢
2016/9/26 45
26
输入数据有标签：有监督的学习 Supervised

数据集上每一个Xn都有对应的label（分类结果） Yn
有监督的多分类问题
27
输入数据无标签：无监督的学习 Unsupervised

聚类更多聚类问题

从文章中抽取主题从客户的profile文件为客户分群组
聚类是一个很用价值的问题

感知器线性二维分类器（linear (binary) classifier）
14
从H 中选择g

目标：g ≈ f ( f未知 ) 方法：在D上，如果：g ≈ f ，那么可否认为： g(xn) = f (xn) = yn 难点：

H中的h是无限多的
思路：从某个g0开始，如果有错误发生，那么就根据D来“更正” 错误
ML
技能（Skill）

什么是技能？

使performance measure得到提升，如预测得更准确
数据（data）
ML
性能提升、改善（improved performance）
3
为什么要使用机器学习？

给出机器可理解的机器的定义、规则，并且编程实现是几乎不可能的事情但3岁小孩可以轻易识别出树我们希望：基于ML的系统可以同样较为轻易的做同样的事情

预测初生婴儿下一次啼哭的时刻是否是偶数分钟？给定一个几何图形，是否包含圆形？是否向一个特定的用户发放信用卡？猜测下一个十年之内地球是否会被核武器所毁灭？
6
一些基本的数学符号
以普通用户申请信用卡为例
f 产生的 {( Xn ,Yn)}
ML
g
7
机器学习的数学过程

数学上描述的机器学习的基本过程
大数据技术与应用
概
要
机器学习的基础感知器算法机器学习的分类
大数据分析的基础方法
2
什么是学习？

学习：通过观察世界，从而累积经验，进而获得技能
观察（observations）
学习
技能（Skill）

机器学习：通过观察世界（分析计算数据），从而累积经验，进而获得技能
数据（data）
30
根据输入数据的标记不同分类
Supervised有监督学习：所有的数据都有yn unsupervised无监督学习：没有yn semi-supervised半监督学习：部分数据有yn Reinforcement增强学习：隐性的yn …
and more!
最重要、最常用：
有监督学习
8
一个练习 [ X, Y , H, D]

S1 = [0, 100] S2 = 所有的(userid, songid)对 S3 = 所有可能“用户因子”和“歌曲因子”的各种可能的乘积组合 S4 = 1,000,000个 ((userid, songid), rating)对
1) 2) 3) 4)
S1 = X; S2 = Y; S3 = H; S4 = D S1 = Y; S2 = X; S3 = H; S4 = D S1 = D; S2 = H; S3 = Y; S4 = X S1 = X; S2 = D; S3 = Y; S4 = H
9
概
要
机器学习的基础感知器算法机器学习的分类

查询特定的xn对应的 yn 是什么？
主动学习： hypothesis g 通过不断的问问题得到提升，需要少量的yn
35
根据学习的过程分类
批量学习：已知所有数据在线学习：顺序的已知数据（被动方式）主动学习：有挑选的少量数据 …and more!

最重要、最常用：
批量学习
36
信用卡发放问题
X

对于任意 (xn(t) , yn(t)) ，更新之后 wf wt↑
wf wt+1 = wf ( wt + yn(t)xn(t) ) ≥ wf wt + min ym wf xm > wf wt + 0 两个向量内积越大，二者就越靠近!
20
Pocket算法—贪心PLA

初始化一组ws

随意设置一组w0，（此处全0）

找到一个wt，称为(xn(t) , yn(t)) sign( wtxn(t) ) ≠ yn(t) 尝试以如下方式更正错误 wt+1 ← wt + yn(t)xn(t) 如果wt+1比ws犯的错误更少，则使用wt+1代替ws 直到足够多次的循环，将最终的w (称为wPocket) 返回，称其为g

25
根据输出空间的不同进行分类
二分类多分类回归 Structured Learning（不是重点）

a fancy but complicated learning problem 如：识别句子的语法结构，蛋白质的结构等等

…and more! 最重要、最常用算法工具：
二分类和回归

批量学习：一个非常普遍的学习方式
33
在线学习

批量学习中

从已有的邮件对(email, spam)中学习，预测一个确定的g 观测一个新到达邮件 xt 预测此邮件是否属于垃圾邮件 gt (xt ) 接收到用户的反馈结果yt ，根据(xt , yt )更新gt

在线垃圾邮件过滤器，顺序做如下事情：
无监督的多分类也叫聚类
28
部分输入数据有标签：半监督学习 Semi-supervised
有监督
半监督
无监督
Facebook：标记部分人脸，进行人脸识别药品研发：有部分药品有效果记录，预测其他药品的治疗病症 semi-supervised ：标注全部数据成本太高！
29
增强学习

一种非常自然的学习方式

23
多分类
对硬币进行分类(一角, 五角, 一元)（重量、大小） Y={一角, 五角, 一元} 或者{1,2,3,…,K} 二分类是 K = 2的特殊情况更多的多分类

0—9的数字识别水果图片识别邮件：垃圾，重要，社交，促销，通知，…
24
回归： Regression

年龄性别年收入工作年限当前债务单位类型

23岁男 15万 3年 20万私企
37
更多的具体特征
（size, mass）硬币识别（客户信息）信用卡发放（患者信息）癌症诊断通常包含人类的智慧
特征工程
基于具体特征的机器学习： ML中较为‘easy’
38
原始特征：数字识别

数字识别问题：特征 => 数字的含义典型的有监督多分类问题
31
Batch Learning 批量学习

硬币识别

批量的有监督多分类（batch supervised multiclass classification）

从全部的已知数据中学习
32
更多的批量学习方法
批量(email, spam) => 垃圾邮件过滤器批量(patient, cancer) => 癌症分类器批量(patient data) => 病人分类

e商务文档

大数据技术与应用3 大数据分析的基础方法新版本

相关文档推荐：

e商务文档

大数据技术与应用3 大数据分析的基础方法 新版本

相关文档推荐：

大数据技术与应用3 大数据分析的基础方法新版本