当前位置:文档之家› 机器学习概要介绍

机器学习概要介绍


17/47
Outline
一、机器学习基础 二、朴素贝叶斯分类及应用 三、机器学习与自然语言处理
18/47
分类
• 最常见的机器学习任务 • 定义:给定一个对象X,将其划分到预定义 好的某一个类别yi中
– 输入X – 输出Y (取值于有限集{y1,y2,…yn})
• 应用:
– 人群,新闻分类,Query分类,商品分类,网页 分类,垃圾邮件过滤
– – – – – 人机对弈 天气预测 图象处理 语音识别 自然语言处理
12/47
监督VS非监督
• 监督学习
– 给定数据(X1,Y1), (X2,Y2), … ,(Xn,Yn) – 对新的Xi,预测其Yi – 分类,回归
• 非监督学习
– 给定数据X1, X2, … ,Xn – f(Xi), f(Xi, Xj) – 概率估计,降维,聚类
19/47
不同类型的分类
• 类别数量
– 二值分类
• Y的取值只有两种,如:email是否垃圾邮件
– 多值分类
• Y的取值大于两个,如:网页分类{政治,经济,体育,…}
• 类别关系
– 水平分类Βιβλιοθήκη • 类别之间无包含关系手机
– 层级分类
• 类别形成等级体系
安卓系统
智能手机
普通手机
Windows

20/47
• 验证集Validation data set
15/47
效果评测
• 更好的效果?
– 更多数据
• 1,2,? – 3 or 4 or …?
– 更好的模型
• 泛化能力
16/47
小结
• • • • • • 什么是机器学习 机器学习的执行框架 学习过程的阶段 监督学习与非监督学习 批量与在线学习 效果评测
机器学习入门
蒋龙 2012年6月17日
Outline
一、机器学习基础 二、朴素贝叶斯分类及应用 三、机器学习与自然语言处理
2/48
什么是机器学习
• 计算机自动从数据中发现规律,并应用于 解决新问题
– 给定数据(X1,Y1), (X2,Y2), … ,(Xn,Yn),机器自动学习 X和Y之间的关系,从而对新的Xi,能够预测Yi
– 概率模型 – 基于贝叶斯原理
P( yi | X ) P( X | yi ) P( yi ) P( X ) P( yi ) P( x j | yi )
j
P( X )
• • • •
P(X):待分类对象自身的概率,可忽略 P(yi):每个类别的先验概率,如P(军事) P(X|yi):每个类别产生该对象的概率 P(xi|yi):每个类别产生该特征的概率,如P(苹果|科 技)
规则
测试数 据 邮件Xi
预测
预测结果 Yi:垃圾or正常 5/47
机器学习执行框架
训练过程 (X1,Y1) (X2,Y2) … (Xn,Yn) 训练数 据
学习
应用过程 模型
Xi
测试数 据
预测
预测结果
Yi
6/47
智商测试
• 1, 8, 27, 64, ?
– 125
– f(n) = n^3 1, 3, 6, 10, ? 15
26/47
模型训练/参数估计
• 策略:最大似然估计(maximum likelihood estimation, MLE) P( y ) Count( yi ) i Count( yk ) – P(Yi)
k
• Count(yi): 类别为yi的对象在训练数据中出现的次数
– 例如:
• 总共训练数据1000篇,其中军事类300篇,科技类 240篇,生活类140篇,…. • P(军事)=0.3,p(科技)=0.24,p(生活)=0.14,…
– 模型训练:确定模型参数
• 调整参数的值以满足策略 • 需要优化算法
f (n) a1nk a2nk 1 ... ak n b
• K=2,a1 = 1/2, a2=1/2, a3,..,ak,b=0 • => f(n) = (n^2+n)/2
9/47
机器学习三要素
• 模型表示
– 问题的影响因素(特征)有哪些?它们之间的关 系如何?
• K=3, a1 = 1, a2, …, ak, b=0
– f(n) = (n^2+n)/2
• K=2,a1 = 1/2, a2=1/2, a3,..,ak, b=0
参数 估计
8/47
发现规律的过程
• 假设选择
– 确定策略(目标):准确解释已知数据
• f(1) = 1,f(2) = 3,f(3) = 6,f(4) = 10
28/47
模型示例
P( X | yi ) P( yi ) P( yi | X ) P( X ) P( yi ) P( x j | yi )
j
P( X )
• P(yi)
– P(军事)=0.3,p(科技)=0.24,p(生活)=0.14,…
• P(xi|yi)
– – – – P(谷歌|军事)=0.05, p(投资|军事)=0.03, p(上涨|军事)=0.12… P(谷歌|科技)=0.15, p(投资|科技)=0.10, p(上涨|科技)=0.04… P(谷歌|生活)=0.08, p(投资|生活)=0.13, p(上涨|生活)=0.18… ….
22/47
基于机器学习的分类
• 确定模型(线性假设)
• 训练数据
p(Yi | X ) wij xij
j
– (谷歌推出新措施打击Google+垃圾信息, 科技) – (安信地板否认为万科提供E0级产品, 房产) – (欧洲央行超预期“撒钱” 释放流动…, 财经)
• 机器学习策略
– 调整每个词对每个类别的预测能力(wij),尽可 能对训练数据正确分类
38/47
回归模型
• 理论内容
– 回归问题概述(特点,评测) – 线性回归 – 逻辑回归
• 应用:
– 广告点击率预估应用(逻辑回归)
3947
搜索广告CTR预估
• 模型 P(Y 1 | X , Q)
1 1 e
( 0
i xi )
36/47
机器学习与自然语言处理
分类
回归
图模型
聚类
排序
37/47
分类算法及应用
• 理论内容
– 分类问题概述(特点,实例,评测) – 朴素贝叶斯分类 – 最大熵分类 – SVM分类 – 特征选择
• 应用:
– 文本分类应用(新闻分类/Query分类), 分别 用朴素贝叶斯方法,最大熵和SVM方法完成
• 评价函数
– 什么样的模型是好的模型
• 参数优化
– 如何高效的找到最优参数
10/47
为什么需要机器学习
• 又一道智商测试: • 6, 34, 102, 228, ?
f(n)=3*n^3+2*n^2+n
11/47
为什么需要机器学习
• 计算能力
– 大数据,快速
• 信息交换能力强 • 不受情绪影响 • 应用
23/47
分类任务解决流程
• • • • • • • • 新闻分类 特征表示:X={昨日,是,国内,投资,市场…} 特征选择:X={国内,投资,市场…} 模型选择:朴素贝叶斯分类器 训练数据准备:(X,Y)1,(X,Y)2,(X,Y)3,… 模型训练:learn.exe trainingDataFile model 预测(分类):classify.exe model newDataFile 评测:Accuracy: 90%
24/47
分类技术
• 概率分类器 – NB, ME – 计算待分类对象属于每个类别的概率,选择 概率最大的类别作为最终输出
• 空间分割 – Perceptron, SVM • 其他 – KNN
+
2
+ #
#
#
*
# * + *
4
+
+
+ +
1
#
3
* *
*
*
* 25/47
朴素贝叶斯分类
• 朴素贝叶斯(Naï ve Beyes, NB)分类器
– 给定一个广告和一个特定的Query,预测该广告 被点击的可能性
• 特征,即Xi
– 广告质量 – 广告创意与用户query的相关性 – 价格,成交量,…
41/47
图模型及应用
• 理论内容
– 马尔科夫模型 – 语言模型 – 隐马尔科夫模型
33/47
朴素贝叶斯分类特点
• 优点
– 简单有效 – 结果是概率,对二值和多值同样适用
• 缺点
– 独立性假设有时不合理
34/47
小结
• 什么是分类?类型有哪些? • 机器学习处理分类问题的步骤 • 朴素贝叶斯分类
– 模型表示,评价函数,参数估计方法
• 分类问题评测
35/47
Outline
一、机器学习基础 二、朴素贝叶斯分类及应用 三、机器学习与自然语言处理
• 1, 3, 6, 10, ?
1, 8, 27, 64, ? – 15 – f(n)=f(n-1)+n – f(n) = (n^2+n)/2 125
7/47
发现规律的过程
• 假设构造

模型(族)
f (n) a1nk a2nk 1 ... ak n b
参数
– f(n) = n^3
27/47
模型训练/参数估计
• 最大似然估计(maximum likelihood estimation, MLE)
相关主题