当前位置：文档之家› 机器学习概要介绍

机器学习概要介绍

17/47
Outline
一、机器学习基础二、朴素贝叶斯分类及应用三、机器学习与自然语言处理
18/47
分类
• 最常见的机器学习任务 • 定义：给定一个对象X，将其划分到预定义好的某一个类别yi中
– 输入X – 输出Y （取值于有限集{y1,y2,…yn}）
• 应用:
– 人群，新闻分类，Query分类，商品分类，网页分类，垃圾邮件过滤
– – – – – 人机对弈天气预测图象处理语音识别自然语言处理
12/47
监督VS非监督
• 监督学习
– 给定数据(X1,Y1), (X2,Y2), … ,(Xn,Yn) – 对新的Xi，预测其Yi – 分类，回归
• 非监督学习
– 给定数据X1, X2, … ,Xn – f(Xi), f(Xi, Xj) – 概率估计，降维，聚类
19/47
不同类型的分类
• 类别数量
– 二值分类
• Y的取值只有两种，如：email是否垃圾邮件
– 多值分类
• Y的取值大于两个，如：网页分类{政治，经济，体育，…}
• 类别关系
– 水平分类Βιβλιοθήκη • 类别之间无包含关系手机
– 层级分类
• 类别形成等级体系
安卓系统
智能手机
普通手机
Windows
…
20/47
• 验证集Validation data set
15/47
效果评测
• 更好的效果？
– 更多数据
• 1，2，？ – 3 or 4 or …?
– 更好的模型
• 泛化能力
16/47
小结
• • • • • • 什么是机器学习机器学习的执行框架学习过程的阶段监督学习与非监督学习批量与在线学习效果评测
机器学习入门
蒋龙 2012年6月17日
Outline
一、机器学习基础二、朴素贝叶斯分类及应用三、机器学习与自然语言处理
2/48
什么是机器学习
• 计算机自动从数据中发现规律，并应用于解决新问题
– 给定数据(X1,Y1), (X2,Y2), … ,(Xn,Yn)，机器自动学习 X和Y之间的关系，从而对新的Xi，能够预测Yi
– 概率模型 – 基于贝叶斯原理
P( yi | X ) P( X | yi ) P( yi ) P( X ) P( yi ) P( x j | yi )
j
P( X )
• • • •
P(X)：待分类对象自身的概率，可忽略 P(yi)：每个类别的先验概率，如P(军事) P(X|yi)：每个类别产生该对象的概率 P(xi|yi)：每个类别产生该特征的概率，如P(苹果|科技)
规则
测试数据邮件Xi
预测
预测结果 Yi：垃圾or正常 5/47
机器学习执行框架
训练过程 (X1,Y1) (X2,Y2) … (Xn,Yn) 训练数据
学习
应用过程模型
Xi
测试数据
预测
预测结果
Yi
6/47
智商测试
• 1, 8, 27, 64, ？
– 125
– f(n) = n^3 1, 3, 6, 10, ？ 15
26/47
模型训练/参数估计
• 策略：最大似然估计（maximum likelihood estimation, MLE） P( y ) Count( yi ) i Count( yk ) – P(Yi)
k
• Count(yi): 类别为yi的对象在训练数据中出现的次数
– 例如：
• 总共训练数据1000篇，其中军事类300篇，科技类 240篇，生活类140篇,…. • P(军事)=0.3，p(科技)=0.24，p(生活)=0.14,…
– 模型训练：确定模型参数
• 调整参数的值以满足策略 • 需要优化算法
f (n) a1nk a2nk 1 ... ak n b
• K=2,a1 = 1/2, a2=1/2, a3,..,ak,b=0 • => f(n) = (n^2+n)/2
9/47
机器学习三要素
• 模型表示
– 问题的影响因素(特征)有哪些？它们之间的关系如何？
• K=3, a1 = 1, a2, …, ak, b=0
– f(n) = (n^2+n)/2
• K=2,a1 = 1/2, a2=1/2, a3,..,ak, b=0
参数估计
8/47
发现规律的过程
• 假设选择
– 确定策略(目标)：准确解释已知数据
• f(1) = 1，f(2) = 3，f(3) = 6，f(4) = 10
28/47
模型示例
P( X | yi ) P( yi ) P( yi | X ) P( X ) P( yi ) P( x j | yi )
j
P( X )
• P(yi)
– P(军事)=0.3，p(科技)=0.24，p(生活)=0.14,…
• P(xi|yi)
– – – – P(谷歌|军事)=0.05, p(投资|军事)=0.03, p(上涨|军事)=0.12… P(谷歌|科技)=0.15, p(投资|科技)=0.10, p(上涨|科技)=0.04… P(谷歌|生活)=0.08, p(投资|生活)=0.13, p(上涨|生活)=0.18… ….
22/47
基于机器学习的分类
• 确定模型（线性假设）
• 训练数据
p(Yi | X ) wij xij
j
– (谷歌推出新措施打击Google+垃圾信息, 科技) – (安信地板否认为万科提供E0级产品, 房产) – (欧洲央行超预期“撒钱” 释放流动…, 财经)
• 机器学习策略
– 调整每个词对每个类别的预测能力(wij)，尽可能对训练数据正确分类
38/47
回归模型
• 理论内容
– 回归问题概述（特点，评测） – 线性回归 – 逻辑回归
• 应用：
– 广告点击率预估应用（逻辑回归）
3947
搜索广告CTR预估
• 模型 P(Y 1 | X , Q)
1 1 e
( 0
i xi )
36/47
机器学习与自然语言处理
分类
回归
图模型
聚类
排序
37/47
分类算法及应用
• 理论内容
– 分类问题概述（特点，实例，评测） – 朴素贝叶斯分类 – 最大熵分类 – SVM分类 – 特征选择
• 应用：
– 文本分类应用（新闻分类/Query分类）, 分别用朴素贝叶斯方法，最大熵和SVM方法完成
• 评价函数
– 什么样的模型是好的模型
• 参数优化
– 如何高效的找到最优参数
10/47
为什么需要机器学习
• 又一道智商测试： • 6, 34, 102, 228, ?
f(n)=3*n^3+2*n^2+n
11/47
为什么需要机器学习
• 计算能力
– 大数据，快速
• 信息交换能力强 • 不受情绪影响 • 应用
23/47
分类任务解决流程
• • • • • • • • 新闻分类特征表示：X={昨日,是,国内,投资,市场…} 特征选择：X={国内,投资,市场…} 模型选择：朴素贝叶斯分类器训练数据准备：(X,Y)1,(X,Y)2,(X,Y)3,… 模型训练：learn.exe trainingDataFile model 预测(分类)：classify.exe model newDataFile 评测：Accuracy: 90%
24/47
分类技术
• 概率分类器 – NB, ME – 计算待分类对象属于每个类别的概率，选择概率最大的类别作为最终输出
• 空间分割 – Perceptron, SVM • 其他 – KNN
+
2
+ #
#
#
*
# * + *
4
+
+
+ +
1
#
3
* *
*
*
* 25/47
朴素贝叶斯分类
• 朴素贝叶斯(Naï ve Beyes, NB)分类器
– 给定一个广告和一个特定的Query，预测该广告被点击的可能性
• 特征，即Xi
– 广告质量 – 广告创意与用户query的相关性 – 价格，成交量，…
41/47
图模型及应用
• 理论内容
– 马尔科夫模型 – 语言模型 – 隐马尔科夫模型
33/47
朴素贝叶斯分类特点
• 优点
– 简单有效 – 结果是概率，对二值和多值同样适用
• 缺点
– 独立性假设有时不合理
34/47
小结
• 什么是分类？类型有哪些？ • 机器学习处理分类问题的步骤 • 朴素贝叶斯分类
– 模型表示，评价函数，参数估计方法
• 分类问题评测
35/47
Outline
一、机器学习基础二、朴素贝叶斯分类及应用三、机器学习与自然语言处理
• 1, 3, 6, 10, ？
1, 8, 27, 64, ? – 15 – f(n)=f(n-1)+n – f(n) = (n^2+n)/2 125
7/47
发现规律的过程
• 假设构造
–
模型(族)
f (n) a1nk a2nk 1 ... ak n b
参数
– f(n) = n^3
27/47
模型训练/参数估计
• 最大似然估计（maximum likelihood estimation, MLE）

e商务文档

机器学习概要介绍

相关文档推荐：