数据挖掘与应用(七1)答案
19
(三) k近邻法
选择k值: 根据修正数据集评估不同k值对应的模型的性能,选择最优 的k值。 因为k近邻法的模型由训练数据集中的所有观测给出,所以 它也被称为基于记忆的推理(Memory-Based Reasoning)或基于 实例的学习(Instance-Based Learning )。
20
k近邻法示例
下表列出了不同k值对应的模型对训练数据集和修正数据 集的均方根误差。要使修正数据集的均方根误差最小,应该 选择k=2。
25
(四)线性模型
假设因变量来自正态分布:
Y~N(μ,σ2) μ与自变量x=(x1, … ,xp)之间的关系为:
μ=(α+xTβ)
其中α是截距项, β =(β1, … , βp)是对x的系数。 xr的值增加一个单位而其他自变量的值不变时,Y的平均值 增加βr(可能为负)。
26
(四)线性模型
设训练数据集为{(xi, yi), i=1, … ,N},其中xi被看作是给定的, 而yi被看作是相互独立的随机变量Yi的观测值。
系数α和β由最小二乘法估计,即最小化:
这等价于使用最大似然估计。 参数σ2可由最大似然法估计。
27
(五)广义线性模型
广义线性模型从两方面对线性模型进行扩展: 模型的系统成分:因变量Y分布的位置参数μ和自变量x的关 系。 令η= g(μ),其中g为一对一、连续可导的变换,使得η的取 值范围变成(-∞,∞);g(.)被称为连接函数。 η与x的关系为: η =(α+xTβ)
33
情形二:因变量为名义变量
可采用多项逻辑回归: 因变量Y的取值为1, … ,K,各取值之间是无序的。 令μ(l)表示Y取值为l的概率l=(1, … ,K),它们满足μ(l) +…+ μ(K) =1。对l=1, … ,K ,令:
那么(Y(l) , … ,Y(K))满足参数为(1, μ(l), … ,μ(K))的多项分 布, 没有刻度参数。
28
(五)广义线性模型
模型的随机成分:Y的分布,通常取指数族分布。指数族分 布的概率函数或概率密度函数的形式为:
其中φ被称为刻度参数,不是所有指数族分布都有刻度参 数,没有刻度参数时等价于φ ≡1。
29
(五)广义线性模型
令y=(y1, … ,yN), 令μ=(μ1, … ,μN),其中μi为Yi的分布的位置 参数。
~ (y; ) / ,其中 可以很容易证明比率偏差的形式为D ~ D (y; )与刻度参数φ无关,被称为偏差。线性模型中最小二乘 法所最小化的量就是偏差的一个特例。
估计广义线性模型的参数时,通过最小化偏差来估计α和β, 如果有刻度参数φ ,再通过最大似然法估计φ 。
31
情形一:因变量为二值变量
μl由训练数据集中属于类别l的观测的样本均值向量来估计。
8
3、判别分析的参数估计
估计∑l : 线性判别分析: ∑由合并样本协方差矩阵来估计; 设训练数据集中观测为x1,…,xN,其中N为观测数;考虑 训练数据集中属于类别l(l=1,…,K)的观测,令Nl表示这些观测 的个数,Cl表示它们的序号的集合, x l 表示它们的均值向量, 它们的样本协方差矩阵为:
4
1、线性判别分析
线性判别分析:
假设所有类别的协方差矩阵都相等, 即∑1=…= ∑ K= ∑;
可以推出:
5
1、线性判别分析
因为A的值对所有类别都一样,所以察看ξlfl(x)等价于察 看δl(X)。 根据贝叶斯定理,应该把自变量为x的观测归入δl(X)值 最大的类别。 δl(X)是x的线性函数,它被称为线性判别方程。 类别l和l’的边界由δl(X) =δl’(X)给出,该边界对x是线性
11
判别分析示例
数据集中的var1变量表示各种葡萄酒所使用的葡萄品种, 使用线性判别分析对这些葡萄酒进行分类的SAS程序如下: proc disc rim data=wine; /* 对wine数据集进行判别分析,缺省地进行线性判别分析, 若要进行二次判别分析需加上选项“pool=no” */ class var1; /*指出var1为因变量*/ run;
在广义线性模型下,所有μi都通过连接函数与同一组参数 (α,β)有关。
再考虑对μi没有任何限制的饱和模型,这时对每个μi都独 ˆs 表示饱和模型下对μ的最大似然估计。 立估计,令
30
(五)广义线性模型
令l(μ, φ│y)表示关于μ和φ的对数似然函数,定义比率偏 差 (Scaled Deviance):
15
(二)朴素贝叶斯分类算法
若Xr是可能取值为γ1, … , γv的分类变量,那么fl(xr= γv) v=(1, … ,V)可如下估计:
使用最大似然估计,即训练数据集属于类别l的观测中xir 取值为γv的比例:
其中#[条件]表示训练数据集中满足条件的观测数。
16
(二)朴素贝叶斯分类算法
如果训练数据集中没有满足条件的观测,相应的最大似然 ˆ ( x ) 的值为0。 估计 f l r v 在这种情形下,对于任何一个新的观测,只要自变量Xr取 ˆ ( x) 值为γv而不论其它变量取值如何,相应的 f 的值就为0,根据 l 贝叶斯公式估计的Pr(Y =l*︱X = x)的值就为0,该观测就不可 能被归为第l类。 为了避免这种武断的情况,假想在每个类别内另有Vn0个训 练观测,Xr的每种可能取值都分配n0个假想观测。可以得到一 种更加“平滑”的估计:
可采用逻辑回归: 不失一般性,设因变量Y的取值为0或1。 μ代表Y取值为1的概率。Y满足参数为μ的伯努力分布,没有 刻度参数。 使用逻辑(logit)连接函数,即:
它表示Y取值为1的概率与Y取值为0的概率的比的对数。 系数βr可以如下解释:xr的值增加一个单位而其他自变量的值 不变时,Y取值为1的概率与Y取值为0的概率的比是原来的 exp(βr)倍。
关键假设:给定类别Y的值,Xl, ... ,Xp是条件独立的。
对属于类别Y=l的观测,自变量X=(Xl, ... ,Xp)的概率函数 或概率密度函数fl(x)可以写成:
其中fl(xr)是类别l中自变量Xr的边缘分布。 要估计fl(x) ,可以对每个自变量独立估计fl(xr) ,然后将 它们相乘即可。
35
情形二:因变量为名义变量
对数似然函数为 l 1 y l log( i ,l ) ,其中μi,l代表第i个观测的 因变量取值为l的概率。在广义线性模型下,μi,l的表达式通过连 接函数可得:
K
i
36
情形二:因变量为名义变量
饱和模型对μi,l没有任何限制,这时对μi,l的最大似然估计为:
的。
6
2、二次判别分析
二次判别分析: 不假设各类别的协方差矩阵相等。容易推出,察看 ξlfl(x)等价于察看下列二次判别方程:
应该把自变量为x的观测归入ψl(x)值最大的类别。
类别l和类别l’的边界由ψl(x) =ψl’(x)给出,该边界是x的 二次方程。
7
3、判别分析的参数估计
在实际应用中,需要使用训练数据集来估计ξl、μl和∑l 的值: ξl由训练数据集中属于类别l的观测的比例来估计;
32
情形一:因变量为二值变量
对数似然函数为 i 1 [y i log( i ) (1 y i )log(1 i )] 。在广义 线性模型下,可得ui的表达式:
N
饱和模型对ui没有任何限制,这时对ui的最大似然估计为:
可得 l( ˆs; y ) 0 。 比率偏差和偏差都等于:
合并样本协方差矩阵为:
二次判别分析:∑l由Sl来估计(l=1, ... ,K)。
判别分析
虽然线性判别分析和二次判别分析都基于很简单的多元正 态假设,但是因为很多实际数据无法支持过于复杂的模型,所 以这两种方法的实际分类效果经常令人惊奇地好。
10
判别分析示例
假设work. wine数据集记录了对意大利某地区出产的178种 葡萄酒进行化学分析所得的酒精度、苹果酸、灰度、灰分碱度 等13种指标,这些葡萄酒分别酿自三种不同品种的葡萄(数据来 源于/ml/datasets/wine)。
k近邻法示例
假设SAS数据集work.car记录了22种品牌的159种车型的 如下表所示的一些信息(数据来源于http://archive.ics.uci.eda/ ml/datasets/Automobile)。
21
k近邻法示例
22
k近邻法示例
SAS软件的企业数据挖掘模块(Enterprise Miner)中,有一 个基于记忆的推理(Memory-Based Reasoning)节点可使用k近邻 法预测price变量的值。
第七讲
预测性建模的一些基本方法
1
(一)判别分析
判别分析适用于连续型自变量、名义型因变量的情形。
例如,它可用于将贷款、信用卡、保险等申请划分为不同 的风险类别。
2
(一)判别分析
判别分析使用贝叶斯定理对观测进行分类。 设因变量Y一共有K个类别。对 l=1,…,K,令ξl表示类别l的 K 先验概率,它们满足 l 1 1 1 。 设对属于类别Y=l的观测,自变量X=(X1, … ,Xp)的概率函数 或概率密度函数为fl(x)。 根据贝叶斯公式:
17
(二)朴素贝叶斯分类算法
若Xr是连续变量,可以假设对于类别Y=l而言,Xr满足均值 为μlr、方差为σlr2的正态分布。 只要训练数据集中每个类别的观测数至少为两个,μlr和σlr2 就可如下估计:
18
(三) k近邻法
k近邻法适用于自变量和因变量的类型没有特殊限制的情形。 它的具体步骤如下: 定义距离d(x, x’)度量自变量分别为x和x’的两个观测之间的 距离; 若要预测自变量为x*的观测的因变量Y的取值,对训练数据 集中的所有观测xi,计算d(x*, xi)的值。选择训练数据集中与x* 距离最小的k个观测。 使用这k个观测来预测x*对应的Y的取值: 若Y为离散变量,预测值为这k个观测的因变量中所占比例 最大的值。 若Y为连续变量,预测值为这k个观测的因变量的均值。