对数几率回归(Logistic Regression)分析与实践1 对数几率回归原理分析1.2?损失函数1.3 ?求最优解2 对数几率回归实践Logistic回归的一般过程Logistic回归的优缺点Logistic回归算法描述(改进的随机梯度下降)《机器学习实战》第五章代码解析5-1 Logistic回归梯度上升优化方法5-2 画出数据集和Logistic回归最佳拟合直线的函数5-3 随机梯度上升算法5-4 改进的随机梯度上升算法5-5 ?示例:从疝气病症预测病马的死亡率1 对数几率回归原理分析Logistic Regression,对数几率回归,又称逻辑斯谛回归。
该模型最初是用来解决0-1二分类问题,明明是分类问题,为何叫回归?科普一下,线性回归是找到一条直线或超平面尽可能地接近所有的训练数据点(就是用线性方程来拟合数据),而对数几率回归是找到一条直线或超平面尽可能地分开两种不同类别的数据点(就是在公式中的线性部分来做了回归)。
首先,我们要解决的问题是:在线性模型上做二分类(这里不讨论多分类)。
把问题转化为,让模型输出为0或者1,而且在分界处变化很陡。
直接想法是套一个函数来实现一个单位阶跃函数,如下: 也就是把?线性模型?看作为一个两种类别的分界线。
由于分段函数性质太差,不符合优化问题的目标函数要连续可微的特点。
所以我们找一个形似的函数(由下图可见),Sigmoid 函数(S型函数)中的杰出代表——对数几率函数(一个任意阶可导的凸函数,有良好的数学性质,很适合优化问题)。
将线性模型代入就得到总的模型其实,对数几率回归模型就是在拟合?线性模型,使得这条直线尽可能地将原始数据中的两个类别正确的划分开(引用张磊的知乎)。
1.2?损失函数解决机器学习问题就要明确损失函数,回归问题一般用均方误差(平均损失)或者其平均数——平均误差平方损失来作为损失函数(这就是最小二乘法,用来找到一条直线使所有样本到直线的欧式距离之和最小)。
平均误差平方损失公式如下:Logistic回归模型,要用到的是对数损失来作为损失函数先来看它的效果,再来说怎么得来的效果:真实值?是有 0-1 两种情况,而推测值由于借助对数几率函数,其输出是介于0~1之间连续概率值。
这个损失函数其实在每次计算时永远都只有一项在发挥作用,转换为分段函数如下:所以该损失函数可以达到这样的效果:当真实值?y为1时,输出值?y越接近1,则?L越小,当真实值?y为 0 时,输出值?y尖越接近于0,则?L越小。
由来:这与周志华《机器学习》的3.3节的对数几率回归模型最大化“对数似然”的似然项(详细过程看书P59)有着异曲同工之妙,可能存在某种联系吧。
1.3 ?求最优解对数几率函数作为高阶可导连续凸函数,根据凸优化理论,典型的数值优化算法如梯度下降算法,牛顿法等牛顿法的求法看周志华《机器学习》的P59~60。
下面我们用的是梯度下降算法(梯度上升同理,符号变为加号)来得到核心参数的更新方式:w看做是一个向量的话,迭代同样要加减一个向量,α是每次迭代的步长(大小),α后面的偏导表示的是迭代的方向,这种通过多次迭代能够使得函数收敛到局部最小值。
具体怎么得来的看张磊知乎梯度下降算法,写得很棒。
通过链式求导法则,(具体推导见张磊知乎梯度下降算法)最终迭代方式为(矩阵形式,也是接下来实践用到的公式,其实是通过一系列推导得来的):(归入了矩阵中)2 对数几率回归实践Logistic回归的一般过程(1)收集数据:采用任意方法收集数据。
(2)准备数据:由于需要进行距离计算,因此要求数据类型为数值型。
(有限)另外,结构化数据格式则最佳。
(3)分析数据:采用任意方法对数据进行分析。
(4)训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数(5)测试算法:一旦训练完成,分类将会很快。
(6)使用算法:首先,我们需要输入一些数据,并将起转化成对应的结构化数值。
接着,基于训练好的回归系数既可以对这些数值进行简单的回归计算,在这之后,我们就可以在输出的类别上做一些其他分析工作。
Logistic回归的优缺点优点:计算代价不高,易于理解和实现。
缺点:容易欠拟合,分类精度可能不高。
Logistic回归算法描述(改进的随机梯度下降)输入:训练集?,是维样本向量,即?,是对应的分类标签学习率过程:由对数似然得到代价函数##下面采用梯度下降对代价函数进行迭代,迭代次(选择一个较大值,如500),得到最终的参数向量初始化为全1矩阵for all?do(这里采用随机选取样本来更新回归系数)动态调整从数据集中删除该样本(避免重复)util: 迭代了次(要到达达到局部最小的效果)输出:的最优解《机器学习实战》第五章代码解析5-1 Logistic回归梯度上升优化方法算法伪代码:每个回归系数初始化为1重复R次:计算整个数据集的梯度使用 alpha*gradient 更新回归系数的向量返回回归系数数据集特点:testSet.txt每行如下:?-0.017612 14.053064 0每个样本点包括两个特征值x,y坐标,和对应的分类标签(0或1)from numpy import *def loadDataSet(): # 加载数据集dataMat = [] # 创建数据列表labelMat = [] # 创建标签列表fr = open('testSet.txt') # 打开测试数据文件for line in fr.readlines(): # 读取文件每一行lineArr = line.strip().split() # 除去每一行的空格后拆分成列表,例如 ['0.317029', '14.739025', '0']dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])]) # 增加子列表,[1.0,lineArr第一个元素(float),lineArr第二个元素(float)]return dataMat, labelMat # 返回数据列表,标签列表# 注:[1.0, float(lineArr[0]), float(lineArr[1])] 中的1.0 表示的是特征X0 的值,一般默认X0 = 1.0(or 1)def sigmoid(inX): # 定义sigmoid函数,同书P74return 1.0-(1+exp(-inX))def gradAscent(dataMatIn, classLabels): # 定义梯度上升函数dataMatrix = mat(dataMatIn) # 把数据列表转化成矩阵形式(列表和矩阵的简单差别:列表一般是一行,以逗号分隔,而矩阵是多行,没逗号)labelMat = mat(classLabels).transpose() # 把标签列表转化成矩阵形式,然后转置(行向量 - 列向量)m,n = shape(dataMatrix) # 取数据矩阵的行和列第一个是行数m=100,第二个是列数n=3alpha = 0.001 # 学习率初始化 = 0.001,步长为0.001maxCycles = 500 # 最大循环次数 = 500weights = ones((n,1)) # 权重初始化为全1矩阵列向量(形式为n行1列)for k in range(maxCycles):h = sigmoid(dataMatrix * weights) # 1.0-(1+exp(-Z) f[x,y] = Z = dataMatrix * weightserror = (labelMat - h)#损失函数,真实值与预测值之间的差值weights = weights + alpha * dataMatrix.transpose() * error # 更新权重:要注意矩阵运算,几行几列要对应,注意转置,error(m 行1列),return weights # 返回权重#运行代码dataArr, labelMat = loadDataSet()dataMatrix = mat(dataArr)#print(dataMatrix)res = gradAscent(dataArr,labelMat)print(res)结果如下:[[ 4.12414349][ 0.48007329][-0.6168482 ]]5-2 画出数据集和Logistic回归最佳拟合直线的函数def plotBestFit(weights):import matplotlib.pyplot as pltdataMat, labelMat = loadDataSet()dataArr = array(dataMat) # 列表要转为数组n = shape(dataArr)[0] # n=100 数组的行n=100,(数组的列m=3)xcord1 = [] #类型1的x,y值ycord1 = []xcord2 = [] #类型0的x,y值ycord2 = []for i in range(n): # 遍历(0-100-1)if int(labelMat[i]) == 1: # 如果第i个元素的标签值是 1 xcord1.append(dataArr[i,1]) # 把对应数据数组(形似矩阵)的第i行的第2个元素增加到 xcord1ycord1.append(dataArr[i,2]) # 把对应数据数组(形似矩阵)的第i行的第3个元素增加到 ycord1else: # 如果标签列表(labelMat)中第i个元素的标签是 0 xcord2.append(dataArr[i,1]) # 同上ycord2.append(dataArr[i,2]) # 同上fig = plt.figure()#画图画布ax = fig.add_subplot(111)#子图#画散点图ax.scatter(xcord1, ycord1, s=30, c='red', marker='s') ax.scatter(xcord2, ycord2, s=30, c='green')# 绘制拟合直线x = arange(-3.0,3.0) # x取值范围起点-3.0,终点3.0 步长0.1y = (-weights[0]-weights[1]*x)-weights[2] # weight[1]是1*1的矩阵,z=w[0]+w[1]*x+w[2]*y,#print(x)#print(y)ax.plot(x,y)#绘制拟合直线plt.xlabel('X1')plt.ylabel('X2')plt.show()#运行代码%matplotlib inline#在界面上显示dataArr, LabelMat = loadDataSet()weights = gradAscent(dataArr,LabelMat)plotBestFit(weights.getA()) #getA()将numpy矩阵转换为数组结果如图“梯度上升法”的不足在于每次更新回归系数时都要遍历整个数据集,计算复杂度高因此,产生了“随机梯度上升法”,即每次仅使用1个样本点数据来更新回归系数5-3 随机梯度上升算法随机梯度上升算法:一次仅用一个样本点来更新回归系数随机梯度上升伪代码:每个回归系数初始化为1对数据集中每个样本:计算该样本的梯度使用 alpha*gradient 更新回归系数的向量返回回归系数和梯度上升法的区别:第一,后者的变量h和error都是向量,而前者则全是数值;第二,前者没有矩阵的转化过程,所有变量的数据类型都是Numpy数组def stocGradAscent0(dataMatrix, classLabels):m,n = shape(dataMatrix) # 取数组的行m,列nalpha = 0.01 # 学习率初始化weights = ones(n) # 创建含有 n 个元素的数组for i in range(m): # 循环每一行的元素h = sigmoid(sum(dataMatrix[i]*weights))# sum(dataMatrix[i]*weights)=w0*x0+w1*x1+w2*x2error = classLabels[i] - hweights = weights + alpha * error * dataMatrix[i] # 更新权重return weights # 返回权重#运行代码:dataArr,labelMat = loadDataSet()weights = stocGradAscent0(array(dataArr), labelMat)plotBestFit(weights)结果如图“随机梯度上升法”分错了三分之一,因为原始梯度上升算法(5-1)是在整个数据集上迭代500次得来的,这是不公平,我们对本算法同样进行多次迭代,发现问题如下:不足在于回归系数存在周期震荡波动。