《程序设计方法学》课程论文题目: 大数据下的机器学习通信与信息工程学院 1014010216 唐 川 宗 平 2014/2015学年第二学期学院 学号姓名指导老师日期大数据下的机器学习摘要:随着产业界数据量的爆炸式增长,大数据概念受到越来越多的关注。
由于大数据的海量、复杂多样、变化快的特性,如何有效利用大数据中的信息,并使用这些信息提高生产率成为迫切需要解决的问题。
机器学习是解决这类问题的有效方法之一。
因此,研究大数据环境下的机器学习算法成为学术界和产业界共同关注的话题。
本文旨在对机器学习的一些基本算法和在大数据环境下机器学习大概面临的一些问题进行初步介绍。
关键词:大数据,机器学习,分类,聚类,最优化方法,并行算法1.大数据时代来临经过20余年的努力,Internet已获得巨大的成功,由此,人们可以在不同时间与地域获取自己希望获得的信息。
然而,有效获得信息是一回事,获得的信息是否能够有效且方便地使用则是另一回事。
目前的现状是大量可以有效获得的信息,大约只有10%可以被使用,消耗了大量资源的信息不仅未能够被有效地使用,而且由于有用的信息正在更深地被掩埋在无用信息之中,变得更难以利用。
花费了大量人力物力而获得信息,却无法有效使用,长此以往,这将与未获得信息无区别。
如何有效利用这些被掩埋的有用信息已成为信息产业继续兴旺发展的关键。
大数据定义:有关大数据的定义有多种。
一个狭义的定义:大数据是指不能装载进计算机内存储器的数据。
尽管这是一个非正式的定义,但易理解,因为每台电脑都有一个大到不能装载进内存的数据集。
广义的大数据定义为:一般意义上,大数据是指无法在可容忍的时间内用传统IT 技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。
大数据特点:大数据有多方面的特点,从最开始的3V模型到目前扩展的4V模型就是以大数据的特点命名的。
3V模型包括体积(V olume),速度( Velocity)和多样性(Variety);4V模型中的第4个V有多种解释,如变化性( Variability),虚拟化( Virtual)或价值(Value)。
针对这些特点,大数据时代知识解析、机器智能与人类智能协调工作及智能分析系统将会扮演重要角色,人们需要一种智能分析接口将人类与计算机世界连接,否则将被淹没在大数据的洪流中。
2.机器学习自从计算机被发明以来,人们就想知道它能不能学习。
机器学习从本质上是一个多学科的领域。
它吸取了人工智能、概率统计、计算复杂性理论、控制论、信息论、哲学、生理学、神经生物学等学科的成果。
机器学习的研究主旨是使用计算机模拟人类的学习活动,它是研究计算机识别现有知识、获取新知识、不断改善性能和实现自身完善的方法。
这里的学习意味着从数据中学习,它包括有监督学习(Supervised Learning ) 、无监督学习(Unsupervised Learning)和半监督学习(Semi -Supervised Learning) 三种类别。
有监督学习需要对已知的样本进行训练得到算法模型,然后对未知样本的度量结果(或者说是标签)进行预测;而无监督学习则是直接预测未知样本的度量结果,没有实现训练的过程;而半监督学习就是介乎两者之间的机器学习方法。
传统机器学习面临的一个新挑战是如何处理大数据。
目前,包含大规模数据的机器学习问题是普遍存在的,但是,由于现有的许多机器学习算法是基于内存的,大数据却无法装载进计算机内存,故现有的诸多算法不能处理大数据。
如何提出新的机器学习算法以适应大数据处理的需求,是大数据时代的研究热点方向之一。
3.大数据环境下的机器学习算法3.1大数据分类有监督学习(分类) 面临的一个新挑战是如何处理大数据。
目前包含大规模数据的分类问题是普遍存在的,但是传统分类算法不能处理大数据.1)支持向量机分类。
SVM 法即支持向量机( Support Vector Machine) 法,由Vapnik 等人于1995年提出,具有相对优良的性能指标。
该方法是建立在统计学习理论基础上的机器学习方法。
通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔。
因而有较好的适应能力和较高的分率。
该方法只需要由各类域的边界样本的类别来决定最后的分类结果。
2)决策树分类。
决策树可看作一个树状预测模型,它通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。
决策树的核心问题是选择分裂属性和决策树的剪枝。
决策树的算法有很多,有ID3、C4.5、CART等等。
这些算法均采用自顶向下的贪婪算法,每个节点选择分类效果最好的属性将节点分裂2个或多个子结点,继续这一过程直到这棵树能准确地分类训练集,或所有属性都已被使用过。
对于分类问题,当叶节点中只有一个类,那么这个类就作为叶节点所属的类,若节点中有多个类中的样本存在,根据叶节点中样本最多的那个类来确定节点所属的类别,对于回归问题,则取其数量值的平均值。
3)人工神经网络算法与感知机。
人工神经网络(Artificial Neural Networks———ANN)提供了一种普遍而且实用的方法,来从样例中学习值为实数、离散或向量的函数。
ANN学习对于训练数据中的拟合效果很好,且已经成功地涉及到医学、生理学、哲学、信息学、计算机科学等众多学科领域,这些领域互相结合、相互渗透并相互推动。
不同领域的科学家从各自学科的特点出发,提出问题并进行了研究。
感知机方法的原始动机是“人类学习的根源是神经系统”,根据神经系统的原理建立模型是解决学习的合理途径。
由此,1956年,Rosenblatt根据James 在1896年提出的神经元相互连接与McCulloch和Pitts发现神经元的“兴奋”和“抑制”工作方式为基础,建立一种神经网络的数学模型,并使用线性优化的方法,奠定了感知机的理论基础,感知机提出之后受到Minsky的严厉批评。
这个批评主要集中在两个问题上,其一,感知机模型不能向非线性(线性不可分)问题推广,这是对算法的批评;其二,感知机是基于“黑箱”原理,学习后的模型与实际世界没有直接的对应关系,这是对模型形式的批评。
3.2大数据聚类1)聚类学习是最早被用于模式识别及数据挖掘任务的方法之一,并且被用来研究各种应用中的大数据库,因此用于大数据的聚类算法受到越来越多的关注。
Haven对比3种扩展的模糊c均值(FCM) 聚类算法对于大数据的执行效率。
具体而言,这3种方法分别基于:取样后进行非迭代扩展;连续通过数据子集的增量技术;提供基于抽样的估计的核模糊c均值算法;Havens 等用可装载的数据集和VL数据集来进行数值型实验,这些实验进行如下对比:时间复杂度、空间复杂度、速度、处理装载数据的批量FCM的近似质量、对划分和地面实况间匹配的评估。
实验结果显示,随机取样可扩展FCM(Random Sampling PlusExtension)位减少FCM(Bit-Reduced FCM)及近似核FCM (ApproximateKernel FCM) 都是较好的选择,都近似于FCM。
最后,Havens 等展示针对含有50亿对象的数据集的大数据算法,并就如何使用不同的大数据FCM 聚类策略提出一系列建议。
2)另一方面,随着数据体积的增大,I /O瓶颈就变成数据分析的一个重要问题。
数据压缩能起到缓解作用。
以K-means为例,Xue等提出一种压缩感知性能提升模型用于大数据聚类。
该模型定量分析整个计算过程中与压缩有关的诸多因素的影响。
在有上百个计算核的集群上对大到1.114TB的10维数据进行聚类实验,实验结果证明使用压缩能改善I /O性能,并且该模型能有效决定何时如何使用压缩来改善大数据分析中的I /O 性能。
针对分布式聚类、流数据聚类,Hall等研究二次抽样方法以提高聚类算法的可扩展性。
实验表明,人们可构造一个好的模型而不必知道所有的数据,如果需要,修改后的算法可应用于TB级或更多的数据。
3.3小结正如本文开头所说,机器学习涉及的领域与算法繁杂,不仅仅只是分类与聚类两类算法就能囊括的,这也正给海量数据的分析与挖掘提供了许多基础工具、算法。
而机器学习应用在大数据的环境下必须对传统算法做出改动,以适应大数据的特性,而这些改动或者说改进一般面对的问题大概是这几个:算法模型需要尽量简化,简单模型对硬件要求不高,更加容易实现,而这是比较困难的,因为要处理的海量数据包含的数据类型种类繁多、数据特征复杂,而复杂数据往往对应的是一个复杂的模型;算法收敛速度需要尽可能快,而这个要求往往受限于第一个问题,复杂模型的运算量大,收敛速度必然比较慢,这也是最优化方法面临的问题,所以单线程的机器学习算法的运行速度以及很难满足分析大数据的要求,我们更希望将传统的机器学习方法用多线程实现,而正如前文所说,并行计算对计算机的I/O要求比较大。
4 结语与致谢大数据具有属性稀疏、超高维、高噪声、数据漂移、关系复杂等特点,导致传统机器学习算法难以有效处理和分析,为此,需在如下方面展开相应研究。
1)研究机器学习理论和方法,包括数据抽样和属性选择等大数据处理的基本技术,设计适合大数据特点的数据挖掘算法,以实现超高维、高稀疏的大数据中的知识发现.2)研究适合大数据分布式处理的数据挖掘算法编程模型和分布式并行化执行机制,支持数据挖掘算法迭代、递归、集成、归并等复杂算法编程。
3)在Hadoop、CUDA 等并行计算平台上,设计和实现复杂度低、并行性高的分布式并行化机器学习与数据挖掘算法。
本论文是在老师和同学的帮助下完成的,在此向老师和同学们表示深深的感谢!。