当前位置：文档之家› 大数据背景下的机器学习算法应用研究

大数据背景下的机器学习算法应用研究

过拟合、欠拟合、模型适中三种情况如图 3 所示：
氏距离就是两点之间的实际距离。
二维空间的公式如式（1）所示：
ρ=
(x2 - x1)2 +(y2 - y1)2，| X | =
x2 2
+
y2 2
。其中
ρ
为点
(x2,y2) 与点 (x1,y1) 之间的欧式距离；| X | 为点 (x2,y2) 到原点的
欧式ห้องสมุดไป่ตู้离。
可以直接转变为模型。阈
模型在使用之前必须经过训练，模型训练过程中可能出
现过拟合[6]、欠拟合两种情况，通过调整模型的特征维度个
图 1 一维分类
数，最终达到模型适中的目标。所谓过拟合（over-fitting）其实就是所建的机器学习模型在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中表现不佳。而欠拟合
（高速）、Variety（多样）、Value（价值）。小数据时代的样本为
一个程序：机器学习算法，比如回归算法；
随机取样，用最少的数据获得最多的信息，而大数据时代的
任务 T：区分垃圾邮件的任务；
样本为总体数据。比如谷歌公司曾经通过分析整个美国几
经验 E：已经区分过是否为垃圾邮件的历史邮件，在监督
十亿条互联网检索记录预测流感趋势。对于小数据而言，最基本、最重要的要求就是减少错误，保证质量。比如追求更高精度的对时间、空间的测量。大数据允许不精确，放松了
二维及以上的分类，通常采用欧几里得度量（euclidean metric）（也称欧氏距离）。这是一个通常采用的距离定义，指在 m 维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维及以上空间中的欧
（under-fitting），则是在训练集上的判断准确率效果不佳。过拟合即特征维度过多，训练过程中需要减少特征维度；而欠拟合则是因为特征维度过少，需要增加特征维度。
成千上万个模型后，我们就可以通过把这些模型融合起来，
获得更好的预测或者分类效果，例如分类模型；针对每一个
待分类样本，把每一个模型得到的结果都看成对这个样本分
类结果的一次投票，最后根据得票高低确定最终分类结果，
投票结果经常胜出的模型会被赋予更大的权重。
比如有两个模型：客户信用度评估模型 1、客户信用度评估模型 2，在模型融合时占有的权重，依据它们将客户特征维
2 机器学习算法背景知识
一维分类如图 1 所示，只需设定一个阈值，即可将数据
机器学习的定义可以理解为：如果一个“程序”可以在分为 A 类和 B 类。
—————————————— 作者简介：童莲（1985－），女，江苏扬州人，硕士，工程师，研究方向为大数据、机器学习。
- 29 -
电脑与电信 ∙ 算法研究
（1）
三维空间的公式如式（2）所示：
图 3 模型训练三种情况
ρ=
(x2 - x1)2 +(y2 - y1)2 +(z2 - z1)2，| X | =
x2 2
+
y2 2
+
z2 2
（2）
二维分类最终结果如图 2 所示：
3.3 模型融合单一模型的预测和分类结果往往不尽如人意，因此把每
一个模型都叫作一个弱预测器或者弱分类器。当我们有了
大数据（Big Data）又称为巨量资料，指需要新的处理模
机器学习的经典算法主要有五种类型，分别为：聚类算
式才能具有更强的决策力、洞察力和流程化能力的海量、高法、分类算法、回归算法、关联规则算法、降维算法[2]。机器学
增长率和多样化的信息资产。大数据概念最早由维克托·迈习又可以分为三类：监督式学习，非监督式学习，强化学
式机器学习问题中，这也被称之为训练数据；效果 P：机器学习算法在区分是否为垃圾邮件任务上的
正确率。
容错的标准，人们可以掌握更多的数据，利用这些数据做更多新的事情。如今采集和存储数据的数量和规模已经爆发式地增长，如何分析并利用这些数据是摆在众人面前的一道难题。
机器学习和数据分析是将大数据转换成有用知识的关键技术 ,[1] 并且有研究表明, 在很多情况下, 处理的数据规模越大, 机器学习模型的效果会越好。因此，机器学习是大数据智能化分析处理应用中的重要手段。本文通过阐述机器学习算法的实际应用，探索如何利用海量数据。
3 机器学习算法的应用
经典的机器学习算法在应用时，可以分为三个步骤：特征维度提取[4]、特征模型建立、模型融合。特定领域的模型融合完成后，即可用来分析该领域的大数据，获取有用信息。 3.1 特征维度提取
所谓特征，通俗地讲，就是从这些“以前的数据”中提取出来的对于分类预测有价值的变量。比如电影、电视剧分类，书籍分类，垃圾邮件分类，动植物分类等。从维度上可以分为一维分类、二维分类、多维分类。
电脑与电信 ∙ 算法研究
大数据背景下的机器学习算法应用研究
童莲
（江苏海事职业技术学院，江苏南京 211199）
[摘要] 大数据背景下，机器学习和数据分析是利用大数据为人类服务的重要手段。本文阐述了机器学习算法的使用
步骤、特征维度的提取方法、特征模型建立的理论支撑，以及模型融合所占的权重。针对当前大数据下机器学习算法的关键技
图 2 二维分类
度进行的每一次分类结果所得的投票数。成千上万个模型融合时，各自所占的权重也是依据每一次分类所得的投票
数。维度越多意味着特征越多，需要处理的数据量级越大。
尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出，习[3]。监督式学习需要提前进行数据分类，非监督式学习着
指不用随机分析法（抽样调查）的捷径，而是采用所有数据进重于挖掘规律，强化学习需要通过试错去找到解决方案。
行分析处理。大数据有 4V 特点，即 Volume（大量）、Velocity
以垃圾邮件分类为例阐述机器学习的定义：
术，对其发展前景进行了展望。
[关键词] 大数据；机器学习；特征维度；模型建立；模型融合
中图分类号：TP391
文献标识码：A
文章编号：1008 - 6609 (2018) 09 - 0029 - 03
1 引言
“任务 T”上，随着“经验 E”的增加，“效果 P”也可以随之增加，则称这个程序可以从经验中学习。

e商务文档

大数据背景下的机器学习算法应用研究

相关文档推荐：