当前位置:
文档之家› 大数据背景下的机器学习算法应用研究
大数据背景下的机器学习算法应用研究
过拟合、欠拟合、模型适中三种情况如图 3 所示:
氏距离就是两点之间的实际距离。
二维空间的公式如式(1)所示:
ρ=
(x2 - x1)2 +(y2 - y1)2,| X | =
x2 2
+
y2 2
。其中
ρ
为点
(x2,y2) 与点 (x1,y1) 之间的欧式距离;| X | 为点 (x2,y2) 到原点的
欧式ห้องสมุดไป่ตู้离。
可以直接转变为模型。 阈
模型在使用之前必须经过训练,模型训练过程中可能出
现过拟合[6]、欠拟合两种情况 ,通过调整模型的特征维度个
图 1 一维分类
数 ,最终达到模型适中的目标。所谓过拟合(over-fitting)其 实就是所建的机器学习模型在训练样本中表现得过于优越, 导致在验证数据集以及测试数据集中表现不佳。而欠拟合
(高速)、Variety(多样)、Value(价值)。小数据时代的样本为
一个程序:机器学习算法,比如回归算法;
随机取样 ,用最少的数据获得最多的信息 ,而大数据时代的
任务 T:区分垃圾邮件的任务;
样本为总体数据。比如谷歌公司曾经通过分析整个美国几
经验 E:已经区分过是否为垃圾邮件的历史邮件,在监督
十亿条互联网检索记录预测流感趋势。对于小数据而言,最 基本 、最重要的要求就是减少错误 ,保证质量。比如追求更 高精度的对时间 、空间的测量。大数据允许不精确 ,放松了
二 维 及 以 上 的 分 类 ,通 常 采 用 欧 几 里 得 度 量(euclidean metric)(也称欧氏距离)。这是一个通常采用的距离定义,指 在 m 维空间中两个点之间的真实距离,或者向量的自然长度 (即该点到原点的距离)。在二维和三维及以上空间中的欧
(under-fitting),则是在训练集上的判断准确率效果不佳。过 拟合即特征维度过多 ,训练过程中需要减少特征维度 ;而欠 拟合则是因为特征维度过少,需要增加特征维度。
成千上万个模型后 ,我们就可以通过把这些模型融合起来 ,
获得更好的预测或者分类效果 ,例如分类模型 ;针对每一个
待分类样本,把每一个模型得到的结果都看成对这个样本分
类结果的一次投票 ,最后根据得票高低确定最终分类结果 ,
投票结果经常胜出的模型会被赋予更大的权重。
比如有两个模型:客户信用度评估模型 1、客户信用度评 估模型 2,在模型融合时占有的权重,依据它们将客户特征维
2 机器学习算法背景知识
一维分类如图 1 所示,只需设定一个阈值,即可将数据
机器学习的定义可以理解为 :如果一个“程序”可以在 分为 A 类和 B 类。
—————————————— 作者简介:童莲(1985-),女,江苏扬州人,硕士,工程师,研究方向为大数据、机器学习。
- 29 -
电脑与电信 ∙ 算法研究
(1)
三维空间的公式如式(2)所示:
图 3 模型训练三种情况
ρ=
(x2 - x1)2 +(y2 - y1)2 +(z2 - z1)2,| X | =
x2 2
+
y2 2
+
z2 2
(2)
二维分类最终结果如图 2 所示:
3.3 模型融合 单一模型的预测和分类结果往往不尽如人意,因此把每
一个模型都叫作一个弱预测器或者弱分类器。当我们有了
大数据(Big Data)又称为巨量资料,指需要新的处理模
机器学习的经典算法主要有五种类型 ,分别为 :聚类算
式才能具有更强的决策力、洞察力和流程化能力的海量、高 法、分类算法、回归算法、关联规则算法、降维算法[2]。机器学
增长率和多样化的信息资产。大数据概念最早由维克托·迈 习又可以分为三类 :监督式学习 ,非监督式学习 ,强化学
式机器学习问题中,这也被称之为训练数据; 效果 P:机器学习算法在区分是否为垃圾邮件任务上的
正确率。
容错的标准 ,人们可以掌握更多的数据 ,利用这些数据做更 多新的事情。如今采集和存储数据的数量和规模已经爆发 式地增长,如何分析并利用这些数据是摆在众人面前的一道 难题。
机器学习和数据分析是将大数据转换成有用知识的关 键技术 ,[1] 并且有研究表明, 在很多情况下, 处理的数据规模 越大, 机器学习模型的效果会越好。因此,机器学习是大数 据智能化分析处理应用中的重要手段。本文通过阐述机器 学习算法的实际应用,探索如何利用海量数据。
3 机器学习算法的应用
经典的机器学习算法在应用时 ,可以分为三个步骤 :特 征维度提取[4]、特征模型建立、模型融合。特定领域的模型融 合完成后,即可用来分析该领域的大数据,获取有用信息。 3.1 特征维度提取
所谓特征 ,通俗地讲 ,就是从这些“以前的数据”中提取 出 来 的 对 于 分 类 预 测 有 价 值 的 变 量 。 比 如 电 影 、电 视 剧 分 类,书籍分类,垃圾邮件分类,动植物分类等。从维度上可以 分为一维分类、二维分类、多维分类。
电脑与电信 ∙ 算法研究
大数据背景下的机器学习算法应用研究
童莲
(江苏海事职业技术学院,江苏 南京 211199)
[摘 要] 大数据背景下,机器学习和数据分析是利用大数据为人类服务的重要手段。本文阐述了机器学习算法的使用
步骤、特征维度的提取方法、特征模型建立的理论支撑,以及模型融合所占的权重。针对当前大数据下机器学习算法的关键技
图 2 二维分类
度进行的每一次分类结果所得的投票数。成千上万个模型 融合时 ,各自所占的权重也是依据每一次分类所得的投票
数。 维度越多意味着特征越多 ,需要处理的数据量级越大。
尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出, 习[3]。监督式学习需要提前进行数据分类,非监督式学习着
指不用随机分析法(抽样调查)的捷径,而是采用所有数据进 重于挖掘规律,强化学习需要通过试错去找到解决方案。
行分析处理。大数据有 4V 特点,即 Volume(大量)、Velocity
以垃圾邮件分类为例阐述机器学习的定义:
术,对其发展前景进行了展望。
[关键词] 大数据;机器学习;特征维度;模型建立;模型融合
中图分类号:TP391
文献标识码:A
文章编号:1008 - 6609 (2018) 09 - 0029 - 03
1 引言
“任务 T”上,随着“经验 E”的增加,“效果 P”也可以随之增加, 则称这个程序可以从经验中学习。