当前位置:
文档之家› 机器学习导论IntroductiontoMachineLearning
机器学习导论IntroductiontoMachineLearning
聚类(Clustering)
• 聚类是密度估计的一种方法,其目标是发 现输入数据的簇或者分组。
– 公司的客户数据 – 了解客户的分布 – 分组指导公司的决策
生物信息学(Bioinformatics)的应用
• 生物方面
– 基因, DNA是碱基A C G T 的序列,RNA有DNA转录而 来,蛋白质由RNA转录而来。 – DNA是碱基序列,蛋白质是氨基酸序列。
什么是机器学习?
• 机器学习?
– 从历史数据中,发现某些模式或规律(描述) – 利用发现的模式和规律进行预测
• 机器学习的定义
– 基于历史经验的,描述和预测的理论、方法和算法。
• 机器学习可行性的保证
– 将来,至少是不远的将来,情况不会与收集的样本数 据时有很大的不同,因此未来的预测也将有望是正确 的。
• 应用举例
机器学习能做什么?
• 机器学习也是人工智能的组成部分。 • 授予鱼不如授予渔
– 为了智能化,处于变化环境中的系统不需具备 学习能力。如果系统能够学习并且适应这些变 化,那么系统设计者就不必预见所有情况,并 为它们提供解决方案了。
机器学习能做什么?
• 机器学习还可以解决视觉、语音识别以及机器人 方面的许多问题。 • 模式识别
• 我们已经掌握的,就是历史的数据(经 验)。 • 我们期望从数据中提取出这些问题或相似 问题的答案。
Байду номын сангаас
什么是机器学习?
• 已经观测到的数据产生是随机的么?其中 是否隐含一些规律?
– 当你去超市买面包的时候,你是不是同时也会 买点牛奶? – 夏天的时候你是不是经常买雪糕?冬天则很少?
• 数据中存在一些确定的模式或规律!
回归(Regression)
• 思考2: • 多属性如何 回归?
思考3
• 回归和分类的共同点是什么?
监督学习(supervised learning)
• 回归和分类均为监督学习问题 • 即,输入x和输入y都是给定的,任务是学习 从输出到输入的映射: y = g (x|θ)其中θ是模型参数。 • 回归y 取值是连续的(数值),而分类是离 散的。
机器学习导论 Introduction to Machine Learning
大连海事大学 信息科学与技术学院
• 课程考核方法
– – – – 平时分(20分) 点名(10分) 一次不来扣3分 上机作业(30分) 期末考核(40分)
• 教材
– 《机器学习》 Tom M. Mitchell著 曾华军 张银奎等译 – 《机器学习导论》 Ethem Alpaydin著 范明 等译
– 人机对弈方面:例如棋牌类游戏,国际象棋,围棋等, 每一步的规则只有少量几条,如何设计步骤的序列才 是关键。 – 机器人导航方面,例如机器人足球。
总结机器学习方法的种类
• 监督学习 • 非监督学习 • 增强学习
相关资源
期刊: Machine Learning Journal of Machine Learning Research Neural Computation Neural Networks IEEE Transactions on Neural Networks Data Mining and Knowledge Discovery IEEE Transactions on Knowledge and Data Engineering SigKDD (Special interest Group on Knowledge Discovery and Data Mining Explorations Journal)
2.1 由实例学习类
• 学习“家用汽车”类C
– 现有一组汽车实例和一组被测人,展示汽车, 被测人对汽车标记:
• 正例:标记为家用汽车 • 负例:其他类型汽车
– 机器学习后预测未见过的汽车是否为家用 – 汽车特征包括 价格、发动机功率、座位数量、 车身颜色等。
2.1 由实例学习类
• 仅考虑价格(x1)和发动机功率(x2)
分类
思考1
• 在某些情况下,我们可能不希望1/0(高风险/低 风险)类型的判断,而是希望计算一个风险概率 值。该如何用概率模型表达??
• 概率值P(Y|X),X是顾客属性,Y是0或1,表 示低风险和高风险。
– 例如给定客户属性x,P(Y=1|X=x)= 0.8, 表示客户高 风险的可能性是80%。
机器学习能做什么?
• 机器学习方法在大型数据库中德应用被称为数据 挖掘(Data Mining)。
– 大量的金属氧化物以及原料从矿山开采出来,处理后 产生少量的珍贵物质。数据挖掘中,需要处理大量的 数据以构建简单有用的模型,例如高精度的预测模型。 – 零售业,银行,金融业,构建信用分析、诈骗检测、 股票市场; – 制造业,优化、控制、故障检测; – 医学领域,医疗诊断; – 电信行业,通话模式的分析可用于网络优化和提高服 务质量。 – 万维网上检索信息。
习题
• 机器学习方法的种类有哪些?每一类请举 例。 • 假设我们的既定目标是构建识别垃圾邮件 的系统,请问垃圾邮件中的什么特征使得 我们能够确认它为垃圾邮件?计算机如何 通过语法分析来发现垃圾邮件?如果发现 了垃圾邮件你希望计算机如何处理它?
分组题目
1 关联规则(Apropri) 2 贝叶斯网络 3 参数方法
分类--模式识别 (Pattern Recogniition)
• 光学字符识别(Optical character recognition)
– 图像字符 – 文本识别 It’s rainy outside.
• 人脸识别(face recognition) • 语音识别 (speech recognition) • 医学诊断 (medical diagnosis)
非监督学习
• 监督学习中,输出的正确值是由指导者提供的。 而非监督学习中,却没有这样的指导者,只有输 入数据。 • 非监督学习的目标是发现输入数据中的规律。 • 输入空间存在着某种结构,似的特定的模式比其 他模式更常出现,我们希望知道的是哪些经常发 生,那些不经常发生。在统计学中,这被称为密 度估计(density estimation)。
相关资源
• 会议
– – – – – – Neural Information Processing Systems Uncertainty in Artificial Intelligence International Conference on Machine Learning European Conference on Machine Learning Computational learning Theory International Joint Conference on Artificial Intelligence
• 学时安排及上机
– 总学时54 (授课36 + 上机 18) – 上机时间地点: 待定
• 辅导答疑
– 周四中午12点30分到13点20分 网络中心307
本课程主要内容
• 监督学习
• • • • • • • 密度估计 非参数方法 决策树 人工神经网络 贝叶斯学习 增强学习 遗传算法
– 分类 – 回归
– 最大似然估计 – 伯努利密度 – 高斯(正态分布)
5 非参数方法
– 直方图 – 核估计 – K最近邻
4 聚类
– K均值聚类 – 期望最大化 – 层次聚类
6 决策树 7 人工神经网络 8 增强学习 9 遗传算法
第二章 监督学习 Chapter 2. Supervised Learning
• • • • • • 2.1 由实例学习类 2.2 VC维(Vapnik-Chervonenkis Dimension) 2.3 概率逼近正确学习 2.4 噪声 2.5 学习多类 2.6 回归
– 例如从以往数据中统计出P(牛奶|面包)=0.8
分类
• 信贷是金融机构(例如银行)借出的一笔钱,需要连本带 息分期偿还。对于银行来说,重要的是能够提前预测贷款 风险。风险指的是客户不履行义务和不全额还款的可能性。 既要保证银行获利,又要确保不会因提供超出客户财力的 贷款而给客户带来不便和银行的损失。在信用评分中,银 行要计算在给定信贷额度和客户信息情况下的风险。客户 信息包括可以获取的数据,以及客户财力相关的数据,即 收入、存款、担保、职业、年龄、以往经济记录等。通过 这些申请数据,我们可以推断出一般规则,表示客户属性 及风险的相关性。从而将客户分为低风险客户和高风险客 户。新的客户申请数据作为分类器的输入,分类器将该客 户输入指派到某一个类中。 • 得到的规则: if income> x and savings > y then low-risk else high-risk
– 例如,依赖于某种参数的模型,学习过程就是执行计 算机程序,利用训练数据或以往的经验来优化该模型 的参数。
• 学习模型可以是预测的,用于预测未来。或者是 描述的,用于从数据中获取知识。也可以二者兼 备。 • 机器学习在构建数学模型是利用统计学理论,其 核心任务是从样本中推理。
– 训练过程中,面对海量数据,需要高效的算法。 – 表示和推理的算法也必须是高效的。 – 因此,时间复杂度,空间复杂度和预测精确度三者缺 一不可。
• 信息学方面
– 比对(alignment) – 结构域(motif)蛋白质中反复出现的氨基酸序列,其 序列结构表征结构和功能,如单双眼皮,遗传病等。 – 氨基酸是字母,蛋白质是句子,那么motif就是单词。
增强学习(Reinforcement learning)
• 在某些应用中,系统的输出是动作的序列。在这 种情况下,单个动作并不重要,重要的是策略, 即到达目标的正确动作序列。 • 机器学习程序应当能够评估策略的好坏程度,从 以往好的动作序列中学习,以便能产生策略。这 种学习方法称为增强学习方法。