当前位置:文档之家› 机器学习与数据挖掘 - 大眼睛实验室

机器学习与数据挖掘 - 大眼睛实验室


自 动 化
金融和生物等领域,计算机科学有两个策略:其一,代替领域专 家(从数据建立可靠(泛化)的模型),其二,为领域提供工具,简 化专家的工作(知识发现)。对这些领域,描述可能更好。对网络、
研 语言、图像等领域,泛化是重要的,但是,发现同样重要。
究 所
概率图模型为“描述”与“描述后的预测”提供基础。
研 则化问题
究 所
非线性问题 计算效率
专家系统合理 复杂问题求解
实现智能系统的理想
Machine Learning and Data Mining 2009
AI

国 1956年,以复杂信息处理为契机,提出AI。其动机有二:
科 其一,发展处理符号的方法,其二,处理非线性问题。

院 自 动 化
1969年,M.Minsky发表颠覆性的报告, “Perceptron”。 表象是以XOR问题向以平均为基础的感知机发难,本质是 试图以结构方法代替平均。全书使用拓扑作为工具。

求解Bayes问题有两个途径:(1)直接求解,困难;(2)变换为Markov网,
使用优化方法求解。(与Duda & Hart的思考一致)。
Machine Learning and Data Mining 2009
推断---Bayes问题

国 推断,概率查询(Y边缘):根据给定图,计算P(Y | E = e)。
愚者浅谈,不足为凭 痴人梦语,切勿轻信 旧路沿袭,艰难度日 新盘洞察,激动人心
谢谢
中国科学院自动化研究所
Machine Learning and Data Mining 2009
所 新世纪开始,统计学家加入SML,完全放弃PAC(Hastie)。
从ANN到SML,发展得力于对字符识别的成功
Machine Learning and Data Mining 2009
维数灾难

国 在高维空间(成百上千)建模,最大的危险就是空间大
科 的程度使得再多的样本,在这个空间上也是稀疏的。
究 所
(1)直接求解:动态规划、Clique树,蒙特卡洛等。
(2)变分求解:设定目标函数(损失),化为正则化问题。
Machine Learning and Data Mining 2009
学习

国 假设:给定结构且样本完整(所有变量被赋值)。
科 任务:学习参数,参数估计。CPD
学 方法:(1)最大似然估计, (2)Bayes预测
特殊函数的逼近
如果数据不充分,在大变量集合下,
问题:模型是自中然国模科型吗学?院自如动何设化计研实究验所,获得新数据。
Machine Learning and Data Mining 2009
统计机器学习的困难:实验设计存在组合问题。iid成为与自然模 型无关的假设!
Machine Learning and Data Mining 2009

国 假设空间:对结构,就是变量连接的全组合。
A
科 学习结构:根据某种准则,求出I-map

院 I(G)={A B} I(G)={A C} I(G)={A E} B
C

I(G)={A E,B E, C D, A C}
动 准则:对某个结构 目标:从假设空间中选择似
化 的评价---评分。 然最大的模型(结构和参数)
复杂信息系统(结构): 专家系统
句法模式识别
自 Duda and Hart[73]
If [D=0][G=A] then[L=0]
选择 动 从Bayes判别(分类),
化 引入损失函数,变为正
If [I=0][G=A] then[L=0] If [D=1][I=1][G=A] then [L=1]
考虑泛化为核心
Machine Learning and Data Mining 2009
统计机器学习

国 神经网络基于PAC的机器学习基于统计学的机器学习
科 学
1986年, Remulhart发表PDP报告,包含非线性BP算法,解决XOR,逼 近非线性函数。学术价值不大,人们开始重新尝试“平均”方法。

自 1991年,Vapnik借用在AI中的 贡献: (1)基于iid的误差界指导算法设
动 化
PAC,给出基于iid的误差界, 基于PAC的统计开始成为主流
计,(2)算法设计返回感知机,线性 算法,寻找线性空间(核映射)。
研 基于PAC理论,误差界以1-概率成立。这个参数在泛化意义下的解释: 究 理想,应该趋于0,但是,误差界将趋于无穷,成为平凡界。

D
E

所 更为重要的是:通过知识库建立结构(或减小假设空间)。
Machine Learning and Data Mining 2009
历史进程---20年河东,20年河西?

国 1943-1969
M. Minsky等
1956-1986
科 学
平均(数值计算) 感知机
Perceptrons: An introduction to computational geometry. 1969
P(G | I, D)


L
P(L | I, D, G) L只与G有关,与其他独立

P(S | I, D, G, L) S只与I有关,与其他独立
究 所
P(D, I)=P(D)P(I)
P(L, I|G)=P(L|G)P(I|G)
P(L, D|G)=P(L|G)P(D|G)
I-map={ DI L I L D S D S G S L }
结构(符号计算)
人工智能


D. Rumelhart等, Parallel Distributed Processing, 1986

V. Vapnik, The nature of statistical learning theory, 1995

T.Hastie等, The Elements of Statistical Learning, 2003
第九届机器学习 及其应用研讨会 2011年11月,清华大学
机器学习的困惑 与历史的启示
王珏
中国科学院自动化研究所
Machine Learning and Data Mining 2009
统计机器学习的麻烦
[采样]
统计机器学习

样本集
假设iid

[算法]
模 ?????
模型
[交叉验证]
型 [设计实验]

院 自 高维空间上的统计理论,多重积分是麻烦,补充“合适”
动 样本是麻烦。“同分布”只能停留在假设上,无法实施。



由于困难具有本质性,平均遇到大麻烦!

Machine Learning and Data Mining 2009
概率图模型

国 基于平均的研究已经过去20余年,2009年,Koller出版巨


科 学
一、表示

自 动
二、推断
化 研
三、学习


Machine Learning and Data Mining 2009
表示---I-map

国D
I
P(I,D,G,L,S)= P(I) P(D) P(G|I,D) P(L|G) P(S|I)


P(I)
院G
S
P(D | I) I与D相互独立

院 自 动 化
假设:结构未知,但是,样本完整。 任务:学习结构和参数。 考虑一个可能结构的假设空间,结构选择变为优化问题。
研 究 所
假设:样本不完整,或某些变量未知。 任务:发现非显现表现的变量,知识发现。
Machine Learning and Data Mining 2009
学习结构的两种策略
研 究 所
过分强调独立性,使得描述任何一个问题,需要穷举出 所有可能。80年代,耗资巨大的CYC“失败”了。
需要统计方法成为共识。
Machine Learning and Data Mining 2009
20世纪80年代面临的选择

国 概率图模型(Bayes学派):

Markov随机场

Bayes网
Machine Learning and Data Mining 2009
线性感知机

国 1902年,James的神经元相互连接
科 1943年,McCulloch和Pitts的神经元工作方式
学 1949年,Hebb的学习律。


动 基于最小二乘的Rosenblatt的感 基函数:
化 知机(1956),其本质是多变量空 L = 1D + 2I + 3G + 4S
研 究 2000-今后 所 平均+结构?
概率图模型?
D. Koller等
1986-今天
Probabilistic Graphical Models: 平均(数值计算) Principles and Techniques, 2009 统计机器学习
Machine Learning and Data Mining 2009
研 间上的平均(回归)。
设计算法,确定,获得模型
究 所
贡献是:多变量回归的计算方法(神经网络)。
疑问是:只能解决线性问题,不能满足实际的需要。埋下
被批评的口实。
Machine Learning and Data Mining 2009
20世纪70年代面临的选择
相关主题