当前位置：文档之家› 机器学习与数据挖掘 - 大眼睛实验室

机器学习与数据挖掘 - 大眼睛实验室

自动化
金融和生物等领域，计算机科学有两个策略：其一，代替领域专家(从数据建立可靠(泛化)的模型)，其二，为领域提供工具，简化专家的工作(知识发现)。对这些领域，描述可能更好。对网络、
研语言、图像等领域，泛化是重要的，但是，发现同样重要。
究所
概率图模型为“描述”与“描述后的预测”提供基础。
研则化问题
究所
非线性问题计算效率
专家系统合理复杂问题求解
实现智能系统的理想
Machine Learning and Data Mining 2009
AI
中
国 1956年，以复杂信息处理为契机，提出AI。其动机有二：
科其一，发展处理符号的方法，其二，处理非线性问题。
学
院自动化
1969年，M.Minsky发表颠覆性的报告， “Perceptron”。表象是以XOR问题向以平均为基础的感知机发难，本质是试图以结构方法代替平均。全书使用拓扑作为工具。
所
求解Bayes问题有两个途径：(1)直接求解，困难；(2)变换为Markov网，
使用优化方法求解。(与Duda & Hart的思考一致)。
Machine Learning and Data Mining 2009
推断---Bayes问题
中
国推断，概率查询(Y边缘)：根据给定图，计算P(Y | E = e)。
愚者浅谈，不足为凭痴人梦语，切勿轻信旧路沿袭，艰难度日新盘洞察，激动人心
谢谢
中国科学院自动化研究所
Machine Learning and Data Mining 2009
所新世纪开始，统计学家加入SML，完全放弃PAC(Hastie)。
从ANN到SML，发展得力于对字符识别的成功
Machine Learning and Data Mining 2009
维数灾难
中
国在高维空间(成百上千)建模，最大的危险就是空间大
科的程度使得再多的样本，在这个空间上也是稀疏的。
究所
(1)直接求解：动态规划、Clique树，蒙特卡洛等。
(2)变分求解：设定目标函数(损失)，化为正则化问题。
Machine Learning and Data Mining 2009
学习
中
国假设：给定结构且样本完整(所有变量被赋值)。
科任务：学习参数，参数估计。CPD
学方法：(1)最大似然估计, (2)Bayes预测
特殊函数的逼近
如果数据不充分，在大变量集合下，
问题：模型是自中然国模科型吗学？院自如动何设化计研实究验所，获得新数据。
Machine Learning and Data Mining 2009
统计机器学习的困难：实验设计存在组合问题。iid成为与自然模型无关的假设！
Machine Learning and Data Mining 2009
中
国假设空间：对结构，就是变量连接的全组合。
A
科学习结构：根据某种准则，求出I-map
学
院 I(G)={A B} I(G)={A C} I(G)={A E} B
C
自
I(G)={A E，B E， C D， A C}
动准则：对某个结构目标:从假设空间中选择似
化的评价---评分。然最大的模型(结构和参数)
复杂信息系统(结构)：专家系统
句法模式识别
自 Duda and Hart[73]
If [D=0][G=A] then[L=0]
选择动从Bayes判别(分类)，
化引入损失函数，变为正
If [I=0][G=A] then[L=0] If [D=1][I=1][G=A] then [L=1]
考虑泛化为核心
Machine Learning and Data Mining 2009
统计机器学习
中
国神经网络基于PAC的机器学习基于统计学的机器学习
科学
1986年， Remulhart发表PDP报告，包含非线性BP算法，解决XOR,逼近非线性函数。学术价值不大，人们开始重新尝试“平均”方法。
院
自 1991年，Vapnik借用在AI中的贡献: (1)基于iid的误差界指导算法设
动化
PAC，给出基于iid的误差界，基于PAC的统计开始成为主流
计，(2)算法设计返回感知机，线性算法，寻找线性空间(核映射)。
研基于PAC理论，误差界以1-概率成立。这个参数在泛化意义下的解释：究理想，应该趋于0，但是，误差界将趋于无穷，成为平凡界。
研
D
E
究
所更为重要的是：通过知识库建立结构(或减小假设空间)。
Machine Learning and Data Mining 2009
历史进程---20年河东，20年河西？
中
国 1943-1969
M. Minsky等
1956-1986
科学
平均(数值计算) 感知机
Perceptrons: An introduction to computational geometry. 1969
P(G | I, D)
动
化
L
P(L | I, D, G) L只与G有关，与其他独立
研
P(S | I, D, G, L) S只与I有关，与其他独立
究所
P(D, I)=P(D)P(I)
P(L, I|G)=P(L|G)P(I|G)
P(L, D|G)=P(L|G)P(D|G)
I-map={ DI L I L D S D S G S L }
结构(符号计算)
人工智能
院
自
D. Rumelhart等, Parallel Distributed Processing, 1986
动
V. Vapnik, The nature of statistical learning theory, 1995
化
T.Hastie等, The Elements of Statistical Learning, 2003
第九届机器学习及其应用研讨会 2011年11月，清华大学
机器学习的困惑与历史的启示
王珏
中国科学院自动化研究所
Machine Learning and Data Mining 2009
统计机器学习的麻烦
[采样]
统计机器学习
自
样本集
假设iid
然
[算法]
模？？？？？
模型
[交叉验证]
型 [设计实验]
学
院自高维空间上的统计理论，多重积分是麻烦，补充“合适”
动样本是麻烦。“同分布”只能停留在假设上，无法实施。
化
研
究
由于困难具有本质性，平均遇到大麻烦！
所
Machine Learning and Data Mining 2009
概率图模型
中
国基于平均的研究已经过去20余年，2009年，Koller出版巨
中
国
科学
一、表示
院
自动
二、推断
化研
三、学习
究
所
Machine Learning and Data Mining 2009
表示---I-map
中
国D
I
P(I,D,G,L,S)= P(I) P(D) P(G|I,D) P(L|G) P(S|I)
科
学
P(I)
院G
S
P(D | I) I与D相互独立
自
院自动化
假设：结构未知，但是，样本完整。任务：学习结构和参数。考虑一个可能结构的假设空间，结构选择变为优化问题。
研究所
假设：样本不完整，或某些变量未知。任务：发现非显现表现的变量，知识发现。
Machine Learning and Data Mining 2009
学习结构的两种策略
研究所
过分强调独立性，使得描述任何一个问题，需要穷举出所有可能。80年代，耗资巨大的CYC“失败”了。
需要统计方法成为共识。
Machine Learning and Data Mining 2009
20世纪80年代面临的选择
中
国概率图模型(Bayes学派):
科
Markov随机场
学
Bayes网
Machine Learning and Data Mining 2009
线性感知机
中
国 1902年，James的神经元相互连接
科 1943年，McCulloch和Pitts的神经元工作方式
学 1949年，Hebb的学习律。
院
自
动基于最小二乘的Rosenblatt的感基函数：
化知机(1956)，其本质是多变量空 L = 1D + 2I + 3G + 4S
研究 2000-今后所平均+结构?
概率图模型？
D. Koller等
1986-今天
Probabilistic Graphical Models: 平均(数值计算) Principles and Techniques, 2009 统计机器学习
Machine Learning and Data Mining 2009
研间上的平均(回归)。
设计算法，确定，获得模型
究所
贡献是：多变量回归的计算方法(神经网络)。
疑问是：只能解决线性问题，不能满足实际的需要。埋下
被批评的口实。
Machine Learning and Data Mining 2009
20世纪70年代面临的选择

e商务文档

机器学习与数据挖掘 - 大眼睛实验室

相关文档推荐：