当前位置:文档之家› 北京大学 机器学习 1

北京大学 机器学习 1



语音识别 … 趋势

人更多的休闲时间 机器更多的智能工作
IBM Watson
Natural Language Processing, Information Retrieval, Machine Learning and Reasoning Algorithms.
Learned Models help combine and weigh the Evidence
教辅人员

任课老师

邓志鸿



办公室:理科2号楼2318 电话:62755592 Email:zhdeng@ 个人主页:
时间: 每周周一3~4节 双周周三5~6节 地点:一教204
/faculty/system/dengzhihong/dengzhihong.htm

三个项目


考试

课程成绩构成


平时 项目

10% 40%
分类项目 15% 聚类项目 10% 模式挖掘项目 15%

期末考试 50%
项目说明

政策

1-3人组成一个团队(team)。 每个小组独立完成项目。 鼓励讨论,但禁止小组间抄袭。

数据

适时发布在课程网站上
课程简介-内容提要



必要性 基本定义 发展历程 基本任务 相关领域 应用
发展历程-1

1950s

Samuel’s checker player Neural networks: Perceptron Pattern recognition Learning in the limit theory Minsky and Papert prove limitations of Perceptron

“How can we build computer systems that automatically improve with experience, and what are the fundamental laws that govern all learning processes?“ (Discipline of Machine Learning, CMU)
教辅人员 参考资料 课程网站 课程要求及目的 课程考核机制 课程内容简介
课程网站

网址:


/
机器学习概论
课程简介-内容提要



教辅人员 参考资料 课程网站 课程要求及目的 课程考核机制 课程内容简介
课程要求

高等数学

微分、积分
有基本概念就 可以了

等价

Study of algorithms that


������ improve their performance ������ at some task ������ with experience
什么是学习

学习

儒家经典《礼记》 学:效; 习:鸟频频飞起。

机器学习简介-内容提要
发展历程-2

1980s:


1990s

Advanced decision tree and rule learning Explanation-based Learning (EBL) Learning and planning and problem solving Utility problem Analogy Cognitive architectures Resurgence of neural networks (connectionism, backpropagation) Valiant’s PAC Learning Theory Focus on experimental methodology
ห้องสมุดไป่ตู้

统计学习理论 线性SVM 非线性SVM-核函数 基本原理 基本技术:Voting、Bagging、Boosting

分类器集成

课程内容介绍-分类

其它话题(选讲)

半监督学习

生成模型 基于图的方法

预测 基本度量


分类算法评估

查全、查准、… 基本概念 基本方法


评估方法

Holdout, Cross-validation, Bootstrap
课程内容-聚类

相似性度量

距离

向量距离 编辑距离

相似系数 聚类间相似性度量 层次聚类方法


核心算法

层次凝聚聚类算法,… K-Means,…

划分聚类方法


密度聚类方法

DBSCAN
EM, SOM,…


农家谚语

Big Data


数据爆炸但知识贫乏。 通过人工分析去获取这些信息/知识需要耗时数 周、数月甚至是数年时间。 目前,各行各业还有大量原始数据等待人们去进 行深入的分析和挖掘。
机器学习简介-内容提要



必要性 基本定义 发展历程 基本任务 相关领域 应用
机器学习-基本定义
Question Decomposition
Hypothesis Generation
Hypothesis and Evidence Scoring
Synthesis
Final Confidence Merging & Ranking
Hypothesis Generation
Hypothesis and Evidence Scoring
机器学习概论
-An Introduction to Machine Learning 邓志鸿
北京大学信息科学技术学院 2013-2014学年第二学期
第一讲 内容

课程简介 机器学习简介


浅议机器学习
课程简介-内容提要



教辅人员 参考资料 课程网站 课程要求及目的 课程考核机制 课程内容简介

Weka工具包 Matlab

不仅仅会用这些软件,还要知道它是如何实现的。 能在今后的工作中应用机器学习的理论和方法解决 实际问题。
课程简介-内容提要



教辅人员 参考资料 课程网站 课程要求及目的 课程考核机制 课程内容简介
课程考核机制

课堂小问题

希望大家踊跃参加 分类 聚类 频繁模式挖掘及应用 期末考试


最长模式和闭模式 交互挖掘 增量挖掘 高级话题

序列模式挖掘 …
第一讲

课程简介 机器学习简介


浅议机器学习
机器学习简介-内容提要



必要性 基本定义 发展历程 基本任务 相关领域 应用
必要性-社会需求

机器人

各类机器人
人脸检测 指纹识别 …

对象识别

Answers
1000’s of Pieces of Evidence
Evidence Retrieval
Evidence 100,000’s Scores from Scoring
many Deep Analysis Algorithms
100’s sources
Question & Topic Analysis

概率统计 数据结构 编程语言

c, c++, java, Python… 会用一种即可
课程目的

了解和掌握机器学习的基本理论、算法和技术

问题背景 种类 基本方法和算法 已有很多相关软件,能很方便实现分类、聚类等机 器学习任务。


理解已有机器学习/数据挖掘系统的工作原理

传统技术无法适用于处理上述海量原始数据 机器学习可以帮助科学家

自动分析、归类数据 从数据中自动发现内在规律 …
必要性-动机

数据中隐藏

非常有价值的信息/知识

不直观,不显现 商业规律

“80%买啤酒的顾客也买尿布” “燕子低飞江湖畔,即将有雨在眼前” “雨天知了叫,晴天马上到”


特征选择 (Feature Selection) 特征抽取 (Feature Extraction)

数据离散化
课程内容-分类

符号逻辑方法

谓词逻辑规则

Find-S, Candidate-Elimination, Decision Tree, Sequential Covering Algorithms FOIL

一阶谓词规则


贝叶斯方法

相关基本概率概念以及贝叶斯公式 朴素贝叶斯方法 贝叶斯网络 隐马尔可夫模型(HMM) k近邻 (kNN) 主题模型 (选讲)
课程内容介绍-分类

神经网络

感知器(线性) 前馈多层神经网络(任意函数)

-反向向传播算法

深度学习(选讲) 支持向量机 (SVM)

助教:

沈戈晖

实验室:理科2号楼2320 Email:jueliangguke@ 电话:62757756

魏亮晨
相关主题