机器学习基础概述
购买 日期 3 NULL NULL NULL 6
特征提取
年龄 23 78 36 34 13 46 22 29 58
肝脏大小 10 8 5 13 7 11 8 8 10
体重 60kg 65kg 55kg 80kg 43kg 75kg 63kg 59kg 71kg
肝硬化 否 否 否 否 否 是 否 否 否
降温 降雨 1 1 1 0 0 0 0 1 1 1 1 -监督 0-
冰雹 0 0 0 0 1 0
刮风 1 1 1 1 0 1
统计分类
降温 降雨 1 1 1 0 0 0 0 1 1 1 1 -无监督 0 -
冰雹 0 0 0 0 1 0
关联规则
无监督学习算法:关联规则
训练集
特征1 …… 特征n 特征1 …… 特征n
目标 目标 目标
训练
算法A 算法B
验证集 特征1
特征1 特征1 … n n n
目标 目标 目标
算法C
预测
算法D
…
…
算法融合
原始样本集 样本数据 样本数据 样本数据 训练集 特征1 特征1 特征1
特 征 提 取
特征样本集 特征1 特征1 特征1 … …
n
n n
目标 目标 目标
…
预 处 理
…
… …
n n n
基本算法
(变体/高级) (样本优化)
优化算法 程序实践
特色/优缺点 主要应用方向
其他
学习内容和讲课要求
概念
研究方法 学习资料
参考书
• 机器学习,Mitchell 著, 机械工业出版社; • 机器学习实战,Peter Harrington 著;人民邮电出版社 • 统计学完全教程, (美)活塞曼 著; 科学出版社
n n n
预测目标 预测目标 预测目标
目标 目标 目标
算法融合:训练
训练集2 特征1 特征1 … … … n
预测目标 预测目标 预测目标 目标 目标 目标
n
n
训练
特征1
机 器 学 习 算 法 B
算法融合:训练
训练集1 特征1 特征1 特征1 … … … n n n
目标 目标 目标
训练集2 特征1 特征1 特征1 … … … n n n
训练
验证集 特征1 特征1 特征1 … … … n n n
目标 目标 目标
预测
机 器 学 习 算 法
验证集
预测目标
输出
预测目标
预测目标
评 价
改 进
机器学习实施过程
时间 1月1日 1月2日 1月3日 1月3日 1月5日 1月6日
用户ID 001 002 001 001 002 002
商品ID 001 002 001 004 005 006
噪声太多导致算法过拟合怎么办? --预处理,过滤噪声
特征样本集 特征1 特征1 特征1 特征1 … …
n
n n n n
目标 目标 目标 目标
训练集 特征1
…
… …
n n n
目标 目标 目标
…
… … … … …
特征1
特征1 特征1 特征1
目标
目标 目标 目标
预 处 理
划分集合
过滤采样
特征1 特征1
验证集 特征1 … … n n
聚类
关联 规则
机器学习算法分类
监督学习算法:统计分类
监督学习算法:回归分析
训练集
特征1 …… 特征n
特征1 …… 特征n 特征1 …… 特征n
身高 1.88 1.66 1.78 发长 1.4cm 15.3cm 22.6cm 抽烟 是 否 否
目标
目标 目标
性别 男 女 女
监督学习算法
监督学习算法:训练/学习
特 征 提 取
操作 点击 收藏 购买 点击 点击 购买
统计分析 变换 特征运算
用户 ID 001 001 002 002 002
特征样本集 特征1 特征1 特征1
…
… … 点击 次数 2 1 1 1 1
n n n
目标 目标 目标
商品ID
001 004 002 005 006
操作 日期 3 3 2 5 6
特征1 …… 特征n
无监督学习算法
无监督学习算法:训练/学习
测试集 特征1 …… 特征n 特征1 …… 特征n 特征1 …… 特征n 监督学习算法
结果
目标
目标 目标
无监督学习算法:预测
K-means
BIRCH
Apriori
无监督学习算法
概念
研究方法 学习资料
学习内容
讲课要求 容易理解的 算法逻辑 核心的 数学原理
线上课程
• Machine Learning by Andrew Ng
数据集下载
• /ml/
阿里巴巴大数据竞赛 海量工业数据 双11线上实战 真实业务逻辑 入围阿里星 ODPS平台 百万奖励
概念
研究方法 学习资料
机器学习是近20多年兴起的一门多领域交叉学科,涉及
概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学 科。机器学习理论主要是设计和分析一些让计算机可以自动 “学习”的算法。即从数据中自动分析获得规律,并利用规律 对未知数据进行预测的算法。 定义:“机器学习是对能通过经验自动改进的计算机算法的研 究”。 定义:“机器学习是一种让计算机在没有事先明确地编程的情 况下做出正确反应的科学” 。
目标 目标
n
n n
特征1
预处理
单一算法受局限怎么办? --算法迭代、融合 --重新考虑新特征
训练集1 特征1 … … … n n
目标
特征1
特征1
目标
目标
训练
n
训练集2 特征1 … … … n n
目标 目标 目标
特征1
特征1
预测
n
机 器 学 习 算 法 A
训练集2
输出
特征1 特征1 特征1
…
… …
测试集 特征1 …… 特征n
结果 目标 监督学习算法 目标
特征1 …… 特征n 特征1 …… 特征n
身高 1.66 1.76 1.55 发长 0cm 5.1cm 14.4cm 抽烟 是 否 否
目标
性别 男 男 女
监督学习算法:预测
测试集 特征1 …… 特征n 特征1 …… 特征n
连续值
结果
统计分类
操作 点击 收藏 购买 点击 点击 购买
特征不显著怎么办? --人脑战胜据 样本数据 时间 1月1日 1月2日 1月3日 1月3日 1月5日 1月6日 用户ID 001 002 001 001 002 002 商品ID 001 002 001 004 005 006
基本算法
(变体/高级) (样本优化)
优化算法 程序实践
特色/优缺点 主要应用方向
其他
学习内容和讲课要求
原始样本集 样本数据 样本数据 样本数据 训练集 特征1 特征1 特征1
特 征 提 取
特征样本集 特征1 特征1 特征1 … …
n
n n
目标 目标 目标
…
预 处 理
…
… …
n n n
目标 目标 目标
回归分析
离散值
离散值
连续值
监督学习算法:分类?回归?
决策树
朴素贝叶斯
逻辑回归
KNN
监督学习算法
SVM
神经网络
随机森林
监督学习算法
AdaBoost
遗传算法
算法优化
机器学习算法 监督学习
统计 分类 回归 分析
无监督学习
聚类
关联 规则
机器学习算法分类
无监督学习算法:聚类
刮风 1 1 1 1 0 1
目标 目标 目标
训练
验证集 特征1 特征1 特征1 … … … n n n
目标 目标 目标
预测
机 器 学 习 算 法
验证集
预测目标
输出
预测目标
预测目标
评 价
改 进
机器学习实施过程
理论 统计分析 算法原理 算法选择
实践
特征提取
样本构造 融合方法
学习内容
讲课要求 容易理解的 算法逻辑 核心的 数学原理
机器学习:定义
机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机 视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、 检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写 识别、战略游戏和机器人运用。
机器学习:应用
机器学习:应用
机器学习算法 监督学习
统计 分类 回归 分析
无监督学习