机器学习及其应用
方法创新:主元素纯洁树 PPT
1. 结构:二元树,数据分为目标T 与 背景B。 2. 规则:用主元素分析的方法在 有监督学习中分步剔除B。 3. 选择:用主元素法选取能最大 限度剔除B的自变量(参数、属 性)组合。 4. 检验:用预留数据检查树的效 能,决定树的修剪和停止。 5. 软决策:用近邻法给出各个样 本属于T类的概率估计。
•
•
For all combinations of 2 indicators, we use the above rule to calculate the purity density of target in R, then choose the two predictors which has the highest density for the current node. Keep above procedure on going with the selected data B+T till stop.
ˆ ( x) x( X T X )1 X T Y Y
方法介绍2:线性模型估计与认证
• 传统统计主要用最小二乘做参数估计;机器学习介绍了Ridge及 Lasso等收缩估计以避免过拟合,具有鲁棒性。 • 传统统计对变量选取有大量研究,如t-或F-检验,逐步回归;较近代 有AIC,BIC,MDL等。机器学习更多使用交叉认证及Bootstrap,但 也不排除使用前述方法。
B+T B
Feature Selection From p(p-1)/2 combinations choose the one with highest purity density B B Root B+T B+T
T
PPT的自变量选择
• We use 54(1+d) technical indicators, including MACD, MAd, RSI and RSV with different parameters, as the predictors for peaks or troughs, here d is the delay time unit (day). • For each k(=2) combination of these predictors, find the tight region rounding up all targets by its PCA transform. • Exhaustive search for all combinations to get the best predictor combination with highest purity percentage for targets inside the region.
交叉认证
• 传统统计得到估计量后常研究它对真实参数的收敛性;机 器学习往往不假定真实模型的存在。 • 个人看法:应假定随尺度而变的近似模型。
方法介绍3:决策树
• 在机器学习中,决策树是一个预测模型,他代表的是对象属 性与对象值之间的一种映射关系。 • 例子:根据属性X1和X2对对象Y分类:Y=1超重,Y=2正常, X1 为饭量, X2为运动量。
Make Tree: Training
Root
B
B+T
B
B+T
B
B+T
Test and Use Tree: Testing Root B+T B+T B+T B+T B+T
T
B+T
我个人应用机器学习的一点经验
• 基于脉博信号的中医诊断数据模型 – 特征信息提取 – 数据展示(无监督学习) – 分类算法(有监督学习) – 软件演示 • 金融时间序列分析 – 问题的数学与统计表述 – 数据展示(无监督学习) – 分类算法(有监督学习) – 软件演示
• 统计学习基础:数据挖掘、推理与预测,黑斯蒂等,电子 工业出版社,2007 • “The elements of statistical learning – Data miming, inference and prediction” by Hastie, Tibshirani and Friedman, 2nd Edition, Springer,2009 • 机器学习导论(计算机科学丛书) Ethem Alpaydm, 机械 工业出版社 2009 • /teacher_1688.shtml • :83/videoinfo.asp?id=1727
最终特征参数
• 12个谐波的能量分布(%)及相位
bk bk 1 1 Ak a b , k arcsin , if ak 0; ( arcsin ), if ak 0. 2k Ak 2k Ak
2 k 2 k
• 脉数(心率)、脉位(周期起始值)和脉力(h1) • 时域参数t1,t4,h4/h1,t5,h5/h1 • 每个案例中,使用同一的脉数,但左右手、寸关尺 六部位上各取一个上述参数,共有6x32+1=193个 参数
优点:
• • 利用频域参数及心率可相当准确地复原脉图,从而可产生任何时域参数 比简单傅里叶变换更精确
缺点:参数的医学生物物理意义不明确
使用无创、方便、简易、便携的诊断方法将是各国医改成功的关键!
探测金融市场的变化趋势
• 经济学理论对市场有不同认识,如2013年诺贝尔经济奖。 • 我们的研究结果支持市场还是在一定程度上可预测的。普遍 运用的技术分析(Technical Analysis)方法是这一研究方向上 的前驱,正在兴起的量化方法(Quantitative Analysis)就是将 机器学习和数据挖掘的方法运用于金融大数据中的试尝。 James Simons的故事。 • 在本例中,我们运用PPT方法分析目标(价格波动的顶和底) 对属性(各种技术分析中使用的指标,如具有不同参数的滑动 平均MA,RSI,MACD,RSV,…,等等共54xK个,K为延迟)的关 系,从而预测金融市场价格波动的顶和底。
-3
模型中所用的12次谐波,拟合数据为这些谐波及上图中平均值之和
基波振幅
二次谐波相位
100 200 300 400 500 600
对划分后的周 期信号减去均 值后,根据它 的周期构造前 W(不超过12) 次谐波,用 DFT得到 Fourier系数。 由Fourier系数 即可构成单个 周期的模型。
-1.5 -2
中医诊脉方法简介
• 脉诊的起源可追溯到公元前七世纪之前。 “至今 天下言脉者,由扁鹊也。” 《史记》 • 遵循中医“人体是一个由经络相连的整体”以及天 人合一的观点,通过“师承授受”的教育模式, 逐步发展为以形象口诀(如盘走珠,如按葱管,…) 为特征的28脉理论。
从三部九候到独取寸口
BC300 AD200
机器学习仍旧需要假设,但它又时时对所做假设抱有怀疑态度, 在建模中就不断用数据检验,最终以是否符合新的数据为标准。
机器学习大观
机器帮我们学习
无监督学习
数据展示
我们教机器学习
有监督学习 数字信号处理 最小二乘,k近邻法 生物信息学 岭回归,Lasso
交叉验证,Bootstrap 树状图,AdaBoost 随机森林 计量经济学 神经元网络…… 回归与分类(classification)
机器学习
• 凡是从数据中自动分析获得规律,并利用规律对未知数据进行预测的 方法都在机器学习的研究范围中。 • 无论是获得规律,还是利用规律做预测,主要对象是随机现象,因此 统计方法是机器学习的主要工具。然而,作为交叉学科,与信息论, 计算机科学及它们衍生的应用学科都有关联;作为研究和使用规律的 学科,机器学习比这些应用学科研究对象(如数据挖掘)更广。 • 反过来,由于信息及计算机科学与应用方面的参与,机器学习也创造 了很多新方法,促进了统计的发展。
画图
聚类(cluster) 主元素分析 ……
……
增强学习 考虑效果与控制 规划
方法介绍1:最小二乘与K近邻法
• 最小二乘源于统计,是线性模型在高斯白噪声情况下均方误 差意义最优解,在很一般性质噪声情况下也有相容解。 • K近邻法源于工程,但广泛条件下它收敛于条件期望,后者 是最小均方误差意义下的最优估计。 • 两种方法均用于机器学习,优劣不可一概而论。一般而言, 最小二乘适用于简单问题, K近邻法适用于复杂问题。
PPT的规则
• Basic rule: Let PT be the PCA transform matrix of the TARGET data class, X be the total data, the accept region is the parallelgram:
R : Min T PT X MaxT
如何用机器学习方法来从无确定性基本规律的 现象中做科学的归纳和演绎?
基于脉博信号的中医诊断数据模型
• 对大量不同人群用脉诊仪对脉搏信号取样,数字化后输入 计算机 • 用计算机从脉搏信号中提取属性,包括脉数(脉搏跳动次 数)及左右手寸关尺六部的脉位、脉力、各谐波的能量和 相位等等,共193个参数 • 用我们开发的实现PPT算法的软件平台,从这些参数中提 取有用信息来判断是否是正常人?高血压?肝硬化?妊娠 ?等等。软件随机选取80%的样本建模,20%用于测试。
28脉及其像图、传感器及计算机系统、实验研究、临床研究
单个脉象周期的特征参数提取
单个周期的脉压信号(兰)、它的平均值(绿)及模型拟合(红) 0.025 0.024 0.023 0.022 0.021 0.02 100 200 300 400 500 600
均值
基波相位
x 10 2 1.5 1 0.5 二次谐波振幅 0 -0.5 -1
AD1400
AD1700
已有脉象数据分析方法:时间域