数据挖掘中的统计学
2013-06-02 Sunday
27
即可解得系数a、b。
2013-06-02 Sunday
28
2013-06-02 Sunday
29
概率分布 集中趋势
离散程度
分布形态
2013-06-02 Sunday
30
Probability Theory:概率论 Mathematical Statistics:数理统计 Sample Space:样本空间 Random Occurrence:随机事件 Fundamental event:基本事件 Certain event :必然事件 Impossible event :不可能事件 Random Variable:随机变量 Discrete Random Variable:离散型 Continuous Random Variable:连续型 Bayes’s Formula:贝叶斯公式 Probability Distribution:概率分布 Distribution Function:分布函数 Distribution Law:分布律 Probability Density:概率密度 Conditional Distribution:条件分布
• 连续型随机 变量 • 概率论总结
• 相关系数
• 主成分分析 • 中心极限定 理 • χ2分布、t分 布、F分布
• 分布形态
2013-06-02 Sunday
2
条件概率
全概率 贝叶斯公式 离散型随机变量 连续型随机变量
概率论总结
2013-06-02 Sunday
3
定义:
在同一个样本空间Ω中的事件A、B,如果从Ω中随机选出的一个元素 属于B,那么这个随机选出的元素也属于A的概率就定义为B条件下A发生 的条件概率,即为 分子、分母同除以|Ω|,得到条件概率的公式: 亦称为后验概率。
18
2013-06-02 Sunday
19
又称主分量分析,PCA
• 指将多个变量通过线性变换以选出较少个数重要变量的方法,在减少数据
集维数的同时,保持数据集的对方差贡献最大的特征。 PCA的目的是使变 换后的数据有最大的方差,这些性质不同于普通模型为求稳定性往往会减 小方差; • 主要方法:对协方差矩阵进行特征分解,得出数据的主成分(特征向量)和 权值(特征值) • 步骤:
12
图片来源:《概率论与数理统计》盛骤版
2013-06-02 Sunday
13
数学期望 方差 协方差
相关系数
主成分分析 中心极限定理 χ2分布、t分布、F分布
2013-06-02 Sunday
14
随机变量X的期望值vs样本均值
• 积分的本质亦是求和
• 例:掷色子一次,期望值为3.5
2013-06-02 Sunday
17
而实际上,上述数据的函数关系为y=0.10+0.01x;E(x)=3.8, E(y)=0.138,x-E(x)、y-E(y)得x= (−2.8, −1.8, −0.8, 1.2, 4.2)、 y=(−0.028, −0.018, −0.008, 0.012, 0.042),得
皮尔逊相关系数
2013-06-02 Sunday
• 某药厂用从甲、乙、丙三地收购而来的药材加工生产出一种中成药,三地
的供货量分别占40%,35%和25%,且用这三地的药材能生产出优等品的 概率分别为0.65,0.70和0.85,求从该厂产品中任意取出一件成品是优等 品的概率。(0.7175)
逆概率是由结果推原因(现在推过去),称为数理统计
如果一件产品是优质品,它的材料来自甲地的概率有多大呢?(0.3624)
• 若序列满足李雅普若夫条件:
2013-06-02 Sunday
24
在正态分布、中心极限定理确立乊下,20世纪后χ2分布、t分布、F分布也出现了
2013-06-02 Sunday
25
正态分布简史 误差计算
2013-06-02 Sunday
26
17世纪,惠更斯(1629-1695)研究赌博时创立数学期望; 18世纪,伯努利(1667-1748)伯努利大数定律:事件发生 的频率依概率收敛于事件的概率;1909年由伯莱尔证明; 18世纪,棣莫弗(1667-1754)二项概率逼近:用二项分布 逼近正态分布,并提出了中心极限定理; 18世纪,拉普拉斯(1749-1827)建立了中心极限定理的一 般形式; 19世纪,勒让德(1752-1833)发明最小二乘法; 19世纪,高斯(1777-1855)正态误差理论(以下有详解); 19世纪,拉普拉斯在高斯研究的基础上,用中心极限定理 论证了正态分布(高斯分布); 19世纪,海根提出元误差学说,逐步正式确立误差服从正 态分布。
2013-06-02 Sunday
7
2013-06-02 Sunday
8
2013-06-02 Sunday
9
2013-06-02 Sunday
10
图片来源:《大嘴巴漫谈数据挖掘》
2013-06-02 Sunday
11
图片来源:《概率论与数理统计》盛骤版
2013-06-02 Sunday
35
Q&A
2013-06-02 Sunday
36
1. 2. 3. 4. 5. 数据标准化; 求特征协方差矩阵; 通过正交变换使非对角线的元素为0,求得特征值和特征向量; 对特征值降序排列,取最大k个组成特征向量矩阵; 投影矩阵=原始样本数据×特征向量矩阵;(理论依据为SVD)
2013-06-02 Sunday
20
独立变 量和
2013-06-02 Sunday
21
独立同分 布变量和
2013-06-02 Sunday
22
独立同 分布
项分布是离散分布,正态分布是连续分布 • n重伯努利试验在出现第r个A前A不出现的试验 次数的概率分布为负二项分布,又称帕斯卡分 布。
2013-06-02 Sunday
• 此定理表明:二项分布的极限是正态分布;二
23
独立变 量
15
方差:变量距其期望值的距离;亦称为二阶矩
D( X ) Var ( X ) E X E X
2
EX
2
EX
2
2013-06-02 Sunday
16
协方差矩阵
• 两个向量的协方
差cov(X,Y)和 cov(Y,X)互为转 置矩阵
2013-06-02 Sunday
Uniformly Distribution:均匀分布 Binomial Distribution:二项分布 Bernoulli Distribution:伯努利分布 Geometric Distribution:几何分布 Poisson Distribution:泊松分布 Exponentital Distribution:指数分布 Mathematical Expectation:数学期望 Variance:方差 Covariance:协方差 Correlation Coefficient:相关系数 Normal Distribution:正态分布 Central Limit Therem:中心极限定理 Chebyshev’s Inequality:切比雪夫不等 式 Principal Component Analysis:主成 分分析
参考资料: Wiki:统计学 研究者July的CSDN
蜗牛向前冲 2013年6月2日星期日
概率论 • 条件概率 • 全概率 • 贝叶斯公式
数理统计 • 数学期望 • 方差 • 协方差
正态分布简史 • 正态分布简 史 • 误差计算
中英文对照 • 概率分布 • 集中趋势 • 离散程度
• 离散型随机 变量
2013-06-02 Sunday
31
2013-06-02 Sunday
32
Range:全距,最大值与最小值的差值(ω) Standard Deviation:标准差(σ)
总体的标准差(σ) :
2013-06-02 Sunday
33
2013-06-02 Sunday
34
2013-06-02 Sunday
P(A|B)=|A∩B|/|B|
P(A|B)=P(A∩B)/P(B)
P(A|B)与P(B|A)的关系为:
P(A|B)×P(B)= P(B|A)×P(A)
2013-06-02 Sunday
4
2013-06-02 Sunday
5
2013-06-02 Sunday
),称为概率论