当前位置:
文档之家› 从数理统计到数据挖掘(课件)
从数理统计到数据挖掘(课件)
(2-1)
x x 显然, 当变化时,E(Y ) X x 是 的函数,记作
(x) E(Y ) X x
(2-2)
于是,可以用一个确定的函数关系式
yˆ (x)
(2-3)
第2章 从数理统计数据挖掘
回归分析
大致地描述Y与 X之间的相关关系,函数 (x)称为Y 关于 X的
回归函数,方程(2-3)称为 Y 关于X 的回归方程。回归方程反 映了Y 的数学期望E(Y)随X 的变化而变化的规律性。
第2章 从数理统计数据挖掘
2.1数理统计与数据挖掘的关系
数理统计和数据挖掘有着共同的目标,即发现数据中 的结构 。但数据挖掘不是数统计的分支 ,因为数据挖掘 还应用了其它领域的思想、工具和方法,尤其是计算机学 科,例如数据库技术和机器学习,而且它所关注的某些领 域和统计学家所关注的有很大不同。因而需要逐个考察这 两门学科的性质,区分它们的异同,并关注与数据挖掘相 关联的一些难题。
第2章 从数理统计数据挖掘
2.3回归分析的基本概念
变量之间的关系可分为两类:一类是确定性的关系,也 就是通常所说的函数关系;另一类是非确定性的关系,变 量之间的这种非确定性关系称为相关关系。
设有两个变量X和Y,其中X是可以精确测量或控制的 非随机变量,而Y是随机变量,X的变化将使Y发生相应的 变化,但它们之间的变化关系是不确定的,若当X取得任 一可能值x时,Y相应地服从一定的概率分布,则称随机变 量X与变量Y之间存在相关关系。
第2章 从数理统计数据挖掘
2.1.1数理统计的性质
试图为数理统计下一个太宽泛的定义是没有意义的, 数理统计是一门比较保守的学科,目前有一种趋势是越来 越精确 。数学背景和追求精确加强了这样一个趋势,即在 采用一个方法之前先要证明,而不是象计算机科学和机器 学习那样注重经验 。
第2章 从数理统计数据挖掘
2.1.2数据挖掘的性质
计算机使得传统统计模型的视野大大地扩展 了,还促进了新工具的飞速发展 。数理统计很少 会关注实时分析,然而数据挖掘问题常常需要这 些 ,数据挖掘者也不可持完全非统计的观点,尽 管数理统计主要关注的是分析定量数据,数据挖 掘的多来源意味着还需要处理其它形式的数据。 特别地,逻辑数据越来越多。
第2章 从数理统计到数据挖掘
•2.1数理统计与数据挖掘的的结合 •2.7多元线性回归分析
•2.3回归分析的基本概念
•2.8一般情况下的回归分析
•2.4线性回归方程
•2.9逐步回归分析的软件设计
•2.5线性相关的显著性检验
•2.10锻模设计准则的制定
第2章 从数理统计数据挖掘
回归分析
设进行次独立的试验,测得试验数据如下表
X
x1 x2 …
xn
Y
y1
y2 …
yn
其中 xi及 yi (i 1,2,, n)分别是变量X与随机变量Y在第i次试验中的观测值。
取X=x时随机变量Y的数学期望时 E(Y ) X x的估计值,即
yˆ Yˆ X x E(Y ) X x
程
yˆ a bx
大致地描述变量 Y 与 X 之间的关系。设随机变量
Y ~ N (a bx, 2 )
按最小二乘法确定未知参数a 及 b 时,有偏差平方和
n
S yi a bx2
为了使S取得最小值,分别i求1 S 对a 及b 的偏导数,并令它们等于零,
得方程组
n
i 1 n
( yi
a
bxi )
第2章 从数理统计数据挖掘
2.2数理统计与数据库技术的结合
数据挖掘技术从一开始就是面向应用的,它不仅是面向特定 数据库的简单检索查询调用,而且要对这些数据进行微观及宏观 的统计、分析、综合和推理,用以指导实际问题的求解,力图发 现事物间的相互联系,甚至可利用已有的数据对未来的活动进行 预测。
数理统计是数学中最重要、最活跃的学科之一,然而它和数据 库技术结合得并不算快,但一旦有了从数据查询到知识发现、从 数据演绎到数据挖掘的要求,则数理统计就会获得新的生命力。 数理统计作为数据挖掘的3个主要支柱之一,有许多寻找变量之 间规律性的方法,而回归分析方法是其中最有效的方法之一。
第2章 从数理统计数据挖掘
2.1.3 从数理统计到数据挖掘
数据挖掘有时候不是一次性的实验,尽管数据集是确 定的,它更应该被看作是一个不断迭代的过程。从一个角 度检查数据可以解释结果,以相关的观点检查可能会更接 近规律。关键是,极少情形会知道哪一类模式是有意义的。 数据挖掘的本质是发现非预期的模式-同样非预期的模式 要以非预期的方法来发现。
0
i1
( yi
a bxi )xi
0
第2章 从数理统计数据挖掘
线性回归方程
整理得 解方程组得
na
n
xi b
n
yi
i1
i 1
n i 1
xi a
n i 1
xi2 b
n i 1
xi yi
aˆ y bˆx
bˆ
lxy lxx
上式中
x
1 n
n i 1
xi
1 n
y n i1 yi
在确定了函数 (x) 的类型后,就可以设
(x) (x; a1, a2 ,, ak )
其中 a1, a2 ,, ak为未知参数。于是,上述问题就归结为:
如何根据试验数据合理地选择参数的估计值 aˆ1, aˆ2 ,, aˆk
使方程
yˆ (x; aˆ1, aˆ2 ,, aˆk )
在一定的意义下“最佳地”表现Y X与 之间的相关关系。
第2章 从数理统计数据挖掘
从数理统计到数据挖掘
数据挖掘不能替代传统的统计分析技术,相反,它是统计分 析方法学的延伸和扩展。数据挖掘算法有些本来就是统计的方法 ,数据挖掘仍然是计算机行业的一个方向,而不是广义统计的一 部分。同时,对于数据挖掘算法中来自机器学习和人工智能的一 部分,其核心是规则,而规则内部的获得机制虽然是基于数理统 计的,但是这种技术本身已经不属于统计了。
解决上述问题的方法,可以利用最小二乘法。
第2章 从数理统计数据挖掘
2.4线性回归方程
为了便于确定回归函数(x) 中未知参数的值,首先讨论变量X与Y
之间存在线性相关关系的情形。
设变量Y与 X之间存在线性相关关系,则由试验数据得到的点
(xi , yi )(i 1,2,, n) 将散布在某一直线周围。于是,可以用线性方
n
lxx