多元统计分析绪论
峰度:频数分布曲线高峰的形态,即反映分布曲线的尖峭 程度的测度。
当β=0 时,表示分布的峰度是正态分布的峰度; 当β>0 时,表示分布曲线的高峰是尖顶高峰; 当β<0时,表示分布曲线的高峰是平顶高峰。
例2:见Data1数据,利用SPSS计算极差、峰度等。
三、数据预处理
数据质量的含义:正确性、一致性、完整性、可靠性。
外语 93 96 81 88 72 82 88 83 60 90 43 50
数学 100
99 96 99 96 75 97 68 76 62 67 34
物理 100 97 100 96 78 97 89 88 84 39 78 37
12个学生学习成绩的轮廓图
100
政治
语文
外语
数学
物理
雷达图
政治
语文
统计判别法:
(1)拉依达准则 (2)肖维勒准则 (3)格拉布斯准则 (4)狄克逊准则 (5) t检验(罗马诺夫斯基准则) (6)极差法
拉依达准则(3σ准则)
p( x u 3 ) 0.003
根据上式对于大于μ+3σ或小于μ-3σ的实验数据作为 异常数据,予以剔除。
次数 1
2
3
4
5
6
7
f1(t)
99 2
94sint 93cos t 100sin2t 100cos2t
( t )
调和曲线图
f2
f1
f11
f12
最为浪漫的可能是脸谱图.它把多元数据表示成一张脸 谱图.脸的轮廓由上下两个椭圆构成.这些椭圆的长短轴及 离心率等均由多元数据中某些变量来刻画.另一些变量决定 鼻子长度, 嘴的位置及圆弧的长度与向上还是向下,眼晴的 大小,眼珠的位置,眉毛的角度等. 如果变量很多,脸谱可 以刻划得细致些,变量不多,则把一部分器官形态固定,只让 另一部分器官变化.在实际应用中,脸谱图也有发展,如在脸 谱些变量来决定体型的胖瘦,
4.多元数据的统计推断 参数估计和假设检验问题.特别是多元正态分布的 均值向量和协差阵的估计和假设检验等问题。
5.多元统计分析的理论基础 包括多维随机向量及多维正态随机向量,及由此定 义的各种多元统计量,推导它们的分布并研究其性质 ,研究它们的抽样分布理论。这些不仅是统计估计和 假设检验的基础,也是多元统计分析的理论基础。
多元统计分析绪论
一、概述 二、数据 三、数据预处理
一、概述
多元统计分析是统计学的一个重要分支.它是应用 数理统计学来研究多变量(多指标)问题的理论和方法 ; 它是一元统计学的推广和发展.
▪ 一元统计分析: 研究一个随机变量统计规律的学科 ▪ 多元统计分析: 研究多个随机变量之间相互依赖关
系以及内在统计规律性的统计学科。 ▪ 利用多元分析还可以对研究对象进行分类和简化。
8
9 10
L(cm) 10.35 10.38 10.3 10.32 10.35 10.33 10.37 10.31 10.34 20.33
L 11.34
10
(Li L)2
i 1
101
3.16cm
3 3.163 9.48cm
格拉布斯准则
格拉布斯准则是在未知总体标准差情况下,对正 态样本或接近正态样本异常值的一种判别方法。
▪ 这种方法却有很大的局限性。它是以减少样本量来换 取信息的完备,会造成资源的大量浪费,丢弃了大量 隐藏在这些对象中的信息。当缺失数据所占比例较大, 特别是当缺数据非随机分布时,这种方法可能导致数 据发生偏离,从而得出错误的结论。
(2)补缺
A. 用平均值来代替所有缺失数据 B. K -最近距离邻居法:先根据欧式距离或相关分析 来确定距离具有缺失数据样本最近的K个样本,将这 K个值加权平均来估计该样本的缺失数据。 C.用预测模型来预测每一个缺失数据:该方法最大限 度地利用已知的相关数据,是比较流行的缺失数据处 理技术。
血压、脉搏、白血球、体温等.
多元分析以p个变量(指标)n次观测数据组成数据矩阵
x11 x12 … x1p X= x21 x22 … x2p
…. …. …. ….
xn1 xn2 … xnp
根据实际问题的需要,给出各种方法。
英国著名统计学家M.肯德尔(M.G.Kendall)在 《多元分析》一书中把多元分析所研究的内容和方法 概括为以下几个方面:
3.变量间的相互联系
(1) 相互依赖关系:分析一个或几个变量的变化是否 依赖于另一些变量的变化?如果是,建立变量间的定量 关系式,并用于预测或控制---回归分析.
(2) 变量间的相互关系: 分析两组变量间的相互关系 ---典型相关分析等. (3)两组变量间的相互依赖关系---偏最小二乘回归 分析.
常用二维数据的图形:轮廓图(折线图)、雷达图 (蜘蛛网)、调和曲线图、散布图矩阵(散点图)、 星座图、脸谱图、装饰图。
12个学生学习成绩
序号 1 2 3 4 5 6 7 8 9 10 11 12
政治 99 99 100 93 100 90 75 93 87 95 76 85
语文 94 88 98 88 91 78 73 84 73 82 72 75
1. 简化数据结构(降维问题) 通过变量变换等方法使相互依赖的变量变成互不相 关的;或把高维空间的数据投影到低维空间,使问题 得到简化而损失的信息又不太多.主成分分析,因子分 析,对应分析等多元统计方法就是这样的一类方法。
2.分类与判别(归类问题) 对所考查的对象(样品点或变量)按相似程度进行分 类(或归类)。聚类分析和判别分析等方法是解决这 类问题的统计方法。
✓成本型(逆向)指标(越小越好)。
1 向量归一化法
x11
X
x2 1
x12 x22
x1n
x2
n
在决策矩阵中,令
xm1
xm2
xmn
yij
xij
m
,(1 i m,1 j n)
▪
f0
xn xn1 或 xn x1
x2 x1 xn x1
▪ 根据狄克逊系数表将f0与f (n, α)进行比较
▪ 如果f0 > f (n,α),说明x(n)离群远,则判定该
数据为异常数据,予以剔除。
3.数据标准化
将不同量纲通过变换,变为无量纲的标准化指标。
指标一般分为两类: ✓效益型(正向)指标(越大越好)
累积频数(频率)分布表
2.数据的图形描述
在平面直角坐标系上,将分组标志作为横轴并将各组频数或 频率作为纵轴,给出各组的长方形图即直方图。与直方图相似作 用的图示是折线图,它以各组标志值中点位置作为该组标志的代 表值,然后用折线将各组频数连接起来,开成了折线图。
某车间工人日加工零件数分布图
统计曲线在统计学中很重要,是描绘各种分布规律的有 效方法。常见的频数分布曲线有正态分布曲线、偏态分布 曲线、J 型分布曲线和 U型分布曲线等。
T xn x
查表得到 T0 (n, ) ,若 T T0 (n, ) 则所怀疑
的数据是异常数据,应予剔除。
狄克逊准则
狄克逊准则,也称Q检验法,是通过极差比判定 和剔除异常数据。
▪ 将实验数据xi按值的大小排成顺序统计量 ▪ x(1),≤x(2),≤ x(3),……≤x(n)
▪ 计算f0值
总体方差
样本方差
(3)偏度与峰度 仅了解分布的集中趋势和离散程度是不够的,
还需要了解分布是否对称和集中趋势高低等特征。 偏度和峰度就是对分布的进一步描述。
偏度:反映频数分布偏态方向和程度的测度。分左偏和右 偏两种。
当α=0 时,表示分布是正态的或对称的; 当 α>0 时,表示右偏或正偏; 当α<0 时,表示左偏或负偏。 α越接近于 0,表示分布偏斜程度越小。
A:人的身高、体重、智商
B:人均收入分配的曲线就 是正偏曲线
C:供给曲线是正 J 形曲线, 需求曲线是反 J 形曲线
D:人和动物的死亡率
例1:见Data1数据,利用SPSS做直方图和折线图。
图形有助于对所研究的数据的直观了解,主要利用 二维数据的图形,定性地了解数据规律及指标间关系, 最终为定量方法提供思路。
3.数据的统计描述
作为统计数据的代表值,一个是分布的中心,反映分布的 集中趋势,另一个是分布的形状,反映分布的离散程度。
(1)分布的中心
定义分布的中心有许多不同的方式。这里介绍 三种最常用的,即众数、 中位数和平均数。
众数:一个分布的众数就定义为频数出现最多的变量值。 在正态分布和一般的偏态分布中,分布曲线最高点所对应 的数值即是众数。如果没有明显的最高点,众数可以不存 在。当然,如果有两个最高点,也可以有两个众数。
在工业、农业、医学、气象、环境以及经济、管理 等诸多领域中,常常需要同时观测多个指标.
Ex1.要衡量一个地区的经济发展,需观测的有:
总产值、利润、效益、劳动生产率、固定资 产、流动资金周转率、物价、税收等.
Ex2.要了解一种岩石,需观测:
颜色、硬度、含碳量、含硫量等.
Ex3.判断某人是否患病,需观测:
1.数据的整理 收集统计数据之后,要对获取的数据进行系统化、
条理化地整理,以提取有用的信息。
某班学生按考试成绩分组
某车间工人每天加工某种零件件数
表示各组的单位的次数称为频数,各组次数与总 次数之比称为频率。
频数(频率)分布表
为了统计分析的需要,有时要观察某一数值以上或 某一数值以下频数或频率之和,这就需要绘出累积频 数或累计频率。
缺失数据处理方法:(1)丢弃含缺失数据的记录 (2)补缺
(1)丢弃含缺失数据的记录
▪ 最常见、最简单的处理缺失数据的方法,也是很多统 计软件(如SPSS)默认的缺失值处理方法。