当前位置:文档之家› 分析数据间的相关性

分析数据间的相关性


(1)若所有点落在一条直线上,说明数据间是线性相关,
是函数关系,不是统计关系。 (2)所有点杂乱无章,从形态上看不出任何特征和规律, 表明数据间不相关 (3)图形点大致呈某种曲线形态,表明数据间存在非线 性相关 (4)所有点大致落在一条直线周围,表明数据间有线性 相关性。
实践
1999年31个省市自治区个人购买商品住房住宅面 积与商品住宅销售额的数据,现要求利用散点图法
分析个人购买商品住房住宅面积与商品住宅销售额
之间的相关性。
(2)数值分析法
图形能够直观展现数据间的相关关系,但并不精确。 简单相关系数通过数字准确描述数据间线性相关的方 向和强弱程度。
简单相关系数
简单相关系数取值范围[-1,1]
简单相关系数>0,表示两个数据正线性相关


实践
给定的性别与受教育程度数据进行相关性分
析,做出他们的列联表。
请进行分析,并得出结论
列联表示例
获不获得学分与性别是有关系的,男生获得学分的可能更大一些
列联表示例
公共选修课 男 获得 未获得 30 30 女 10 10 合计 40 40
获得 未获得 专业选修课

5 15

10 30
(2)品质型数据相关的可靠性检验
卡方分析的主要步骤:
(1)首先提出两总体是否相关的假设,通常假设行变量总 体与列变量总体不相关。 (2)计算差距。计算目前列联表中的频数数据所呈现的实 际相关性与行列变量总体不相关之间的差距有多少 (3)决策。若差距足够小,则当前的假设成立。若差距较 大,说明提出的假设是站不住脚的。 统计中,通常的把握程度为0.95,0.90,0.99
第四章 分析数据间的相关性
世间万物总是存在不同程度的联系 函数关系 统计关系
例:正方形体积与边长,年龄与身高,父 母身高与孩子身高,身高与体重,考试成 绩与学习时间,学历与收入,收入与幸福 感,物品价格与质量
线性相关
Y 正线性相关 负线性相关
X
非线性相关
Y
X
4.2两数值型数据间的相关性
(1)图形分析法
900
800
复式柱形图是柱形图
的扩展,主要用于对
700 600 500 400 300 女 男
事物两个或多个特征
的分类对比。
200 100 0 本科 硕士 双学位 博士 合计
**实践
(2)数值分析法---列联表
在该图基础上进一步计算一些简单的百分比。 **分别按行与按列对上表进行分析。
(1)图形分析法
散点图是统计关系分析中最常用的图形工具,它将数 据以点的形式画在直角平面上,它将一组数据作为纵轴, 将另一组数据作为纵轴,事物对象的每个个体以点的形 式出现。
5000000 4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000 500000 0 0 500 1000 1500
相关系数的差距
r n 2 1 r2
0.95把握度下的差距 TINV函数:TINV(probability,degrees_freedom), probability为1-把握程度; degrees_freedom为n-1
实践
个人购买商品住在面积与商品住宅销售额之间的相关性
进行可靠性检验。 1)求差距 2)求95%决策标准 3)求99%决策标准 4)比较与结论
合计
15 45
合计
60
20
80
合计
20
40
60
获不获得学分与性别是不相关的???
4.4 相关的可靠性检验
总体与样本
常常存在这样的情况,我们所观察的只是部分或有限的个
体,而需要判断的总体对象范围却是大量的,甚至是无限的。
比如说为了考察某公司生产的一批电脑芯片的质量,需要了解 芯片使用寿命这一指标。我们关心的是这一整批芯片的质量,
(1)假设性别与高等教育程度无关,得到期望频数区域。
(2)利用Chitest函数,求得chitest (实际频数,期望频数)
的值,该值代表假设成立的概率。
(3)若该概率为小概率事件,则认为假设不成立,反之,
则成立。
实践
实验内容 (一)随机抽取由10名大学生组成的样本,研究他们在高
但由于各种原因,只能抽取其中的一小部分进行测试。这时,
这一整批芯片的质量和被抽取出来的那一部分的质量就构成了 “整体”和“部分”的关系了。
可靠性研究的就是分析样本数据所体现的相关或 不相关在总体数据间是否依然存在
假设检验的基本原理
显著性水平

显著性水平α是当原假设正确却被拒绝的概率
通常人们取0.05或0.01
1999年31个省市自治区个人购买商品住房住宅面 积与商品住宅销售额的数据,现要求函数和“数据
分析”命令分析个人购买商品住房住宅面积与商品
住宅销售额之间的相关性。 思考:是否容易受到极端值的影响? “练习”sheet中求两组的相关性
4.3两品质数据间的相关性
分析性别跟职称是否相关?学历与收入是否相关?


这表明,当做出接受原假设的决定时,其正确的
可能性(概率)为95%或99%
(1)数值型数据相关的可靠性检验
数值型数据相关的可靠性检验步骤如下:
(1)首先提出两总体是否相关的假设,通常假设是两总体 不相关。 (2)计算差距。计算当前相关系数与所提假设成立之间的 差距。 (3)决策。若差距足够小,则当前的假设成立。若差距较 大,说明提出的假设是站不住脚的。 统计中国,通常的把握程度为0.95,0.90,0.99
简单相关系数<0,表示两个数据负线性相关
简单相关系数=0,表示两个数据不存在线性相关 简单相关系数>0.8,表示两个数据相关性很强 简单相关系数<0.3,表示两个数据相关性较弱
求简单相关系数的方法:
(1)简单相关系数可通过函数Correl或Pearson实现 (2)“数据分析”中相关系数命令
实践
计算差距

2

f
0
元格中的实际频数 为列联表每个单元格中的期望频数
实践
对性别与受高等教育程度之间的相关性进行可靠 性检验。 方法一:利用卡方分析 1)计算 f e 2 2)计算 3)计算 CHIINV 4)比较及结论
方法二:利用Chitest函数
相关主题