统计学原理( 相关分析)
《统计学原理》 刘鑫春
9
第七章第二节 相关图: 相关图又叫散布图或散点图,是利用直角坐 标第一象限,用横轴表示自变量,纵轴表示 因变量,将两变量对应的值用坐标点描绘出 来,据以研究两变量间有无相关关系,及相 关的形态,方向和密切程度。 利用EXCEL展示如何绘制散点图
《统计学原理》 刘鑫春
10
第七章第二节
《统计学原理》 刘鑫春 6
第七章第一节 二、相关关系的种类 根据自变量的多少划分,可分为单相关和复 相关 根据变量间相互关系的表现形式划分,直线 相关(或线性相关)和曲线(或非线性)相 关 根据相关关系的方向划分,可分为正相关和 负相关 根据相关关系的程度划分,可分为不相关、 完全相关和不完全相关
合计
2 3 25 38 87 129 91 24 1
4
2 3 3 8 24 30 12 20 42 28
3 2
6 16 28 45 20 10 125
7 14 25 12 10
合计
5
9
74
94
68
25
400
16
《统计学原理》 刘鑫春
第七章第二节 二、定量分析——测定与运用相关系数r 积差法: s xy 其中:r——相关系数 r s xy ——x和y的协方差 ss
统 计 学 原 理 第七章 相关分析
《统计学原理》 刘鑫春
1
法兰西斯· 高尔顿(Francis Galton,1822.2.16-1911.1.17.)
法兰西斯· 高尔顿是查尔斯· 达尔文的的表兄, 是一名英格兰维多利亚时代的文艺复兴人、 人类学家、优生学家、热带探险家、地理学 家、发明家、气象学家、统计学家、心理学 家和遗传学家。 高尔顿一生中发表了超过340篇的报告和书 籍,他在1909年被授与爵士。他在1883年率 先使用“优生学”(eugenics)一词。在他于1869年的著作 《遗传的天才》(Hereditary Genius)中,高尔顿主张人类的 才能是能够透过遗传延续的。 他在统计学方面也有贡献,高尔顿在1877年发表关于种子 的研究结果,指出回归到平均值(regression toward the mean)现象的存在,这个概念与现代统计学中的“回归”并不 相同,但是却是回归一词的起源。在此后的研究中,高尔顿第一 次使用了相关系数(correlation coefficient)的概念。他使用 字母“r”来表示相关系数,这个传统一直延续至今。同时他也发 表了关于指纹的论文和书籍,被认为对于现代利用指纹进行犯罪 搜查方面有很大的贡献。
2
拟合实际值,而且要满足
y yc 0
y y c 为最小。由最小平方原理,可得:
b
n xy x y n x 2 x 2
y b x y bx a
n n
24
《统计学原理》 刘鑫春
第七章 第三节
注意:回顾动态数列中长期趋势测定问题中用到的 最小平方法 在直线方程中,自变量为时间,因变量为各个时 间上对应的指标值,得到方程组:
《统计学原理》 刘鑫春 13
第七章第二节 分组相关表:当原始资料很多,运用简单相 关表存在困难时,一般将资料进行分组,然 后编制分组相关表 单变量分组表:对自变量进行分组,计算出 各组次数和因变量组平均数,并在此基础是 编制相关表。 双变量分组表:对自变量和因变量都进行分 组,对两变量的分组交叉形成棋盘表式,计 算棋盘表式中每一组的次数,将其填入表格。
《统计学原理》 刘鑫春 20
第七章 第三节
“回归的渊源” “回归”一词是英国生物学家高尔登首先提出 的。高尔登在研究父母亲身高和子女身高的关 系时发现:身材特别高的父母所生的孩子其身 材并非特别高,而身材特别矮的父母所生孩子 的身材也并非特别矮,子辈身高有向父辈平均 身高逼近的趋向,他把这种现象叫做“身高数 值从一极端至另一极端的回归”。以后,高尔 顿的学生皮尔逊把回归的概念同数学的方法联 系起来,把代表现象之间一般数量关系的统计 模型叫做回归直线或回归曲线,从此诞生了统 计上著名的回归理论。
• 皮尔逊的统计学的分析技术和方法,体现在其《统计学者和生物统计学者用 表》(1914)中,如频率分布、偏差度和峭度测量、轴线拟合、标准差检验、 相依系数、乘积动差相关系数r、类型的数学公式、双行、多重、多变元非线 性相关和概差偏差数,以及各种统计学的抽样分布等。他还发明了主要成分 分析,后由c.e.斯皮尔曼发展成心理统计学的因素分析。皮尔逊被称为统计 科学的奠基者。他把数学和统计学方法运用于生物问题,创建了生物统计学, 且与高尔顿共同确定了心理问题的统计法为心理学的基本方法之一。他对生 物、行为和社会科学的研究作出了较重的贡献。 3 《统计学原理》 刘鑫春
《统计学原理》 刘鑫春 14
第七章第二节
400个女大学生身高和体重相关表
按体重分组(千克) 人数(人) 62.5以上 60~62.5 57.5~60 55~57.5 52.5~55 50~52.5 47.5~50 45~47.5 45以下 2 3 25 38 87 129 91 24 1 每组平均身高(厘米) 170 167 163 162 160 158 155 154 151
《统计学原理》 刘鑫春 21
第七章 第三节 二、简单直线回归分析
简单直线回归分析的特点
在两个变量之间,必须确定哪个是自变量 X,哪个是因变量Y 回归方程的主要作用是用自变量来推算因 变量。 在两个现象互为根据的情况下,可以有两 个回归方程-Y倚X回归方程和X倚Y回归 方程。 22 《统计学原理》 刘鑫春
有8个企业生产某种产品,月产量和生产费用的资料如下:
企业编号 月产量(千吨)x 生产费用(万元)y 1 1.2 62 2 2.0 86 3 3.1 80 4 3.8 110 5 5.0 115 6 6.1 132 7 7.2 135 8 8.0 160
8个企业月产量和生产费用的散点图
生产费用(万 元)
第七章第一节 第一节 相关分析的意义和种类 一、相关关系的性质 相关关系的概念和特点 概念:相关关系是现象间客观存在的,但其 数值是不严格、不完全确定的相互依存关系。 注意:现象间可测定关系一般分为两种:一种 为函数关系,另一种为相关关系。相关关系 指现象之间客观存在但又不具有确定性的依 存关系。
合计
400
——
《统计学原理》 刘鑫春
关表
按身高分组(厘米) 按体重分 组(千克) 150 150~ 154~ 158~ 162~ 166~ 170及 158 162 166 170 以下 154 以上 62.5以上 60~62.5 57.5~60 55~57.5 52.5~55 50~52.5 47.5~50 45~47.5 45以下 2 3 8 8 4
《统计学原理》 刘鑫春 4
第七章第一节 特点: • 现象之间确实存在数量上的相互依存关系。 注意:在表现现象相互依存关系的两个变量之 中作为根据的变量叫做自变量,随自变量变 化发生对应变化的变量叫做因变量。 • 现象之间数量上不确定、不严格的依存关系。 注意:相关关系的全称为统计相关关系,相关 关系中一个变量虽然受另一个(或一组)变 量的影响,却并不由这一个(或一组)变量 完全确定。
200 150 100 50 0 0 2 4 6 产量(千吨)
《统计学原理》 刘鑫春
系列1
8
10
11
第七章第二节 相关表 是表现现象间相关关系的一种统计表。它一 般以x为自变量,以y为因变量,将自变量和 因变量的数值在表格中一一对应地排列,用 以初步反映相关关系的形式,密切程度和相 关方向。 简单相关表:对于未分组资料,直接将自变 量的数值按大小顺序排列,并配合其相对应 的因变量的数值所形成的相关表。
《统计学原理》 刘鑫春 5
第七章第一节 相关关系与函数关系的区别和联系 (教材312)
区别:函数关系是变量之间的一种严格、完全确定性 的关系,即一个变量的数值完全有另一个(或一组) 变量的数值所决定、控制。通常可以用数学公式确切 地表示出来。相关关系一般不是完全确定的,它很难 用数学公式去进行表达。 联系:函数关系在实际工作中往往通过相关关系表现 出来。当人们对某些现象内部规律有较深刻认识时, 相关关系可能变为函数关系。为此,在研究相关关系 时,又常常使用函数关系作为工具,用一定的函数关 系表现相关关系的数量联系。
《统计学原理》 刘鑫春 7
第七章第一节 三、相关分析的主要内容 揭示现象之间是否存在相关关系,以及相关 关系的表现形式。 确定现象变量间相关关系的密切程度和方向。 选择合适的数学模型 测定变量估计值的可靠程度 对计算出的相关系数,进行显著检验。
《统计学原理》 刘鑫春 8
第七章第二节 第二节 一、定性分析 定性分析是相关分析的起点,即研究者根据 自己的专业知识,理论水平,实践经验和逻 辑推断来分析和判断事物之间有无相关,是 何种相关。 简单线性相关分析
第七章 第三节
两种情况下的回归方程为:
y Y倚x回归方程:c
a bx
X倚y回归方程:xc
c dy
其中:a和c式两条直线的截距,b和d式两条直线 的回归系数。
《统计学原理》 刘鑫春
23
第七章 第三节 简单直线回归方程的确定
设y为实际值,yc为估计值,现在要用一条直线
yc a bx
y na b t
ty a t b t
《统计学原理》 刘鑫春 12
第七章第二节
产品产量和生产费用相关表
序号
1 2 3 4 5 6 7 8 合计
产品产量(千吨) x
1.2 2.0 3.1 3.8 5.0 6.1 7.2 8.0 36.4
生产费用(万元)y
62 86 80 110 115 132 135 160 880
从上表看出,产品产量和生产费用之间的关系虽然不十分严格, 但有直线相关的趋势,而且大致可以看出关系比较密切