当前位置：文档之家› 统计学相关分析.ppt

统计学相关分析.ppt

F Yj f1jf2j fij fcj fij i1
cr
F X1F X2 F Xi F Xc
fijn
i1j1
cr
F X1F X2 F Xi F Xc
fijn
i1j1
11.11.2020
12
条件频数表中各频数因基数不同不便作直接比较，因此有必要将频数化成相对频数，使基数标准化。这样，我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是r×c相对频数分布列联表的一般形式。
11.11.2020
9
r×c频数分布列联表的一般形式
11.11.2020
10
自己志愿
快乐家庭理想工作增广见闻
总数
知心朋友志愿
快乐家理想工增广见
庭
作
闻
28
9
3
2
41
7
2
4
4
32
54
14
总数
40 50 10 100
11.11.2020
11
两个边际分布：
r
FXi fi1fi2 fij fir fij j1 c
由于数学手段的局限性，我们以学习线性相关为主。在统计学中，通过分段处理线性相关也可以用于处理曲线相关。
11.11.2020
6
第二节定类变量的相关分析
本节内容： 1、列联表 2、削减误差比例 3、λ系数 4、τ系数
11.11.2020
7
1. 列联表
列联表，是按品质标志把两个变量的频数分布进行交互分类，由于表内的每一个频数都需同时满足两个变量的要求，所以列联表又称条件频数表。
变量和因变量，或者说自变量和因变量可以根据研究目的任意选定，例如身高和体重之间的关系。
11.11.2020
5
4. 单相关和复相关从变量的多少上看，单相关只涉及两个变量，亦称二元
相关；三个或三个以上变量之间的关系称为复相关，亦称多元相关。五、直线相关和曲线相关
从变量变化的形式上看，如果关系近似地表现为一条直线，称为直线相关或线性相关；如果关系近似地表现为一条曲线，则称为曲线相关或称为非线性相关。
11.11.2020
2
第一节变量之间的相互关系
1. 相关程度完全相关，指变量之间为函数关系；完全不相关指变
量之间不存在任何依存关系，彼此独立。不完全相关介于两者之间。不完全相关是本章讨论的重点。
由于数学手段上的局限性，统计学探讨的最多的是定距—定距变量间能近似地表现为一条直线的线性相关。在
11.11.202013×c相对频数分布列联表的一般形式
11.11.2020
14
在相对频数分布列联表中，各数据为各分类
出现的相对频数(或者频率)。将频数
f
化成相对
ij
频数 p ij 有两种做法：
①相对频数联合分布
pij
f ij n
两个边际分布 F X i 或
FYj
n
n
②相对频数条件分布
p ij
f ij 或 FX i
p ij
f ij FYj
11.11.2020
15
r×c相对频数联合分布列联表
11.11.2020
16
控制X，Y相对频数条件分布列联表
11.11.2020
17
控制Y，X相对频数条件分布列联表
11.11.2020
18
[例A1]试把下表所示的频数分布列联表，转化为自变量受到控制的相对频数条件分布列联表，并加以相关分析。
统计中，对于线性相关，采用相关系数（记作r）这一指标来量度相关关系程度或强度。就线性相关来说，当r ＝l 时，表示为完全相关；当r =0时，表现为无相关或零相关；当0< r <1时，表现为不完全相关。
11.11.2020
3
2. 相关方向：正相关和负相关所谓正相关关系是指一个变量的值增加时，另一变
第二章相关分析
第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析
11.11.2020
1
社会上，许多现象之间也都有相互联系，例如：身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中，它们之间联系的程度和性质也各不相同。
投票行为
受教育程度X
Y
大学以大学以
FY
上
下
投票
160
129
289
弃权
7
61
68
合计：FX
167
190
357
11.11.2020
19
投票行为Y
投票弃权
r
j 1
受教育程度X
大学以上
大学以下
95.8%(160/167) 4.2%(7/167)
100.0% (167))
67.9%(129/190)
32.1%(61/190)
11.11.2020
4
3. 因果关系与对称关系因果关系中两个变量有自变量（independent
Variable)和因变量(dependent Variable)之分：（1）两个变量有共变关系；（2）因变量的变化是由自变量的变化引起的；（3）两个变量的产生和变化有明确的时间顺序，前者
称为自变量，后者称为因变量。表现为对称关系的相关关系，互为根据，不能区分自
本书第十章提出了两总体的检验及估计的问题，这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是，客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去，不仅要对相关关系的存在给出判断，更要对相关关系的强度给出测量，同时要披露两变量间的因果联系，其内容分为相关分析和回归分析这两个大的方面。
例如，某区调查了357名选民，考察受教育程度与投票行为之间的关系，将所得资料作成下表，便是一种关于频数的列联表。
11.11.2020
8
2×2频数分布列联表的一般形式
习惯上把因变量Y放在表侧，把自变量X放在表头。 2×2列联表是最简单的交互分类表。 r×c列联表 r(row)、c(column)
量的值也增加。例如，受教育水平越高找到高薪水工作的机会也越大。而负相关关系是指一个变量的值增加时，另一变量的值却减少。例如，受教育水平越高，理想子女数目越少。要强调的是，只有定序以上测量层次的变量才分析相关方向，因为只有这些变量的值有高低或多少之分。至于定类变量，由于变量的值并无大小、高低之分，故定类变量与其他变量相关时就没有正负方向了。
100.0%
Fy n
(190)
FY n
81.0%(289/357) 19.0%(68/357)
100.0% (357)
从上表可知，受过大学以上教育的被调查者绝大多
数（占95.8%）是投票的，受教育程度在大学以下的被调查者虽多数也参与投票（占67.9%）,但后者参与投票的百分比远小于前者；前者只有4.2%弃权，而后者则有32.1% 弃权。两相比较可知，受教育程度不同，参与投票的行

e商务文档

统计学相关分析.ppt

相关文档推荐：

e商务文档

统计学 相关分析.ppt

相关文档推荐：

统计学相关分析.ppt