2014—2015学年第一学期《定性数据》期末论文
题目不同年级与性别对奖助学金渴望度定性数据分析姓名常XX
学号20120623104
学院数学与统计学院
专业统计专业
2014年12月18 日
不同年级与性别对奖助学金渴望度定性数据分析
摘要:定性数据分析是数据分析的一个重要内容,它在实践中有着广泛的应用,如问卷调查、产品检验、医学统计等领域中经常用到列联表的定性数据分析来。
列联表的定性数据分析不
χ检验、似然比检验、相合性的度仅可以分析分类特征之间的相互依赖关系,还可以进行2
χ检量和检验、计算相关系数作相关分析也可以进行一致性与读了性的检验。
本文主要采用2验、似然比检验、相合性的度量和检验来对不同年级、不同性别的大学生对奖助学金渴望度的独立性、相合性检验,最终得到对奖助学金的渴望度与性别无关、与年级有关。
χ检验似然比检验相合性度量
关键词列联表2
一、问题简述
为了解高某校不同年级不同性别的大学生对奖助学的渴望程度,对某校大一年级、大二年级共80位同学关于奖助学金的调查,并取其中的年级、性别、渴望度三个指标生成列联表,对列联表做定性数据分析。
二、符号说明
2χ :卡方统计量 2ln -Λ:似然比统计量 U :统计量
p :概率
τ :相合性度量统计量
三、理论方法
理论:列联表一般来说,有二维的r c ⨯ 列联表,假设将n 个个体根据两个属性A 和B 进行分类,属性A 有r 类:1,
,r A A ,属性B 有c 类:1,,c B B 。
n 个个体中既属于i
A 类又属于j
B 类的有ij n 个。
得如下二维的r c ⨯列联表:
表一
其中,,i ij j
n n +=
,1,
,;i r = j i ij n n +=,1,,,i j i
j
j c n n n ++===。
如果n 个个体根据三个或三个以上的属性分类,就会有三维或三维以上的列联表,对于高维的列联表一般将其压缩为二维列联表在对数据进行统计分析或对高维列联表进行分层在检验。
方法:对二维表中的数据进行2
χ 检验、似然比检验、相合性的度量和检验。
四、数据的来源与数据处理
本数据的来自在2014年6月所做的 《关于奖助学金的问卷调查》,本问卷共发放80份,实际回收77份。
其中选年级、性别、渴望程度三个指标统计数据得如下的三维2
24⨯⨯ 的列联表:(其问卷和原始数据以及选出的三个指标的数据见附录)
表二
1、列联表的压缩
列联表的压缩即把高维列联表某一属性不同情况的数据合并在一起得到低维列联表德
⨯⨯列联表分别尔过程。
将表二中不同年级、不同性别的人数分别合并在一起,将三维224
压缩为如下的二维列联表。
表三
表四
2、列联表的分层
列联表的分层即将高维列联表按某一个属性分成几个低维列联表,把表二按年级将三维列联表分为两个二维列联表。
表五
表六
五、检验与分析
5.1、描述性统计
对表二中的渴望度数据作柱形图和饼图,分析各渴望度所占的多少和比率。
在柱形图和饼图中可以看出,在所以调查的学生中对奖助学金非常渴望的人最多,其次是一般渴望,再次是渴望,最后是无所谓,也就是说大学生都比较渴望得到奖助学金的。
5.2、压缩列联表的检验与分析
1、2χ检验和似然比检验
(1)假设
101:
j rj r p p H p p +
+
==
(属性相互独立)111:
j rj r p p H p p +
+
≠≠
(属性不独立)
(2)检验
当两个属性独立时,根据
11j rj
r p p p
p
+
+
==
可知个体在每一类中的概率ij p 由1,,r p p ++
和1,
c p p ++ 完全确定,所以二维列联表的独立性检验实际上是带参数时的分类数据检验。
其统计量是自由度为()()11r c -*-的2
χ 统计量(22
11
ij
i j i j
n n
n n
χ==+
+=
∑∑
),在水平α 下
2χ检验的拒绝域为2χ>2
211
ij
i j i j
n n
n n
χ==+
+=∑∑
也就是说,此时可认为独立性不成立,否则,
可认为独立性成立。
二维列联表的独立性检验的似然比检验的统计量为:
11
2ln 2ln(
)r c
i j
ij i j ij
n n n
n n
+
+==-Λ=-∑∑。
也可以计算p 来完成检验,p 值等于自由度为
()()11r c -*-的2χ变量大于等于2χ 统计量的值的概率,如果p α≥值则拒绝原假设,。