第一章绪论1.描述统计(descriptive statistics)主要研究如何将实验或调查得到的大量数据进行图表整理或简缩成有代表性的数字(即统计量数),使其能客观、全面地反映这组数据的全貌,将其所提供的信息充分显现出来,为进一步统计分析和推论提供可能。
2.描述统计只限于对试验样本所得观测数据的统计分析,不考察其总体的特性。
3.推论统计(inferential statistics)是以描述统计为基础,从而解决由局部到全体的推论问题,即通过对一组统计量的计算分析,推论该组数据所代表的总体特性。
4.变量(variables):一个可以取不同数值的物体属性/事件。
5.事前无法预期结果的变量——随机变量6.观测值(原始取值):事后测定的某一结果。
7.概念理解:[涉及“实验”] 自变量(及其各水平)& 因变量(及相应的反应指标);[涉及“调查”,粗略对应于] 属性变量& 反应变量8.计数资料(count data):计算个数的数据,(如人口数,学校数,男女数等)9.计量资料(measurement data):借助于一定的测量工具或一定的测量标准而获得的数据(如分数,身高,体重,IQ)10.称名数据(nominal data):只区分属性或类别上的不同,只可计数,不能排序(性别,学科,职业)11.等级/顺序数据(ordinal data):可排序,但无相等单位,不能加减。
(等级评定,受教育程度,职称)12.等距数据(interval data):具有相等单位,无绝对零的数据,能加减不能乘除。
13.比率数据(ratio data):既表明量的大小,又具有相等单位,可以加减乘除,具有绝对零点。
14.称名数据和顺序数据合称为离散数据。
15.等距数据和比率数据合称为连续数据。
16.离散数据(discrete data)又称为不连续数据,这类数据在任何两个数据点之间所取的数据的个数是有限的。
17.连续数据(continuous data)指任意两个数据点之间都可以细分出无限多个大小不同的数值。
18.总体(population):具有某种特征的一类事物的全体。
用N表示。
19.个体(individual):构成总体的每个基本单元。
20.样本(sample):从总体中抽取的一部分个体。
21.频数(frequency):某一时间在某一类别中出现的数目22.频率:某一事件数目与此类别所有事件数目之比。
23.概率:用P。
某一事件在无限的观测中所能预料的相对出现的次数。
24.参数(parameter):描述总体特征的统计指标25.样本统计量/特征值:描述样本特征的统计指标。
26.统计量(statistics):样本的特征值第二章统计图表1.统计分组是根据被研究对象的特征,将所得数据划分到时各个级别中去。
2.统计分组应注意的问题:①分组要以被研究对象的本质特性为基础。
②分类标志的确立必须坚持穷尽性和互斥性原则。
3.分组次数分布表编制步骤:①求全距(最大值与最小值之差)②决定组距与组数③列出分组区间(精确组限、组中值):注意核实是否满足穷尽和互斥原则。
④登记并计算次数⑤编制次数分布表。
4.条形图适用资料为离散数据,饼图适用资料是间断性(离散性)资料,线形图、散点图用于连续性资料5.条形图与直方图的区别:①适用资料不同;②横轴标尺不同;③图形形状不同。
6.累加折线图 → 累加曲线图(如,图2-8):分正偏态、正态、负偏态三种(如,图2-9)P.437.第三章 集中量数1.集中趋势:数据向某方向的集中程度。
离中趋势:数据彼此的分散程度。
用来描述一组数据这两种特点的统计量即为集中量数和差异量数。
2.平均数的计算:N fX X c∑=,i N fd AM X ⨯+=∑其中,∑f 为各组数据的总次数(等于N ),X c 为各分组区间的组中值,f 为各组次数,AM 为估计平均数,i 为组距。
p.563.平均数的特点①离均差总和为0。
②每个数加上C ,则所得平均数为原平均数加上C。
③每个数乘以C,则所得平均数为原平均数乘以C。
4.平均数的优缺点1、优点:①反应灵敏。
②计算严密。
③计算简单。
④简明易解。
⑤适合于进一步代数演算。
⑥较少受抽样变动的影响。
2、缺点:①易受极值的影响。
“修剪平均数”②若有数据不够确切,则无法计算该样本平均数。
5.中数又称中位数/中点数,符号为Md(Median),是指一组数据中位于较大一半与较小一半中间位置的那个数。
适用资料:顺序数据及以上6.中数计算方法,p.617.中数优点:计算严密;计算简单;简明易解。
缺点:反应不灵敏;不适合进一步代数演算;受抽样变动影响较大。
8.众数又称范数/密集数/通常数,符号Mo(Mode),是指一组数据中出现次数最多那个数。
适用资料:称名数据及以上9.众数一般计算方法:直接观察10.众数优点:简明易解。
缺点:反应不灵敏;不适合进一步代数演算;受抽样变动影响较大。
11.正态分布中三者相等,正偏态中M > Md > Mo,负偏态中M < Md < Mo。
P.66第四章差异量数1.全距又称两极差,用最大值与最小值之差来表示离中趋势,符号R (range),R=X max-X min适用于等距数据及以上(将就也会用于顺序数据),计算所得数值越大,表明数据越离散/分散。
2.百分位差:用百分位数之间的差值来表示离中趋势,常用的有P90-P10、P93-P7。
3.四分位差(及四分位数)可视为百分位差的一种,符号Q(quartile deviation),公式Q =(P75 - P25)/2(即第三个四分位数与第一个四分位数之差的一半)4.平均差:离均差绝对值的均值,符号A.D.,公式5.平均差优缺点:描述离中趋势/离散程度最为直观,计算简单严密易懂、反应灵敏、受抽样变动影响小;但受限于取绝对值不利于进一步代数运算,因此仍属低效,应用不多。
(与平均数差不多)6.方差:离均差平方的均值,符号S2,公式7.标准差:符号S、s或SD,公式8.方差性质:①方差的可加性和可分解性②每个数加上C,则所得标准差等于原标准差。
③每个数乘以C,则所得标准差为原标准差乘以C。
9.优势①反应灵敏。
②计算严密。
③(还算)计算简单。
④(还算)简明易懂。
⑤适合于进一步代数演算。
⑥较少受抽样变动的影响。
缺点:①受极端数据影响大,若有缺失值,则计算不出标准差10.差异系数(coefficient of variation)用以比较多组数据之间离散程度的大小。
常用于:①同一团体不同观测值离散程度的比较(如,身高vs. 体重);②(各均值相差较大时)不同团体同种观测值离散程度的比较(如,成人体重vs. 小孩体重)11.差异系数计算公式:①适用资料至少是等距,理论要求为比率数据;②尚不能进行统计推论。
12.标准分数(standard score,又称Z分数)是以标准差为单位来表示一个原始分数在团体中所处的相对位置量数。
可用以比较多个数在其所在数组分布中的相对位置的高低(Z分数越大,表明该数据在其分布中取值越大、相对位置越靠前)。
计算公式:13.标准分数的优缺点优点:可比性;可加性;明确性;稳定性。
缺点:计算相对繁琐;常为负数或带有小数,难理解标准分数的应用(适用前提:正态变量)⑴(利用Z分数具有可比性)用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。
⑵(再利用Z分数具有可加性)计算不同质的观测值的总和,以表示在团体中的相对位置。
[自习例4-9、4-10]⑶表示标准测验分数。
(如,“离差智商”,自习)⑷极端数据的取舍:M±2S或M±3S标准(即“正负两个或三个标准差原则”)第五章相关关系1.相关关系:变量之间存在相互联系,但不能直接做因果判断。
2.相关系数(coefficient of correlation):变量间相关程度的数字表现形式,即表示相关强度的指标(相关量数)。
符号:样本r ,总体ρ3.取值范围:-1≤r≤1该式表明:①相关系数的取值范围介于-1.00至+1.00之间,他是一个比率,常用小数形式表示。
②正负只表示方向,取值大小表示相关的强弱程度(值越大,相关越高)。
③相关系数r=+1.00时表示完全正相关。
④它只是顺序数据;4.散点图(scatter plot)以点的散布形状和疏密程度来显示两个变量的相关趋势和相关程度。
5.皮尔逊积差相关(Pearson’s product-moment correlation)适用资料适用资料[诸多条件缺一不可!]①(大样本的)成对数据(表现为两组数据存在一一对应关系),每对数据相互独立。
②正态双变量(即两总体服从正态分布或渐近正态的单峰分布)。
[样本咋样就不管了]③两数据类型均为连续数据(即等距/比率数据)。
④两变量呈直线相关(先用散点图预测)6.皮尔逊积差相关计算公式:7.斯皮尔曼等级相关(Spearman’s rank correlation)符号:rR或rS适用资料①两列变量,成对数据,各对数据相互独立;②均为顺序数据(及以上);③直线相关。
8.斯皮尔曼相关(较之积差相关)优点:适用范围大;缺点:精确度低。
因此,凡符合计算积差相关的资料,不要用等级相关计算。
9.斯皮尔曼等级相关计算公式:10.肯德尔W系数(和谐系数,Kendall’s concordance coefficient)P128适用资料:多列等级变量。
采用等级评定法或排序评定法所获得的资料。
(评分者信度)11.肯德尔U系数(一致性系数,Kendall’s consistency coefficient)适用资料:多列等级变量。
采用对偶比较法所获得的资料。
12.点二列相关分为:真正的vs. 人为的二分变量;后者可降级为前者。
13.点二列相关适用资料:连续变量与真正的二分变量,常用以评价是非题之类测验的内部一致性等。
连续数据与人为二分变量常用二列相关.14.求连续变量与顺序变量之间相关系数的降级方法通常为:①连续↘顺序求斯皮尔曼等级相关;②顺序↘称名求质量相关。
(前者居多)15.多列相关适用资料:两列正态变量,连续+人为地分成多组。
16.四分相关适用资料:两个都是人为的二分变量(本来是连续数据),其R ×C表为四格表。
17.Φ相关(系数)适用资料:两个都是真正的二分变量,其R×C表为四格表。
第六章概率分布1.频率:在对随机事件进行n次观测中,事件A出现m次,则m/n称为n 次试验中A出现的频率。
2.后验概率:当n→∞时,m/n将稳定于某个常数P上,P即为概率。
特点:试验之前无法预计,只有借助试验结果来估计。
3.先验概率:如果基本事件的总数为n,事件A包括m个基本事件,则事件A出现的概率记作P(A)=m/n。