总体:根据研究目的所确定的同质的观察单位的全体。
具体到特征指标。
样本:从总体中随机抽取有代表性的一部分。
抽样:从总体中抽取样本的过程(动 样本容量:指一个样本的必要抽样单位数目同质:同一总体内,性质相同或相似。
变异:同质观察单位之间的差异。
异质:不同总体间的差异。
定性变量:按某种属性,清点每一类的个数。
分类变量:变量的取值无具体意义。
有序变量或等级变量:变量的取值表示各类别之间的等级(大小)关系;定量变量:说明数量大小,记录指标值本身,一般有度量衡单位。
离散型变量:变量的取值只能为整数;连续型:变量取值可为实数轴上任何数值参数:描述总体特征的统计指标; 统计量:描述样本特征的统计指标。
统计工作的步骤:①设计②收集③整理④统计分析统计描述:统计表;统计图;统计指标。
统计推断:参数估计(点估计,区间估计)、假设检验。
1、描述定量资料的统计表与统计图(统计表同下)直方图:①在频率表的基础上,绘制频率直方图。
②图的标题位于图的下端居中;文字等要求同频率分布表。
③纵轴为频率(%),横轴为组段值。
要在横纵轴的端点处或轴的中 部写标目和单位。
④矩形直条的起点无须从原点开始。
⑤横纵轴长度适中,横七直五。
2、描述定量资料集中趋势的统计指标有哪些?各自的定义、计算及适用条件;a) 算术均数。
样本均数记为 ,总体均数记为 。
直接法: 间接法(加权法)——针对频率表: 适用于正态资料。
b) 几何均数 直接法: 间接法(加权法)——针对频率表:适用于呈倍数关系的资料。
即成指数关系的数据资料。
c) 中位数。
将原始观察值排序后(从小到大或从大到小均可),位次居中的那个数。
直接法 间接法(百分位数percentile 法):普适。
偏峰分布资料有极值,或分布末端缺失。
X μn X n X X X X n i i n ∑==+++=121Λ∑∑∑=====K i i K i i i K i i i f f X n f X X 11010n n X X X G Λ21=]log [log 1n X G ∑-=]*log [log ]*log [log 11n f X f f X G ∑∑∑--==⎪⎩⎪⎨⎧+=++.),(21.,*12*2*21为偶数为奇数n X X n X M n n n )%(L x f x n f i L P -⨯+=3、描述定量资料离散趋势的统计指标有哪些?各自的定义、计算及适用条件;(1)极差:R=max-min. 。
(2)四分位数间距 Q=P 75 - P 25.(3)方差n X ∑-=22)(μσ,1)(22--=∑n X X S (4)标准差1)(2--=∑n X X S ( 5)变异系数 %100⨯=X S CV常用相对数有哪些?它们的意义和计算上有何不同?1)率(强度 ):说明某现象发生的频率或强度。
K K ⨯⨯=⨯=∑)时间察单位数(可能发生某现象的观数发生某现象的观察单位单位总数可能发生某现象的观察数发生某现象的观察单位率 2)构成比:用来说明事物内部各组成部分所占的比重。
%100⨯=之和各组成部分观察单位数某部分的观察单位数构成比 3)相对比:两个有关指标之比。
说明甲现象是乙现象的几倍或几分之几。
%100(⨯=乙指标甲指标相对比) 为什么要对粗率进行标准化?如何进行粗率的标准化?目的:消除重要因素的构成不同对粗率比较的影响,选择同一的“标准”, 对资料进行校正。
率的标准化直接标准化法: 1)标准组;甲乙合并;甲;乙,etc.2)预期~~数;甲预期治愈数=标准组人数×甲治愈率. 3)预期~~数的合计;4)标准化率。
化率={预期~~数合计} / {标准组人数} ×K(只反映相对水平,不反映实际水平!统计图都有哪些?1)条图:多用于描述定性资料(发病率等)2)百分条图:多用于构成比资料。
3)圆图:多用于构成比资料。
4)线图:和条图类似,定性资料;不同点:随时间的变化某指标的变化情况!5)半对数线图:表示事物的发展速度。
6)散点图:两个定量变量的数量关系7)直方图应用:定量资料整理成频数表之后!8)统计地图:不同地区某指标的 分布情况,和条图相似 9)除外,统计图还有箱式图等 二项分布定义:n 重伯努利试验中,事件A 发生的次数 X 的分布,记为B (n, π). 特征: ①总体均数μ和标准差σ分别为: ②图形特征:二项分布图的高峰在均数μ处或附近;π=0.5时,图形对称,π≠0.5不对称;n →∞,且n π与n(1-π)均大于5时,二项分布趋于对称。
Poisson 分布定义: 单位时间、空间、面积内某罕见事件发生的次数 X 的分布, 特征:①Poisson 分布是非对称的,而且总体参数λ值越小,分布越偏; 随着λ增大,分布趋向对称;②总体均数与总体方差相等,均为λ ③分布的观察结果具有可加性正态分布的特征:N(0,1)称为标准正态分布 1 曲线下面积:曲线下面积为1;2正态概率密度曲线关于 x =μ对称,且在该处取得最大值;3、μ为位置参数:当σ固定不变时,μ越大,曲线沿横轴向右移动;反之,μ越小,则曲线沿横轴越向左移动。
4、σ为形状参数:当μ固定不变时, σ越大,曲线越平阔;σ越小,曲线越尖峭。
正态分布的应用:①确定医学参考值范围 ②质量控制图③二项分布、poisson 分布的正态分布近似。
二项分布、Poisson 分布、正态分布的区别与联系;(1)区别:1)二项分布、Poisson 分布是离散型分布,正态分布是连续型分布2)均数和方差:二项分布 Poisson 分布均为λ, 正态分布 μ,3)图形:峰:二项的高峰在均数μ处或附近;正态峰在x =μ处;对称性:二项分布当π=0.5时,图形对称,π≠0.5不对称;正态概率密度曲线关于 x =μ对称;Poisson 分布是非对称的,而且总体参数λ值越小,分布越偏;随着λ增大,分布趋向对称;(2)联系:n 很大、π很小时,二项分布渐进Poisson 分布;n π与n(1-π)均大 于5时,二项趋于正态分布;λ大于等于20,Poisson 分布渐进正态分布参考值范围定义:正常人群某项生理、生化指标的波动范围(取95%)。
计算:㈠正态分布法①单侧(高异常或低异常)过高异常: 过低异常: ②双侧(高低均异常) ㈡百分位数法①单侧 过高异常 过低异常: ②双侧(高低均异常)样本均数的抽样分布是怎样的?:(1)若Xi 服从正态分布,则亦服从正态分布。
(2)若Xi 不服从正态分布,则①n 小,Xi 为非正态分布;②n 大,Xi 为 正态分布(3)一般,只要n ≥50,可认为Xi 的分布近似于正态分布。
.)1(,ππσπμ-==n n )65.1,(S X +-∞),65.1(+∞-S X),(5.975.2P P )96.1,96.1(S X S X +-),(95P -∞),(5+∞P.)1(,ππσπμ-==n n 2σ抽样误差?用什么指标来描述?样本均数与样本率的抽样误差怎样计算? 抽样误差:样本统计量与总体参数之间存在的差异。
(1)若随机变量 X ~B(n,π),则样本率p=n X的总体率为π,其标准误为:(2)实际工作中,总体率π常常未知,常用样本率p 代替,公式就变为: t 分布的特征?与标准正态分布的区别与联系?①单峰分布,以0为中心,左右对称,类似于标准正态分布;②自由度ν 越小,t 值越分散,曲线的峰部越矮,尾部越高;③随着自由度ν 逐渐增大,t 分布逐渐逼近标准正态分布;当ν 趋于∞ 时(n>50),t 分布就完全成为标准正态分布,故标准正态分布是t 分布特例。
参数估计的方法有哪些?优缺点? (1)点估计:用样本统计量直接作为总体参数的点估计值,即直接用随机样本的均数X 作为总体均数 μ 的点估计值, 用样本频率 p 作为总体概率 π的点估计值。
缺点:没考虑抽样误差,无法评价估计值与真值之间差距。
(2)区间估计:区间估计是按预先给定的概率(1-α),确定一个包含总体参数的范围。
该范围称为参数的置信区间或可信区间(CI),(1-α)或100(1-α)%称为置信度。
(置信区间是一个开区间,不包括两个置信限)总体均数的置信区间(1)t 分布法:均数的单侧置信区间为:μ>X -t α, ν 或μ<X -t α, ν(2)正态法:1)当总体标准差σ 已知时双侧 单侧2)总体σ 未知,但(n >50)时,双侧单侧 总体率的置信区间:查表法:当样本含量n 较小,比如n ≤ 50,可以通过查表 正态近似法:np 与n(1-p) 均大于5时, 即(p -z α/2Sp ,p + z α/2Sp ) 参考值范围 置信区间目的 估计个体值的分布范围,个体值有很多估计总体参数,总体参数只有一个意义 绝大多数人某项指标的数值范围(供参考) 按一定的置信度估计总体均数所在的范围应用 判断某项指标正常与否 估计总体均数所在的范围np )1(ππσ-=np p S p )1(-=XZ X σα2/±X X Z X Z X σμσμαα+<->,或XS Z X 2/α±XX Z X Z X σμσμαα+<->,或95%95%是一个比例,即所求参考值范围包含了95%的正常人95%是置信度,即所求置信区间包含总体参数的置信度为95%。