第一章 绪论1、总体:根据研究目的确定的具有相同性质的研究总体,分目标总体和研究总体2、样本:从研究总体中随机抽取的一部分有代表性的个体3、抽样:从研究总体中随机抽取一部分有代表性的个体的过程。
抽样研究的目的是用样本推断总体4、变量:在统计学中,将对每个观察测定的指标称为变量分类变量:二分类变量(eg :性别)& 多分类变量(eg :血型) 定性变量 有序变量变量 离散型变量(eg :人口数)定量变量 连续型变量(eg :血压、红细胞数) 变量的转化:定量→有序→分类→二值(只能单向转化) 5、同质:指的是总体中的个体性质相同或相近变异:指的是观测变量在总体中的个体之间取值不同6、参数:反映总体特征的统计指标,如μ、σ,总体参数是固定的常数样本统计量:与总体参数对应的,反映样本特征的量,如X 、S ,由样本资料计算出来 7、抽样误差:当我们所要研究的变量在总体中存在变异时,从这个总体中抽取的样本在这个变量的取值情况上往往与总体有一个偏差,这是不可避免的。
8、概率:指一个随机事件发生的可能性大小,当P ≤0.05时为小概率事件。
实际应用中:频率即指样本率;概率即指总体率。
统计基本公理:小概率事件在一次随机实验中几乎是不可能发生的,这是假设检验的基础。
第二章 定量资料统计描述一、频率分布表离散型资料:变量取值不连续,频率分布图横轴为变量值,纵轴为频率,用直条图表示。
连续型资料:变量取值连续,频率分布图横轴为变量值(标出组中值),纵轴为频率密度(即频率/组距),用直方图表示,各直条面积为相应组段频率,直方图面积之和为1。
连续型资料的频率分布表编制步骤: 1、计算极差2、确定组段数与组距,组距=极差/组段数3、确定组段的上、下限,第一组段包含最小值,最后一组段包含最大值,除最后组段外,各组段应包含其下限值,不包含其上限值4、列表二、定量资料的统计描述 (一)算数均数1、直接法(基于原始数据)nXn X X X X X n ∑=+⋯++=321 其中,X 1,X 2,X 3,…,X n 为观察值2、加权法(基于频数表)nfXffX X ∑∑∑==其中,f 为组段的频数,X 0为组中值,X 0=(上限+下限)/2(二)几何均数1、直接法(基于原始数据)n n X X X X G ⋯=321 或 ⎥⎥⎦⎤⎢⎢⎣⎡=∑-n X G log log 1 其中,X 1,X 2,X 3,…,X n 为观察值 2、加权法(基于频数表)⎥⎥⎦⎤⎢⎢⎣⎡=⎥⎥⎦⎤⎢⎢⎣⎡=∑∑∑--n X f f X f G log log log log 11 (三)中位数1、直接法(基于原始数据)将n 例数据按升序排列后,第i 个数据用*i X 表示。
当n 为奇数时,*21+=n X M当n 为偶数时,⎪⎪⎭⎫ ⎝⎛+=+*12*22`1n n X X M 2、内插法(基于频数表)⎪⎭⎫⎝⎛-⋅+=L x x f n X f i L P 100 其中,L 为欲求的P x 所在组段的下限,i 为该组段的组距,x f 为该组段的频数,n 为总频数,L f 为该组段之前的累计频数。
⎪⎭⎫ ⎝⎛-+=L M f n f i L M 2第三章 定性资料统计描述构成比和率的计算式中分子是分母的一部分,而相对比分子和分母可以性质相同,也可以不同。
应用相对数应注意:1.分母应有足够的数量,例数很少的情况最好不用相对数表示,应使用绝对数。
2.合计率的时候不能简单地由两组分别计算的率相加后求平均,而应该把两组分子之和除以两组分母之和。
3.资料应具有可比性,除了对比因素,其余因素应尽可能相同或相近。
观察对象内部结构不同时,应进行率的标准化。
常用指标:老年系数:%10065⨯≥人口总数岁人口数,频率型指标少儿系数:%10014⨯≤人口总数岁人口数,频率型指标负担系数:人口中非劳动年龄人口数与劳动年龄人口数之比,相对比型 老少比:65岁以上的老年人口与14岁以下的少年儿童人口之比,相对比型总生育率:‰岁妇女数同年同年活产数100049~15⨯,相对比型年龄别生育率:‰年数同年某年龄组平均妇女同年某年龄组活产数10001⨯⨯,强度型(近似) 总和生育率:15~49岁年龄别生育率的综合,是测量生育水平比较理想的指标,反映调查时间的生育水平。
终生生育率:‰岁以上妇女总数子女数岁以上妇女生育的活产10004949⨯,反映过去时间的生育水平,比总和生育率来得大。
自然增长率:粗出生率与粗死亡率之差,用来粗略的估计人口增长趋势粗再生率:总和生育率×女婴占出生婴儿的比例,指每个妇女一生平均生育的女儿数。
净再生育率:大于1表示未来人口将增多,小于1表示未来人口将减少。
婴儿死亡率:‰同年活产儿总数周岁死亡人数同年10001⨯<,是死亡统计指标中较敏感的指标注意:婴儿死亡率和围生儿死亡率都是相对比型指标 死亡率:‰年年平均人口数同年内死亡人数10001⨯⨯,强度型病死率:%100⨯同年患该病总数同年某病死亡人数,频率型发病率:万万年年平均人口数新发生的某病病例数10/101⨯⨯,分母不包括不可能发生某病的人,有二次患病病例,则发病率有可能超过1患病率:万万检查人口数现患疾病人数10/10⨯第五章 常用概率分布二项分布:X ~ B (n ,π)。
二项分布的概率函数()()xn xx nC X P --=ππ1,其中()!!!X n X n C x n-=,0!=1二项分布的形态取决于π和n ,高峰在πμn =处。
当π接近0.5时,图形是对称的;π离0.5愈远,对称性愈差,但随着n 的增大,分布趋于对称。
当n →∞时,只要π不太靠近0或1,特别是当n π和n (1-π)都大于5时,二项分布近似于正态分布。
二项分布的总体均数为πμn =,方差为()ππσ-=12n ,标准差为()ππσ-=1n如果将出现阳性结果的频率记为nXp =,则p 的总体均数为πμ=p ,标准差为()np ππσ-=1 二项分布的应用:出现阳性的次数至多为k 次的概率为:()()()()∑∑=-=--==≤kX X n X k X X n X n X P k X P 001!!!ππ 出现阳性的次数至少为k 次的概率为:()()()()∑∑=-=--==≥nk X X n X n k X X n X n X P k X P ππ1!!!Possion 分布(适用于菌落数、粉尘等)概率π很小,而观察例数n 很大,除二项分布的三个基本条件以外,还要求π接近于0。
Possion 分布的概率函数:()!X eX P Xλλ-=式中,πλn =为Possion 分布的总体均数,X 为观察单位内某稀有事件的发生次数,e 为自然对数的底,取2.71828。
Possion 分布的特征1)当总体均数λ值小于5时为偏锋,随着λ增大,分布趋向对称,λ≥20,近似正态分布。
2)总体均数与总体方差相等,均为λ。
3)观察结果具有可加性。
Possion 分布的应用如果稀有事件发生次数的总体均数为λ,那么发生次数至多为k 次的概率为()()!00X e X P k X P XkX kX λλ-==∑∑==≤发生次数至少为k 次的概率为()()11-≤-=≥k X P k X P正态分布:X ~ N (μ,σ2)特点:中间频数最多,两边频数渐少且对称 正态分布的概率函数:()()22221σμσπ--=X eX f ,其中,μ为总体均数,σ为总体标准差。
正态分布密度曲线的特点: 1)关于μ=x 对称2)在μ=x 处取得函数最大值,在σμ±=x 处有拐点,表现为钟形曲线。
3)曲线下面积为1。
4)μ决定曲线在横轴上的位置,μ增大,曲线沿横轴向右移;μ减小,曲线沿横轴向左移 5)σ决定曲线的形状,当μ恒定时,σ越大,数据越分散,曲线越矮胖;σ越小,数据越集中,曲线越瘦高。
正态曲线下面积的分布规律标准正态分布:μ=0、σ2=1的正态分布称为标准正态分布,用N (0,1)表示。
对任意一个服从正态分布N (μ,σ2)的随机变量X ,经过标准化变换 σμ-=X Z 可以转变为标准正态分布。
此时概率密度函数为:()2221z ez f -=π正态分布的应用:(1)二项分布、Possion 分布的正态分布近似n 很大,p 很小时,二项分布近似Possion 分布。
随着n 的增大,二项分布趋于对称。
理论上可以证明:当n 相当大时,只要π不太靠近0或1,特别是当n π和n (1-π)都大于5时,二项分布近似于正态分布。
随着总体均数λ的增大,Possion 分布趋向对称。
理论上可以证明,随着λ→∞,Possion 分布也渐近正态分布。
一般,当λ≥20时Possion 分布资料可按正态分布处理。
(2)确定医学参考值范围1、百分位数法:双侧95%医学参考值范围是(P 2.5,P 97.5)单侧范围是P 95以下(如血铅、发汞),或P 5以上(如肺活量)。
该法适用于任何分布类型的资料。
2、正态分布法:若X 服从正态分布,医学参考值还可以依正态分布规律计算。
正态分布资料双侧医学参考值范围一般按下式作近似估计:S X 96.1±其中,X 和S 分别为样本的均数和标准差。
第六章 参数估计基础(1)均数的标准误意义:均数标准误用符号X σ表示,也称样本均数的标准差。
它反映了样本均数之间、样本均数与总体均数之间的离散程度,也反映了样本均数抽样误差的大小。
计算:可按公式nX σσ=计算。
在实际应用中,总体标准差σ常常未知,需要用样本标准差来估计。
此时,均数标准误的估计值为nS S x =。
由此式可知,若增加样本含量n 可以减少样本均数的抽样误差。
主要应用:估计总体均数的置信区间,均数的假设检验 (2)频率的标准误意义:频率的标准误用符号p σ表示,它反映了样本频率与样本频率之间、样本频率与总体概率之间的离散程度,也反映了样本频率抽样误差的大小。
计算:可按公式()np ππσ-=1计算。
在实际应用中,总体概率π常常未知,需要用样本频率p 作为总体概率π的估计值,因此频率的标准误的估计值为()()np p n p p S p -≈--=111。
由此式可见,增加样本含量n 可以减小样本频率的抽样误差。
主要应用:估计总体概率的置信区间,频率指标的假设检验 t 分布nS X S X t X/μμ-=-=,服从自由度1-=n υ的t 分布。
t 分布是总体均数的区间估计及假设检验的理论基础。
t 分布与标准正态分布相比,其分布密度有如下特征: (1)单峰分布,以0为中心,左右对称(2)自由度υ越小,则X S 越大,t 值越分散,曲线的峰部越矮,尾部越高(3)自由度υ逐渐增大时,t 分布逐渐逼近标准正态分布;当υ趋于∞时,t 分布就完全成为标准正态分布。