生物统计学考试总结第一章生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。
内容:试验设计:试验设计的基本原则、试验设计方案的制定和常用试验设计的方法统计分析:数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归和相关分析、协方差分析等生物统计学的作用:1. 提供整理、描述数据资料的科学方法并确定其特征2. 判断试验结果的可靠性3. 提供由样本推断总体的方法4. 试验设计的原则相关概念:1.总体:研究对象的全体,是具有相同性质的个体所组成的集合2.个体:组成总体的基本单元3.样本:由总体中抽出的若干个体所构成的集合n>30 大样本;n<30 小样本4.参数:描述总体特征的数量5.统计数:描述样本特征的数量由于总体一般很大,有时候甚至不可能取得,所以总体参数一般不可能计算出来,而采用样本统计数来估计总体的参数6..效应:由因素而引起试验差异的作用7. 互作:两个或两个以上处理因素间的相互作用产生的效应生物统计学的研究包括了两个过程:1. 从总体抽取样本的过程——抽样过程2. 从样本的统计数到总体参数的过程——统计推断过程第二章1.算术平均数:是所有观察值的和除以观察的个数平均数(AVERAGE)特性:(1)样本中各观测值与平均数之差-离均差-的总和等于零(2)样本中各观测值与其平均数之差平方的总和,比各观测值与任一数值离均差的平方和小,即离均差平方和最小2.中位数:将试验或调查资料中所有观测依从大小顺序排列,居于中间位置的观测值称为中位数,以Md 表示3.众数:在一个样本的所有观察值中,发生频率最大的一个值称为样本的众数,以M o 表示 4.几何平均数:资料中有n 个观测值,其乘积开n 次方所得的数值,以G 表示。
5.极差(全距):样本数据资料中最大观测值与最小观测值的差值R =max{x 1,x 2,…,x n} — mix{x 1,x 2,…,x n}6.样本方差: 总体方差:用n -1代替n 作,可以避免偏小估计,从而实现样本方差对总体方差的无偏估计 在统计上,自由度(df =n -1 )是指样本内独立而能自由变动的观测值的个数 在计算其他统计数时,如果受到k 个条件的限制,则其自由度为n -k 7.样本标准差: 总体标准差:(1)标准差的大小,受多个观测值的影响,如果观测值与观测值间差异大,标准差就大 (2)在计算标准差的时候,如果对各个观测值加上或者减去一个常数a ,其标准差不变;如果乘以或除以一个常数a ,则标准差扩大或者缩小a 倍 STDEV: 基于给定样本的标准偏差 STDEVP :基于给定样本总体的标准偏差8变异系数(CV ):样本标准差除以样本的平均数,得到百分比 (1)变异系数是样本变量的相对变量,是不带单位的纯数 (2)用变异系数可以比较不同样本相对变异程度的大小第三章概率的计算法则:(1)乘法定理:如果A 和B 为独立事件,则事件A 和B 同时发生的概率等于各自事件的概率的乘积以外的任何数值为设x a )()()(B P A P B A P ⨯=•(2)加法定理:互斥事件A 和B 的和的概率等于事件A 和事件B 的概率之和加法定理推理1:如果A1、A2、…An 为n 个互斥事件,则其和事件的概率为: P (A 1+A 2…A n )=P (A 1)+P (A 2)+…+P (A n ) 加法定理:如果A 和B 是任何两件事件,则 概率分布:(1)离散型随机变量的概率分布P (x=xi )=pi (i =1,2,…, n )离散随机变量的方差(2)连续型随机变量的概率分布 连续型随机变量的概率分布1. 连续型随机变量可以取某一区间或整个实数轴上的任意一个值2. 它取任何一个特定的值的概率都等于03. 不能列出每一个值及其相应的概率4. 通常研究它取某一区间值的概率5. 用数学函数的形式和分布函数的形式来描述概率密度函数:(1)设X 为一连续型随机变量,x 为任意实数,X 的概率密度函数记为f(x),它满足条件(2) ,f (x )不是概率几种常见的概率分布:(适用范围,尾函数,自由度)1. 二项分布的概率函数 记作B (n ,p )或者B (n ,π)(1)每次试验只有两个对立结果,分布记为A 与 ,它们出现的概率分布为p 与q (q)()()(B P A P B A P +=+)()()()(B A P B P A P B A P •-+=+()⎰=≤≤22)(21x x dxx f x x x P ∑==-=R i i i x X P x 122)()(μσA=1-p )(2)试验具有重复性和独立性 二项式分布的概率累积函数:若随机变量x 服从二项式分布,则有二项分布的总体平均数为 二项分布的总体标准差为:二项成数(百分数)分布的平均数:二项成数(百分数)分布的标准差:例:假设年龄60~64岁的100名男性在1986年注射了一种新的流感疫苗而在第二年内死亡5人,这正常嘛?(注:1986年,60~64岁的男性老人第二年的死亡率约为)解:要知道100个男性的样本死亡5人是不是“异常”事件,这种估计的一个准则是寻找至少5人死亡的概率。
注:通常是把概率值为或者更小的概率事件识别为异常(稀有事件)。
由于至少5人死亡的概率是,可见100人中至少死亡5人是稍微有点异常,但不是很异常。
如果至少死亡10人,那么概率是*10-5,这就很不正常,因而,在没有其他证据显示此疫苗有效前,应考虑停止使用。
2. 泊松分布∑==npx p x iix )(μ()npqx p x iix =-=∑2)(μσ∑==ix x P x F 0)()(p nnpnxp===μμnpq nnpqnxp ===σσ二项式分布中,如果p 值很小而n 值很大( p< 和np<5 ),则泊松分布式中: 为参数,泊松分布的平均数、方差、标准差例:假如我们研究乳腺癌的遗传敏感性。
我们发现,母亲曾患有乳腺癌的1000名40~49岁的妇女,在研究开始后的1年中,有4人患有乳腺癌,而我们从大总体中知道在这相同的时间内,1000人中有1个人发生乳腺癌。
试问乳腺癌有没有敏感性?解:如果用二项分布,则n =1000,p =1/1000,解:如果用泊松分布,则n =1000,p =1/1000, 则平均值 =1则:这个事件是异常事件,则认为有乳腺癌的妇女,她们的子代具有遗传敏感性3. 正态分布(高斯分布)为总体平均数,为总体标准差 !)(x e x P x λλ-=λ,...2,1,0,==x np λλσλσλμ===2),(2σμN μσ正态分布的特征1. 当 时,f (x )有最大值2. 当的绝对值相等的时候,f (x )值也相等3. 当 的绝对值越大,f (x )值就越小,但永远不等于04. 正态分布曲线完全由函数 和来决定 5. 正态分布曲线在 处各有一个拐点 6. 正态分布求和为0标准正态分布:4. t 分布:是小样本分布,小样本分布一般是指n <30。
t 分布适用于当总体标准差未知时用样本标准差代替总体标准差,由样本平均数推断总体平均数以及2个小样本之间差异的显著性检验等 P45TDIST :返回自由度为n 的t 分布在x 点处的单尾或者双尾概率。
μ=x μ-x σμ-x μσσμ±=x 1,02==σμσ=uTINV:返回自由度为n的t分布的双尾概率分布函数的反函数.TINVProbability 双尾学生t 分布的概率Degrees_freedom 自由度注意:1)TINV 返回t 值,P(|X| > t) = probability,即P(|X| > t) = P(X < -t or X > t)2)单尾t 值可通过用两倍概率替换概率而求得eg:如果概率为而自由度为 10 ,双尾值由 TINV,10) 计算得到;而同样概率和自由度的单尾值由 TINV(2*,10) 计算得到。
5.卡方分布P45分布1、概率抽样:根据已知的概率选取样本简单随机抽样:完全随机地抽选样本分层抽样:总体分成不同的“层”,然后在每一层内进行抽样整群抽样:将一组被调查者(群)作为一个抽样单位等距抽样:在样本框中每隔一定距离抽选一个被调查者2、非概率抽样:不是完全按随机原则选取样本非随机抽样:由调查人员自由选取被调查者判断抽样:通过某些条件过滤来选择被调查者3、配额抽样:选择一群特定数目、满足特定条件的被调查者抽样分布:从一个给定的总体中抽取(不论是否有放回)容量(或大小)为n 的所有可能的样本,对于每一个样本,计算出某个统计量(如样本均值或标准差)的值,不同的样本得到的该统计量的值是不一样的,由此得到这个统计量的分布,称之为抽样分布1. 所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布2. 是一种理论概率分布3. 随机变量是 样本统计量——样本均值, 样本比例等 4 结果来自容量相同的所有可能样本(符号)样本平均数的基本性质:(1)样本均值的均值(数学期望)等于总体均值μμ=x定义: 一个参数 θ的估计量是θˆ ,如果θθ=)ˆ(E ,则称θˆ 是θ 的无偏估计(2)样本均值的方差等于总体方差的1/n nx22σσ=(3)样本平均数的标准误差的定义(4)当总体服从正态分布N~(μ, σ2)时,来自该总体的所有容量为n 的样本的均值也服从正态分布, 的数学期望为μ,方差为σ2/n 。
即 ~N (μ, σ2/n ) 中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n 的样本,当n 充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布 两个独立样本平均数差数的分布 P44 第四章假设检验:又称显著性检验:根据总体的理论分布和小概率原理,对未知或不完全知道的总X XX体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,做出在一定概率意义上应该接受的那种假设的推断。
如果抽样结果使小概率事件发生,则拒绝假设。
如果抽样结果没有使小概率事件发生,则接受假设特点:(1)采用逻辑上的反证法(2)依据统计学上的小概率原理 生物统计学上,一般认为:等于或小于或的概率为小概率 在一次试验中,一个几乎不可能发生的事件发生的概率。
假设检验的步骤: 1、提出假设 2、确定适当的检验统计量 3、确定显著性水平a 4、计算概率 5、推断是否接受假设两类:1)弃真错误;2)取伪错误 一.大样本平均数的假设检验——u 检验 应用范围:1)总体方差 2σ 已知2)总体方差 2σ 未知,但样本为大样本( 30≥n ), 用s 2来代替 2σ两个样本平均数比较的u 检验二、小样本平均数的假设检验——t 检验 应用范围:总体方差 未知,且样本为小样本( ), 采用t 检验当总体方差 为未知时,当样本容量小于30,检验一个样本平均数 是否属于平均数为 的指定总体,其 遵循自由度为df =n -1的t 分布T 分布的计算:2σ30<n 2σ0μxs x μ-xx2、成组数据平均数比较的t检验成组数据资料是两个样本的各个变量从各自总体中抽取的,即两个抽样样本彼此独立。