当前位置：文档之家› 统计学重点知识点

统计学重点知识点

基本统计方法第一章概论1. 总体（Population ）：根据研究目的确定的同质对象的全体（集合）；样本（Sample ）：从总体中随机抽取的部分具有代表性的研究对象。

2. 参数（Parameter ）：反映总体特征的统计指标，如总体均数、标准差等，用希腊字母表示，是固定的常数；统计量（Statistic ）：反映样本特征的统计指标，如样本均数、标准差等，采用拉丁字字母表示，是在参数附近波动的随机变量。

3. 统计资料分类：定量（计量）资料、定性（计数）资料、等级资料。

第二章计量资料统计描述1. 集中趋势：均数（算术、几何）、中位数、众数2. 离散趋势：极差、四分位间距（QR =P 75-P 25）、标准差（或方差）、变异系数（CV ）3. 正态分布特征：①X 轴上方关于X =μ对称的钟形曲线；②X =μ时，f(X)取得最大值；③有两个参数，位置参数μ和形态参数σ；④曲线下面积为1，区间μ±σ的面积为68.27%，区间μ±1.96σ的面积为95.00%，区间μ±2.58σ的面积为99.00%。

4. 医学参考值范围的制定方法：正态近似法：/2X u S α±；百分位数法：P 2.5-P 97.5。

第三章总体均数估计和假设检验1. 抽样误差（Sampling Error ）：由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。

抽样误差不可避免，产生的根本原因是生物个体的变异性。

2. 均数的标准误（Standard error of Mean, SEM ）：样本均数的标准差，计算公式：X σσ=误差的大小。

3. 降低抽样误差的途径有：①通过增加样本含量n ；②通过设计减少S 。

4. t 分布特征：①单峰分布，以0为中心，左右对称；②形态取决于自由度ν，ν越小，t 值越分散，t 分布的峰部越矮而尾部翘得越高；③当ν逼近∞,X S 逼近X σ, t 分布逼近u 分布，故标准正态分布是t分布的特例。

5. 置信区间（Confidence Interval , CI ）：按预先给定的概率（1-α）确定的包含总体参数的一个范围，计算公式：/2,X X t S αν±或/2,X X u S αν±。

95%CI 含义：从固定样本含量的已知总体中进行重复抽样试验，根据每个样本可得到一个置信区间，则平均有95%的置信区间包含了总体参数。

6. 假设检验的基本原理：小概率反证法的思想。

①反证法：从问题的对立面(H 0)出发间接判断要解决的问题(H 1)是否成立。

②小概率事件：在H0成立的条件下计算检验统计量，根据概率分布确定检验水准α下P值大小，判断是否为小概率事件（通常P≤α视为小概率事件，α通常取0.05），是则拒绝H0，接受H1；否则尚不能拒绝H0。

7. 假设检验一般步骤：①建立假设（反证法，H0和H1），确定检验水准（α）；②计算统计量：u, t，F；③确定概率值P，做出推断结论。

8. t检验需满足的条件：比较的两个样本相互独立、均服从正态分布。

9. P的含义：是指从H0规定的总体随机抽样，抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。

10. Ⅰ型错误（Type Ⅰerror）：拒绝了实际上成立的H0，这类“弃真”的错误称为Ⅰ型错误，Ⅰ型错误的大小为检验水准α。

Ⅱ型错误（Type Ⅱerror）：接受了实际上不成立的H0，这类“存伪”的错误称为Ⅱ型错误，Ⅱ型错误的大小用β表示，1-β表示检验效能。

α越小，β越大，增大样本量可以同时降低α和β。

11. 置信区间和假设检验的区别和联系：①可以通过判断置信区间是否包含零假设，判断单样本均数是否来自已知的总体；②置信区间不但能回答差别有无统计学意义，还可提示差别有无实际意义。

③假设检验可提供置信区间不能提供的信息，如P值和检验效能等。

第四章方差分析1. 方差分析的基本思想：根据研究目的和设计类型，把所有测量值的总变异按照处理因素和水平等分解成两部分（组内变异和组间变异）或更多部分，同时把对自由度相应进行分解，再进行比较，评价由处理因素引起的变异是否具有统计学意义。

2. 方差分析的应用条件：各样本是相互独立的随机样本，均来自正态分布的总体，各样本的总体方差相等（具有方差齐性）。

3. 方差分析表：变异来源SSνMS F P组间变异a g-1a/(g-1)MS组间/MS组内组内变异b N-g b/(N-g)总变异a+b N-14. g=2时，随机区组设计的方差分析与配对设计资料t检验等价，t 。

5. 多个样本均数间的多重比较：①LSD-t检验，即最小显著差异t检验，适用于一对或几对在专业上有特殊意义的样本均数间的比较；②Dunnett-t检验：适用于g-1个实验组与一个对照组均数差别的多重比较；③SNK-q检验：适用于多个样本均数两两之间的全面比较。

第五章计数资料的统计描述1. 相对数的类型：强度相对数（率，如死亡率、发病率等）；结构相对数（构成比）；相对比（如性别比等）2. 应用相对数的注意事项：①结构相对数不能代替强度相对数；②计算相对数应有足够的数量；③正确计算合计率；④注意资料的可比性；⑤对比不同时期资料应注意客观条件是否相同；⑥样本率（或构成比）的抽样误差。

3. 标准化率（Standardization rate ）：采用标准化法进行计算，消除数据内部构成的差异，使标化后的合计率具有可比性，这种经过标化后的合计率称为标准化率。

4. 标准化率的注意事项：①只适用于内部构成不同，影响总率的可比性的问题；②选择的标准不同，计算得到的标准化率也不同，多个标准化率比较时，应选同一标准；③标准化率已经不再反映当地的实际水平；④样本标准化率是样本值，存在抽样误差。

比较两样本标准化率，当样本量较小时，需做假设检验。

第六章几种离散型变量的分布及应用1. 二项分布X ～B (n , π)的适用条件：①每次试验只发生两种对立的可能结果之一；②每次试验产生某结果的概率π固定不变；③重复试验是相互独立的。

2. 二项分布的性质：①阳性次数X 的总体均数（n μπ=）、标准差（σ=；②样本率p 的均数（p μπ=）、标准差（p S =，即率的标准误）。

③二项分布的正态近似条件：np 和n (1-p )均大于5。

3. 泊松分布X ～P (λ)的性质：①总体均数λ和总体方差σ2相等；②当n 很大，π很小，且np = λ为常数时，二项分布近似泊松分布；③λ≥20时，泊松分布近似正态分布；④泊松分布具备可加性。

第七章 χ2检验1. χ2检验的基本思想：根据χ2分布特征，通过比较实际频数与理论频数的差异，确定在H0成立的条件下该差异由抽样误差造成是否为小概率事件，进而判断差异是否具有统计学意义。

χ2值反映了实际频数与理论频数的吻合程度。

2. R×C列联表中的各格子T≥1，并且1≤T＜5的格子数不宜超过1/5格子总数，否则可能产生偏差。

处理方法有三种：①增加样本量，使理论频数增大；②根据专业知识，删除或合并行列；③采用Fisher 确切概率法分析。

3. 有序分组资料表线性趋势检验：①双向无序的R×C列联表：多个样本率的比较采用R×C列联表的χ2检验；两个分类变量的关联性分析则采用R×C列联表的χ2检验和Pearson列联系数进行分析。

②单向有序的R×C列联表：行有序而列无序：R×C列联表的χ2检验；行无序而列有序，采用Wilcoxon秩和检验。

③双向有序属性相同的R×C列联表：配对四格表的扩展，采用一致性检验（Kappa检验）。

④双向有序属性不同的R×C列联表：样本率的比较采用Wilcoxon 秩和检验；相关性分析采用Spearman相关分析；线性变化趋势分析采用有序分组资料的线性趋势检验或CMHχ2检验等。

第八章非参数检验1. 秩和检验的适用范围：①总体分布偏态的计量资料；②数据两端有不确定值；③等级资料；④各组离散程度相差悬殊，总体方差不齐的资料。

2. 非参数检验对总体分布的形状差别不敏感，只对总体分布位置差别敏感；非参数检验没有充分利用资料信息，较参数检验的检验效低。

故能用参数检验尽量采用参数检验，不满足参数检验条件才使用非参数检验。

3. 不同数据类型的统计分析路径：（1）样本均数与总体均数的比较：正态，样本均数与总体均数的t 检验；非正态，Wilcoxon符号秩检验。

（2）两样本均数比较：①独立正态：两独立样本t检验；②独立非正态：两独立样本的Wilcoxon秩和检验；③配对设计差值正态，配对t检验；④配对设计差值非正态，Wilcoxon符号秩检验。

（3）多样本均数比较：①独立正态（方差齐），方差分析；②独立非正态Kruskal-Wails H检验；③非独立正态，重复测量资料的方差分析；④非独立非正态，Friedman M检验第九章双变量回归和相关1. 直线回归应满足的条件：自变量与因变量呈线性关系、观察值之间相互独立、因变量Y随机正态、对任何X因变量Y的标准差相等。

直线回归方程的一般形式为：ˆY a bX=+，a为截距，b为回归系数，回归系数的估计采用最小二乘法原则（Least Squares Method，使残差平方和最小）进行估计。

2.决定系数（coefficient of determination）：回归平方和与总平方和的比值，R2=SS回/SS总。

R2取值0～1之间无单位，其数值大小反映回归贡献的相对程度，即总变异中回归模型能够解释的百分比。

3. 秩相关的应用适用范围：（1）不服从双变量正态分布而不宜作Pearson 相关分析；（2）总体分布型未知；（3）等级资料的相关分析。

4. 相关与回归的区别与联系区别（1）区别：① 资料：回归分析资料要求Y 为正态随机变量，X 为选定变量；相关分析资料X 、Y 服从双变量正态分布。

② 应用：回归分析是由一个变量值推算另一个变量值（依存关系）；相关分析只反映两个变量间的相互关系。

③ 回归系数b 与原度量单位有关，而相关系数r 无关。

b 的绝对值越大，回归直线越陡，即X 变化1个单位时Y 的平均变化越大；r 的绝对值越大，所有点越趋近于一条直线，两变量的关系越密切，相关度越高。

（2）联系：① r 与b 值可相互换算，YY XX l l b r =；② r 与b 正负号一致；③ r 与b 的假设检验等价：对于同一资料b r t t =，检验完全等价；④ 回归可解释相关。

相关系数的平方r 2(决定系数)是回归平方和与总的离均差平方和之比（SS 回/SS 总）。

5. 应用直线回归时的注意事项（1）作回归分析要有实际意义，不能把毫无关联的两种现象作回归分析，必须对两种现象间的内在联系有所认识。

e商务文档

统计学重点知识点

相关文档推荐：