当前位置：文档之家› 医药统计学第一章数据的描述与整理

医药统计学第一章数据的描述与整理

统计工作的五个步骤紧密相连、不可分割，任何一
步的缺陷，都将影响整个研究结果。
目前，应用广泛，成为医药学研究、疾病防治、卫生事业管理等多方面的重要手段、工具之一，即成为方法论。
医药数理统计学（Mathematical statistics of
medicine)：应用概率论与数理统计学的原理与方法研究医药学以及卫生服务领域中数据的收集、整理、分析和解释的一门科学。
一．数据分布集中趋势的描述
频数分布表、图显示的集中趋势和离散程度较粗略，而计算其各指标则是准确、定量描述其分布特征。
集中趋势指标：平均数，反映观察值的集中位置或平均水平，即观察值的典型水平或代表值。描述一组同质观察值的平均水平或中心位置的常用指标有均数、中位数、众数、几何均数等。
平均水平指标
数分布大致对称。特殊的对称分布为正态分布（normal distribution）。
eg：体重、身高等生理、生化检测结果等。
偏态分布：频数分布不对称，集中位置偏向一侧。
40 人数 30 20 10 0 124 132 140 148 身高(cm)
对称分布
156
164
eg:
.236364
Fraction
国际标准通用的统计分析软件，但操作略为繁琐。（二）SPSS（社会科学统计软件）全称Statistical Package for Social Science，是当前最流行，应用最广泛的专业统计分析软件，操作
方便。
（三）EXCEL（电子表格软件）可进行基本的统计分析。操作简便。
频数分布的特征：
医药统计学
一．基本概念
概率论（probability）：是研究随机现象数量规律的数学学科。
研究对象
eg：研究运动员打靶成绩的规律，分析11种可能结果（0、1、2、3、4、….、10环）出现的概率及其规律性。数理统计（mathematical statistics）：以概率论为基础，通过对数据的收集、整理、分析和推断来研究随机现象的统计规律的学科。
当n为奇数当n为偶数
eg：
9例正常人的发汞值： 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 Me=4.8 9例正常人的发汞值： 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 >16 Me=4.8 10例正常人的发汞值： 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 >16 Me=(4.8+5.6)/2=5.2
2、统计学（统计工作）的内容：任何统计工作和统计研究的全过程都可分为以下五个步骤： ⑴ 设计（design）：关键、依据。在进行统计工作和研
究工作之前必须有一个周密的设计。
前期准备工作：查阅文献了解现状征询意见
设计内容包括：确定研究目的、研究假说；确定观察对象、观察单位、样本含量和抽样方法；拟定研究方案；预期分析指标、误差控制措施、进度与费用等。设计是整个研究工作中最关键的一环，也是指导以后工作的依据。
统计推断（inferential statistics）：指如何抽样，以及如何用样本信息推断总体特征，分析事物间相互关系（eg:药物疗效的统计学分析）。
⑸ 解释资料（interpretation of data）：对统计结果进
行说明和应用（eg:药物疗效的统计判断）。进行资料分析时，需根据研究目的、设计类型和资料类型选择恰当的描述性指标和统计推断方法。
（1）确定组数k：100～400个数据，一般分5～15个组段，可适当变动。观察单位较少时组段数可相对少些，观察单位较多时组段数可相对多些。
Sturgesr的经验公式计算组数：k=1+lnN/ln2
（N：数据的个数；ln：以e为底的自然对数）
<注 >：
不可过多：资料分散，编制与计算繁锁，且分布规律不能显示。不可过少：损失信息，计算误差较大，且无法显示分布特征。
<注 >：
不同的频数分布类型资料应选用不同的统计分析方法。
偏态分布正偏态
8
10
负偏态
6
Frequency
4
Frequency
5
2
0 1 2 3 4 5 var5 6 7 8 9
0 1 2 3 4 5 var6 6 7 8 9 10
二、常用统计软件简介
（一）SAS（统计分析系统）
全称Statistical Analysis System，是当前最流行的
0 110.2 身高 134.5
图1 某市110名7岁男童身高的频数分布
正偏态分布：又称右偏态分布，指观察值较多的集中在数值较小的一侧（ eg：传染病的潜伏期、非必需元素
含量分布等）。
负偏态分布：又称左偏态分布，指观察值较多的集中在数值较大的一侧（ eg：学生成绩、儿童视力、糖尿病
年龄分布、冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布）。
理论基础——概率论、数理统计研究对象——随机、不确定的现象医药领域：新药研制、药物鉴定、药理分析、试验设计、药政管理、处方筛选、医药信息等。
二．学习医药数理统计学的目的与要求
目的：
掌握医药数理统计学的基本理论、基本方法、
基本统计技能，为今后从事医药领域的科学研究、阅读专业书刊、从事具体的实践工作打下必要的数理统计学基础。
1．算术均数(arithmetic mean, mean) ：简称均数，
是反映一组同质的呈对称分布的数值数据的平
均水平的指标，用得最多的统计描述指标。总体均数样本均数
μ
x
（1）计算：直接法：样本含量较少
eg： 10名七岁儿童体重(kg)分别17.3，18.0，19.4， 20.6， 21.2， 21.8， 22.5， 23.2， 24.0， 25.5，求平均体重。
⑵
收集资料（collection of data）：遵循统计学原理采取必要措施得到准确可靠的原始资料。基本原则：及时、完整、准确、可靠、系统原则。资料来源：
– 原始资料（一手资料）：包括经常性资料。 eg：日常医疗卫生工作记录、统计报表、专门报告卡等；专题研究资料（一时性资料）。 eg：专题调查资料、实验研究资料。
n
2
i 1
i 1
其中，a为任意实数。
2.中位数(median)：将一组数据按从小到大的
顺序排列，位置居中的数即是中位数。是反映一组同质的呈非正态分布的数值数据和定序数据的平均水平。用 Me 表示。
（1）计算：
直接法：样本含量较少
X ( n1) / 2 M ( X n / 2 X n / 2 1 ) / 2
统计学（statistics）：以概率论、数理统计学为基础，研究资料和信息（数据）的搜集、整理、分析和解释的科学。目的是帮助人们分析所占有的信息，达到去伪存真、去粗取精、正确认识世界的一种重要手段。 1、statistics ：单数名词表示统计学，复数名词表示统计数据或资料。
Webster国际大辞典（第三版）对统计学的定义是：“a science dealing with the collection , analysis , interpretation and presentation of numerical data” 。
Last JM 主编的一本流行病学辞典对统计学的定义是：“ the science and art of dealing with variation in data through collection , classification and analysis in such a way as to obtain reliable results ” 。由此看出：统计学是处理资料中变异性的科学和艺术，是在收集、归类、分析和解释大量数据的过程中获取可靠结果的一门学科，强调了“过程”。
解：
x＝
17.3+18+ … 25.5 10
＝21.35(kg)
加权法（weighting method）：频数表资料或样本中相同观察值较多
x ＝
＝
f1x1+ f2x2 + f3x3 + … fnxn f1+ f2 + f3 + … fn fx
组中值
f
它是权重！
（2）应用（适用条件）：均数能全面反映全部观察值的平均数量水
(3) 确定组段：各组段的起点和终点分别称为下限和上限。
原则：不重不漏； <注 >：第一组段应包括全部观察值中的最小值，最末组段应包括全部观察值中的最大值，并且同时写出其下限与上限。连续性资料计算频数，形成频数分布表：确定组段界限，列成
表1.3的形式，采用计算机或用划记法将原始数据汇总，得出各组段的观察例数，即频数，表中的第（1）、（2）栏即所需的频数表。 <注>：连续性计量资料各组段上限不标出，以表示其连续性。计算机编制准确、快速，但应保证原始数据的准确输
原则：以显示数据的分布特征和规律为依据。
（2）确定组距（class interval/ class width）：相邻两组段的下限之差称为组距。全距或极差（range）： R = 最大值—最小值 = Xmax — Xmin
组距(d)：d = R / k
<注>：d 可等距，也可不等距。 eg：数据中有特大或特小的数值（食物中毒的潜伏期，年龄分组0-、7-、18、60-等）。
入和组距的合理设计。
频数表的用途
陈述资料，便于进一步分析。
观察频数分布的特征：定性描述——集中趋势、离散趋势和分布的的形状。

e商务文档

医药统计学第一章数据的描述与整理

相关文档推荐：

e商务文档

医药统计学 第一章 数据的描述与整理

相关文档推荐：

医药统计学第一章数据的描述与整理