当前位置:文档之家› 医药统计学 第一章 数据的描述与整理

医药统计学 第一章 数据的描述与整理


统计工作的五个步骤紧密相连、不可分割,任何一
步的缺陷,都将影响整个研究结果。
目前,应用广泛,成为医药学研究、疾病防治、卫 生事业管理等多方面的重要手段、工具之一,即成 为方法论。
医药数理统计学(Mathematical statistics of
medicine): 应用概率论与数理统计学的原理与方法研究医 药学以及卫生服务领域中数据的收集、整理、分析 和解释的一门科学。
一.数据分布集中趋势的描述
频数分布表、图显示的集中趋势和离散程度较 粗略,而计算其各指标则是准确、定量描述其 分布特征。
集中趋势指标:平均数,反映观察值的集中位 置或平均水平,即观察值的典型水平或代表值。 描述一组同质观察值的平均水平或中心位置的 常用指标有均数、中位数、众数、几何均数等。
平均水平指标
数分布大致对称。特殊的对称分布为正态分布 (normal distribution)。
eg:体重、身高等生理、生化检测结果等。
偏态分布:频数分布不对称,集中位置偏向一侧。
40 人 数 30 20 10 0 124 132 140 148 身高(cm)
对称分布
156
164
eg:
.236364
Fraction
国际标准通用的统计分析软件,但操作略为繁琐。 (二)SPSS(社会科学统计软件) 全称Statistical Package for Social Science,是当前 最流行,应用最广泛的专业统计分析软件,操作
方便。
(三)EXCEL(电子表格软件) 可进行基本的统计分析。操作简便。
频数分布的特征:
医药统计学
一.基 本 概 念
概率论(probability):是研究随机现象数量规律的 数学学科。
研究对象
eg:研究运动员打靶成绩的规律,分析11种可能结 果(0、1、2、3、4、….、10环)出现的概率及其规 律性。 数理统计(mathematical statistics):以概率论为基 础,通过对数据的收集、整理、分析和推断来研究随 机现象的统计规律的学科。
当n为奇数 当n为偶数
eg:
9例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 Me=4.8 9例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 >16 Me=4.8 10例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 >16 Me=(4.8+5.6)/2=5.2
2、统计学(统计工作)的内容:任何统计工作和统计研 究的全过程都可分为以下五个步骤: ⑴ 设计(design):关键、依据。在进行统计工作和研
究工作之前必须有一个周密的设计。
前期准备工作: 查阅文献 了解现状 征询意见
设计内容包括: 确定研究目的、研究假说; 确定观察对象、观察单位、样本含量和抽样方法; 拟定研究方案; 预期分析指标、误差控制措施、进度与费用等。 设计是整个研究工作中最关键的一环,也是指导 以后工作的依据。
统计推断(inferential statistics):指如何抽样,以 及如何用样本信息推断总体特征,分析事物间相互 关系(eg:药物疗效的统计学分析) 。
⑸ 解释资料(interpretation of data):对统计结果进
行说明和应用(eg:药物疗效的统计判断) 。 进行资料分析时,需根据研究目的、设计类型和资 料类型选择恰当的描述性指标和统计推断方法。
(1)确定组数k:100~400个数据,一般分5~15个组 段,可适当变动。 观察单位较少时组段数可相对少些,观察单位较多 时组段数可相对多些。
Sturgesr的经验公式计算组数:k=1+lnN/ln2
(N:数据的个数;ln:以e为底的自然对数)
<注 >:
不可过多:资料分散,编制与计算繁锁,且分布规律不能显示。 不可过少:损失信息,计算误差较大,且无法显示分布特征。
<注 >:
不同的频数分布类型资料应选用不同的统计分析 方法。
偏态分布 正偏态
8
10
负偏态
6
Frequency
4
Frequency
5
2
0 1 2 3 4 5 var5 6 7 8 9
0 1 2 3 4 5 var6 6 7 8 9 10
二、常用统计软件简介
(一)SAS(统计分析系统)
全称Statistical Analysis System,是当前最流行的
0 110.2 身高 134.5
图1 某市110名7岁男童身高的频数分布
正偏态分布:又称右偏态分布,指观察值较多的集 中在数值较小的一侧 ( eg:传染病的潜伏期、非必需元素
含量分布等)。
负偏态分布:又称左偏态分布,指观察值较多的集 中在数值较大的一侧( eg:学生成绩、儿童视力、糖尿病
年龄分布、冠心病、大多数恶性肿瘤等慢性病患者的年龄分布 为负偏态分布)。
理论基础——概率论、数理统计 研究对象——随机、不确定的现象 医药领域:新药研制、药物鉴定、药理分析、试验 设计、药政管理、处方筛选、医药信息等。
二.学习医药数理统计学的目的 与要求
目的:
掌握医药数理统计学的基本理论、基本方法、
基本统计技能,为今后从事医药领域的科学研究、 阅读专业书刊、从事具体的实践工作打下必要的数 理统计学基础。
1.算术均数(arithmetic mean, mean) :简称均数,
是反映一组同质的呈对称分布的数值数据的平
均水平的指标,用得最多的统计描述指标。 总体均数 样本均数
μ
x
(1) 计算: 直接法:样本含量较少
eg: 10名七岁儿童体重(kg)分别17.3,18.0,19.4, 20.6, 21.2, 21.8, 22.5, 23.2, 24.0, 25.5, 求平均体重。

收集资料(collection of data):遵循统计学原理 采取必要措施得到准确可靠的原始资料。 基本原则:及时、完整、准确、可靠、系统原则。 资料来源:
– 原始资料(一手资料):包括经常性资料。 eg: 日常医疗卫生工作记录、统计报表、专门报告卡 等;专题研究资料(一时性资料)。 eg:专题 调查资料、实验研究资料。
n
2
i 1
i 1
其中,a为任意实数。
2.中位数(median):将一组数据按从小到大的
顺序排列,位置居中的数即是中位数。是反 映一组同质的呈非正态分布的数值数据和定 序数据的平均水平。用 Me 表示。
(1)计算:
直接法:样本含量较少
X ( n1) / 2 M ( X n / 2 X n / 2 1 ) / 2
统计学(statistics):以概率论、数理统计学为基 础,研究资料和信息(数据)的搜集、整理、分析 和解释的科学。 目的是帮助人们分析所占有的信息,达到去伪 存真、去粗取精、正确认识世界的一种重要手段。 1、statistics :单数名词表示统计学,复数名词表示统 计数据或资料。
Webster国际大辞典(第三版)对统计学的定义 是:“a science dealing with the collection , analysis , interpretation and presentation of numerical data” 。
Last JM 主编的一本流行病学辞典对统计学的 定义是:“ the science and art of dealing with variation in data through collection , classification and analysis in such a way as to obtain reliable results ” 。 由此看出:统计学是处理资料中变异性的科学 和艺术,是在收集、归类、分析和解释大量数据的 过程中获取可靠结果的一门学科,强调了“过程”。
解:
x=
17.3+18+ … 25.5 10
=21.35(kg)
加权法(weighting method):频数表 资料或样本中相同观察值较多
x =

f1x1+ f2x2 + f3x3 + … fnxn f1+ f2 + f3 + … fn fx
组中值
f
它是权重!
(2)应用(适用条件): 均数能全面反映全部观察值的平均数量水
(3) 确定组段:各组段的起点和终点分别称为下限和上 限。
原则:不重不漏; <注 >: 第一组段应包括全部观察值中的最小值,最末组段 应包括全部观察值中的最大值,并且同时写出其下 限与上限。 连续性资料 计算频数,形成频数分布表:确定组段界限,列成
表1.3的形式,采用计算机或用划记法将原始数据汇 总,得出各组段的观察例数,即频数,表中的第 (1)、(2)栏即所需的频数表。 <注>: 连续性计量资料各组段上限不标出,以表示其连续性。 计算机编制准确、快速,但应保证原始数据的准确输
原则:以显示数据的分布特征和规律为依据。
(2)确定组距(class interval/ class width):相邻两组 段的下限之差称为组距。 全距或极差(range): R = 最大值—最小值 = Xmax — Xmin
组距(d):d = R / k
<注>:d 可等距,也可不等距。 eg:数据中有特大或特小的数值(食物中毒的潜 伏期,年龄分组0-、7-、18、60-等)。
入和组距的合理设计。
频数表的用途
陈述资料,便于进一步分析。
观察频数分布的特征:定性描述——集中趋势、 离散趋势和分布的的形状。
相关主题