统计学的几个基本概念
总体(population)nbsp;nbsp;指同质的研究对象中所有观察单位研究指标变量值的集合。
总体通常限定于特定的时间与空间范围之内,且为有限数量的观察单位,称为有限总体;有时总体是假设的,没有时间和空间限制,观察
Ø 总体(population)指同质的研究对象中所有观察单位研究指标变量值的集合。
总体通常限定于特定的时间与空间范围之内,且为有限数量的观察单位,称为有限总体;有时总体是假设的,没有时间和空间限制,观察单位数是无限的,称为无限总体。
Ø样本(sample)医学实践与研究中,要直接研究无限总体通常是不可能的,即使是有限总体,由于人力、物力、时间、条件等限制,要对其中每个观察单位进行研究或观察,有时也是不可能的,也不必要。
而只是从总体中随机抽取部分观察单位,其变量实测值构成样本,目的用样本指标推断总体特征。
这种推断不要经过严谨的实验设计,以样本的可靠性和代表性为基础。
样本的可靠性:主要是使样本中每一观察单位确属同质总体。
样本的代表性:使样本能充分反映总体的实际情况,要求抽样遵循随机化原则,目的是使每个观察单位被抽得的机会相等,避免主观取舍及偏性;还要保证足够的样本量,即保证足够的观察单位个数。
Ø
参数(parameter)统计学上描述总体变量的特征称为参数。
如总体均数、描述总体的中心位置或集中趋势;总体标准差、极差等描述总体的离散趋势等。
Ø误差(error)泛指实测值与真值之差,按其产生的原因和性质可粗分为随机误差(random error)与非随机误差(nonrandom error)两大类,后者又可分为系统误差(systematic error)与非系统误差(nonsystematic error)两类。
Ø随机误差是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。
例如,在实验过程中,在同一条件下对同一对象反复进行测量,虽极力控制或消除系统误差后,每次测量结果仍会出现一些随机变化即随机测量误差,以及在抽样过程中由于抽样的偶然性而出现的抽样误差。
随机误差是不可避免的,在大量重复测量中,它可出现或大或小、或正或负的呈一定规律性的变化。
但由于造成随机误差的影响因素太多、太复杂,以至无法掌握其具体规律。
随着科学的发展与社会进步,有些随机误差可能会逐渐被认识而得以控制。
随机误差呈正态分布,可用医学统计学的方法进行分析。
Ø系统误差是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生的原因往往是可知的或可能掌握的。
例如,可能来自于受试者抽样不均匀,分配不随机,可能来自于不同实验者个人感觉或操作上的差异,可能来自于不标准的仪器,也可能来自于外环境非实验因素的不平衡等。
因而应尽可能设法预见到各种系统误差的具体来源,力求通过周密的研究设计和严格的技术措施加以消除或控制。
Ø非系统误差在实验过程中由研究者偶然的失误而造成的误差。
例如,仪器失灵、超错数字、电错小数点、写错单位等,亦称为过失误差(gross error)。
这类误差应当通过认真检查核对予以清除,否则将会影响研究结果的准确性。
Ø频率(relative frequency)一个随机试验有几种可能的结果,在重复进行试验时,个别结果看来是偶然发生的,但当重复试验次数相当大时,总有某种规律性出现。
在重复多次后,出现某种结果的比例称之为频率。
Ø概率(probability)概率是描述随机事件发生的可能性大
小的一个度量。
设在相同条件下,独立地重复n次试验,随机事件A出现f 次,则称f/n为随机事件A出现的频率。
当逐渐增大时,频率f/n始终在一个常数左右作微小摆动,则称该常数为随机事件A的概率,可记为P(A),简记为P。
在实际工作中,当概率不易求得时,只要观察单位数足够多,可将频率作为概率的估计值。
但在观察单位数较少时,频率的波动性很大,用于估计概率是不可靠的。