第八讲应用统计学的基本概念Dr. Alan Moses我是Alan Moses博士, 是马萨诸塞州波士顿的Joslin糖尿病中心的高级副院长和首席医生。
在这部分讲座中,我们将学习应用统计学的基本概念。
我们首先回顾在临床研究中统计学的作用。
然后学习统计学的基本概念及常用统计学检验。
最后我们将讨论一些所谓的“数据分析中的捣蛋鬼”。
临床研究中统计学的作用是什么?我们所做的就是区分事实和偶然性。
我们需要比较组间差异,并检验干预的效应。
那么,临床研究中生物统计学家的作用是什么?虽然我们希望得到令人满意数据并知道如何设计试验及进行分析数据,但通常我们需要依靠生物统计学家的专业知识来选择适当的试验设计和计算适合的样本量。
我们都应认识到样本量是由对结果的测定决定的,涉及其精确度、准确度、可重复性和可行性。
此外,在进行数据分析时,生物统计学家帮助我们决定使用何种分析工具。
在试验开始之前就应确定所使用的统计方法,非常重要的是, 分析方法决不能在试验完成之后加以改变.在对试验进行分析时,统计学的作用是什么?我们应当记住,统计方法仅仅是一种帮助我们解释试验中所获得的数据的工具。
它们是一种工具而不是试验的最终结果。
而且像任何工具一样,使用统计工具必须小心。
计算机可以产生一些或有统计学意义的数据,但是只有研究者才知道该使用何种统计学检验来进行统计学分析。
已参加培训的研究者可以很容易地选择统计学检验方法,必须记住的很重要的一点是,对于没有足够知识的人而言,有强大功能的统计软件包可能导致致命性的错误。
生物统计学的重要概念之一是其正确性(validity)。
对于关键性的数据分析、试验的结果尤其是结果的发表,正确性都是其核心。
有两种正确性: 内部的和外部的(可推广性)。
内部的正确性就是在设定的试验范围内结果是准确的,使用的方法和分析经受得住检验,数据和相关的医学文献均支持研究者对试验结果的解释和结论。
外部正确性或可推广性决定了试验设计是否能够允许所做的观察和所得的结论推广到整个人群。
试验人群的选择决定了最大可推广范围,这个概念我们在这个讲座的其它部分已经谈到过。
如果研究对象包括男性、女性、不同的种族、不同的年龄分层,那么就有更多的机会将临床试验的结果应用于普通人群。
另一方面,受试者的选择也将决定研究和结论可应用的人群范围。
例如,如果在临床试验中选择年龄介于5-10岁的儿童,那么该试验的结果就仅能应用于该人群。
如果选择45岁以上的亚洲男性作为受试者,那么试验结果就只能应用于这个人群。
在正确性的概念中,应该认识到须有足够的样本量以支持所得出的结论,同时要选择适当的对照人群,特别是强调随机双盲对照这一临床研究的根本的科学方法。
著名科学家IsaacAsimov引用过这样一句话“科学工作的可敬之处就在于,任何科学信仰,虽然已具有坚实的基础,仍要不断地被检验看它是否真实,是否普遍地正确”。
这是他对正确性之重要性的看法,泛指任何科学范畴也包括临床试验。
现在我们将要讨论如何看待一些类型的数据。
首先是相对危险度和比值比。
这是评价后果的指标,当比较暴露因素对结果的影响时是非常有价值的。
比值比主要用于病例对照研究。
相对危险度主要用于队列研究。
这两类研究设计在前面的讲座中已讲过。
让我们首先看一下相对危险度。
这张表显示是如何得到一个相对危险因素的。
表格被分为两行两列,第一列是发病,第二列是未发病。
我们看一下发病是否是暴露于危险因素的结果或者未暴露于该危险因素。
暴露组发病数被标为A,暴露组未发病数被标为B,非暴露组的发病数被标为C,非暴露组未发病数被标为D。
从这张表格中我们可以得到相对危险度,相对危险度是暴露组的发病率除以非暴露组的发病率,即(A/(A+B))/ (C/(C+D))。
这就是相对危险度。
用来计算比值比的表格结构与上表相似,但是计算方法不同。
仍具有这样的自变量,暴露于危险因素或未暴露于危险因素与发病或未发病比较。
即A和B,与C和D。
但是比值比与相对危险度不同,它是由(A×D),即病例组有暴露史×对照组无暴露史除以(B×C),即病例组无暴露史×对照组有暴露史。
比值比即(A×D)/(B×C)。
在解释关联性检验时,我们如何使用比值比和相对危险度?实际上非常简单。
当比值比或相对危险度小于1时,这种危险因素与疾病呈负相关或该因素是保护因素。
比值比和相对危险度等1时二者无关联性,如果大于1时,二者均证明为正相关。
以上介绍了临床试验中生物统计学应用中的一些概念。
下面我们将举一些例子,看看在分析临床研究数据时如何使用以上及其它的检验方法。
8-2应用统计学的基本概念(2)在生物统计学的第一部分,我们讨论了临床试验中统计学的作用,生物统计学家的作用,以及在不同类型的临床试验中比较结果的一些方法。
在这部分我们将学习无效假设一些基本原则,统计学显著性和P值的概念,并简要谈一下样本量。
让我们从无效假设开始谈起。
无效假设就是认为被比较的项目之间无差别。
在临床试验中就是两组:一组是应用一种药物的治疗组,另一组是使用对照药物治疗组。
的确,统计的常规就是用来判断差异是由偶然性或样本偏差造成的,还是存在真实的差异。
统计学显著性水平在某种程度上是任意规定的,但是常规上我们定义统计学显著性水平是0.05。
这就是P 值,即指由于机会(偶然性)导致差异的概率小于5%。
这意味着事实上具有统计学显著性时,无效假设的发生率小于1/20。
再一次强调,这个定义是一种惯例。
对于P值有许多神秘感。
但是应该记住,应在特定临床试验范畴内解释P值。
最近我们将P值用具体数值表述,例如0.023而不是小于0.5。
事实上这就给出了两样本人群之间差异更多的信息。
0.023和0.049都小于0.05,但是0.023统计学显著性更强。
通过可信区间可进一步说明P值。
可信区间为统计量提供了测量的表示方式,在某些情况下,它还可以提供部分临床重要性信息。
可信区间的范围大致是具体统计数值标准误的4倍。
在这部分内容中,也是本次生物统计学课程中最重要的一点是,P值大小并不提示结果的重要性。
结果可能具有统计学显著性。
但是并无临床重要性。
例如,一项包含3000-4000个体的试验,在两种不同的治疗方法之间略有差异,由于样本例数大,差异具有统计学显著性。
但是在对被治疗人群的影响方面,从临床角度而言差异并不具有意义。
另一同等重要的方面是,不具有统计学显著性的差异并非不重要。
例如,英国糖尿病前瞻性研究(UKPDS)发现强化治疗与非强化治疗的糖尿病患者中大血管疾病(心梗)的发生率有差异,P值等于0.052,不具有统计学显著性,但是临床医师却强烈地认为如果增大样本量或延长随访期,这种差异就会达到统计学显著性,该结果看起来很有临床意义。
在进行统计学显著性分析时,可能出现两类错误。
第一类错误是α错误,或Ⅰ型错误:它拒绝了实际上是正确的无效假设。
也就是两种治疗措施在疗效方面被认为不同,但事实上二者疗效相同。
另一类错误是β错误或Ⅱ型错误,它未拒绝实际上是不正确的无效假设,也就是说真实的差异被忽视。
在假设检验中,当我们谈到未能发现治疗效应的可能性时,我们界定的差异的大小是很重要的因素。
事实上β错误是受三个主要因素相互作用的影响:差异的程度,受试者的数量和α水平,α水平即研究者确定的在此水平他们将拒绝无效假设。
这就提出了统计检验效能的概念。
统计检验效能就是基于事先确定的显著性水平的大小,无效假设被拒绝的概率。
检验效能实际上就是β错误的余数:检验效能=1-β错误。
β错误越低检验效能越大。
对一具体的临床试验设计,检验效能越大,得到具有统计学显著性P值的可能性越大,也就越有希望发现治疗的效益(如果其确实存在)。
你会注意到我们谈论了许多统计学中的常规(惯例),常规是在设计任何试验时,检验效能均应达到80%,在许多试验中检验效能设为90%。
从我们已经讨论过的内容中可以看到,增加检验效能的最明显的方法是增加样本量。
另一方面,在临床试验中增加样本量会增加费用,并且可能会使受试者暴露于研究用药或方法所带来的不适当的危险之下。
所以我们在样本量和检验方法精度之间应取得平衡,使检验效能足够高得以证实特定治疗的益处。
那么什么决定样本量呢?当然是与分析的终点指标有关:我们所需要的结果适合用这些终点指标吗?它们准确吗?是可重复的吗?例如,如果需要进行一个统计检验,无论是关于患者对一种临床状态的反应或是某种变异范围很大的生化检查,即使具有临床意义也很难证实组间存在相对小的差异。
如果某一检查的变异10-20%,将更难证实组间存在5%的差异。
当然,还有很大一个内容是讲述精度以及拥有精确评价工具的重要性。
使用的统计方法有助于决定样本量,并受样本量的制约。
此外,样本量有助于决定干预所预测的差异的幅度。
到目前为止,我们已经学习了P值,概率,假设检验和样本量等内容。
在下一部分,我们将举一些数据分析的具体例子,并讲述如何使用具体的统计学检验来分析特定类型的数据。
应用统计学的基本概念(3)Dr. Alan Moses我们已经学习了一些统计学应用于临床试验的一般概念,生物统计学家的作用,并简要涉及了数据,检验分析和样本量。
在这部分,我们继续学习针对性地处理具体数据。
有三种数据类型:第一类是分类数据。
分类数据就是一些彼此之间没有数学关系的数据。
既无分级也无顺序关系。
例如:性别(男性或女性),种族,血型。
一个人血型可以是A型或B型或O型或AB型,但不可能既是A又是B型。
等级数据就是有序或分级数据。
尽管是有序资料但是组距无明确规定,并且不一定相等。
例如,社会经济等级,从最易到最难分组。
生活质量的评估依据或将人群任意分组,如三分组,五分组,十分组,其中的关系或顺序已知,但是这些组的组距无明确规定。
例如分五组时,第一组的组距可以是从1到3,而最后一组的组距可能是从75到100。
组距大小可以不同但顺序是固定的。
最后还有区间和比率数据。
这些是连续性数据。
这些数据的共性是有等级或有顺序,并且各个数值之间具有已知的相等的间距。
这类资料可以进行算术运算如加法减法。
我们已经对正态分布的概念非常熟悉。
这张幻灯片是正态分布人群的图形显示。
在这里,我们看到一条线,代表人群的正态分布,X轴代表人群百分比,Y轴代表感兴趣的指标数值。
人群50%点值是人群均数。
1个标准差内包含67%的人群,2个标准差内包含95%的人群。
这就意味着,根据定义,即使是正态分布人群,也有2.5%的人在2个标准差之下,2.5%的人在2个标准差之上。
这就是说,在正态分布人群中,占很小百分比的个体,即5%的人,其指标是在所谓的正常范围之外。
不同的检验方法用来分析不同类型的资料。
分类变量通常可以使用x2检验。
列2×2表进行x2检验。
x2检验代表(实际值-预期值)2/预期值。