南丁格尔曾说过“若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。
”这里的上帝就是客观世界。
理、工、农、医、文,今天很难找到不使用统计的学科了,它在解决现代科学的那些最重要的和最多样化的课题中起着主导作用。
现实生活中我科也离不开统计,每天晚上我们都要收听明天的天气预报,尤其注意明天下雨或下雪的概率;投资股票时,你需要了解股票场价格的信息,了解每只股票的财务信息;黄金周时,你打算出门旅行,一定要了解旅游的目的地的价格、服务以及旅游人数等。
作为从事统计工作的专业人士,更需要了解和掌握统计学的基本理论和统计方法。
一、什么是统计统计学就是用来处理数据的,它是关于数据的一门学问。
根据大百科全书对统计学的定义:统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。
统计分析数据的方法大体上可分为描述统计(descriptive statistics)和推断统计(inferential statistics)两大类。
描述统计是研究数据收集、处理和描述的统计学方法。
其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理的展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。
推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验两大类。
二、统计的应用(一)统计的应用领域说出哪些领域应用统计,这很困难,因为几乎所有的领域都应用统计;说出哪些领域不使用统计,同样也很困难,因为几乎找不到一个不用统计的领域。
因此,统计是适用于所有学科领域的通用数据分析方法,是一种通用的数据分析语言。
这里我们不想列举统计应用在一般领域如经济、管理、理工、农医的例子,因为大家已经对这些应用耳熟能详,熟视无睹了。
我们只想举几个大家可能想不到的例子。
统计学应用一:从“女士品茶”中得到的统计实验设计①这是在2003年统计出自版社出版的一本名为《女士品茶》中所讲述的故事,事情是这样的:二十世纪二十年代后期的一个夏日午后,一群风度翩翩的学者偕夫人及漂亮的女友,正在英国剑桥的户外餐桌旁,悠闲地品茶论道。
席间,一位美丽的女士惊呼,午茶的调制顺序对味道有很大的影响。
把茶加进牛奶里和把牛奶加进茶里,喝起来风味完全不同。
出于对女性的尊重,那些学者们面带绅士的微笑,内心却不以为然,甚至是藐视,依据他们的科学头脑分析,茶和牛奶两种物质混合结果的化学成分不会因为调制顺序不同而产生不同,怎么会喝起来不一样呢?文中暗表,这个命题的假设前提是不论调制顺序如何,牛奶和茶的比例是固定的或是基本不变的。
正当众学者对美丽女士的说法嗤之以鼻时,有个身材瘦小,嘴上留着灰白胡子的绅士挺身而出,抓住了这个问题。
此人便是在统计发展史上地位显赫、大名鼎鼎的费雪(Ronald Aylmer Fisher,1890-1962),伦敦人氏,英国统计学家。
费雪当时显得非常兴奋,好像发现了新大陆。
“让我们来检定这个命题。
”说着,在众位学者的帮助下,他开始进行实验。
他们设计并调制也很多杯不同的茶,有些先放茶水再加牛奶,有些先放牛奶再加茶水,然后按照既定的顺序一杯一杯拿给美丽女士品尝分辨,但她并不知道每杯茶的调法。
费雪端给她第一杯茶时她品尝了一口,然后说出这杯茶是先放茶水后加的牛奶,还是先放牛奶后加的茶水。
费雪记录上她的说法,再送上第二杯,……费雪设计了各种可能的实验方法,来测试美丽女士能否分辨出不同的茶。
问题是,如果美丽女士只是哗众取宠而没有真本领难分辨出不同的茶,她还是有猜出的可能;如果给她两杯调制方法不同的茶,她可能一次全部猜错或全部猜对。
如果美丽女士有真本事,确实能够分辨调制方法不同的茶,但她还是可能弄错,或是茶水和牛奶没有混合好,或茶水温度不够影响了味道,或她喝了很多以后感觉已经不太灵敏。
这就是费雪提出来的实验设计思想,1935年,费雪完成了在科学实验理论和方法上具有划时代意义的一本书《实验设计》。
在书的第二章,费雪就提到了剑桥午后的品茶和那位美丽的女士,在书里,费雪讨论了各种可能结果,描述了该准备多少茶,依照什么顺序拿给她,然后她回答的正确与否,计算出各种结果的概率。
至于剑桥午后品茶的那位女士,据说她能分辨出每一杯茶,全部答对,看来,这位女士不仅仅是美丽。
统计应用二:从《红楼梦》中给出作者的判断②众所周知,《红楼梦》一书共120回,一般认为前80回是曹雪芹所著,后40回为高鄂所续。
长期以来红学界对这个问题一直有争议。
1986年复旦大学李贤平教授带领他的学生用统计方法进行了研究,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词作为变量(所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯不同,所用的虚词是不会一样的),让学生数出每一回里虚词出现的次数,作为数据,用统计分析中的聚类分析方法进行分类。
聚类结果将120回分成两类:即前80回为一类,后40回为一类,很形象地证实了120回的《红楼梦》不是出自同一人的手笔。
之后又与曹雪芹的其他著作进行类似分析,进一步证实前80回确实为曹雪芹所著,而后40回是否为高鄂写的呢?论证结果推翻了后40回为高鄂一个人所写。
这个论证在经学界轰动很大,他们用统计分析方法支持了经学界的观点。
使经学界在为赞叹。
统计应用三:从“小概率发生”中做出有罪判决③被告Wayne Williams被指控在佐治亚州的亚特兰大谋杀了两个黑人男性青年。
另外还发生了十起类似的案件的谋杀案。
对Williams的不利证据是,在尸体上发现的大量纤维与从他周围取到的很相似,尤其是染英国橄榄色的不常见的三叶形的威尔曼181-b型地毯纤维。
原告的一名专家证明这种类型的纤维已经停止生产,根据保守推测,这种纤维制成的地毯在美国10个州的销售量仅够铺820间屋子。
假设其销售量在10个州中都相等,所有佐治亚州的地毯都卖给了亚特兰大,而且每家只有一间屋子铺上了地毯,那么有81个亚特兰大人家的屋子铺上了含有这种纤维的地毯。
根据专家所说,亚特兰大共有638992座住宅,那么随机选择一个屋子。
它铺有这种地毯的概率要小于81/638992或1/7792。
Williams的卧室就有这种地毯(虽然被告后来予以否认)。
根据这个证据,原告坚持认为,“在亚特兰大有与Williams卧室相同类型地毯的家庭的可能性公为1/8000”。
Williams被判有罪。
在上诉中,佐治亚上诉法院认为这处州的专家有权讨论小概率,允许用从证据经过推理所得的观点进行辩护,而这种推理就包括小概率。
上面介绍了统计方法在各种领域中的应用,这种应用还有很多很多,只要读者稍加留意,就会发现处处存在统计。
(二)统计的误用与滥用英国政治家本杰明·迪斯雷利(Benjamin Disraeli 1804-1881)曾有一个著名的论断:“谎言有三种:谎言、糟糕的谎言和统计数字。
”统计常常被人们有意或无意地滥用。
例如,错误的统计定义、错误的图表提示、一个不合理的样本、数据的遗漏或逻辑错误等。
这些误用有些是常识性的,有些是技术性的,些则是故意的。
作为从数据中寻找事实的统计,却被有人变成了歪曲事实的工具。
下面举例说明一个有史以来最糟的社会统计数字④。
“美国自从1950年开始,孩童遭到枪杀的人数,每年增加一倍。
”这是某期刊里1995卷里某一篇文章的句子。
这个数字荒唐在啊里?其实只要简单计算一下就知道,这个数字朋多么糟糕了。
假设1950年只有一个孩童被枪杀,那么到1951年孩童遭到枪杀的人数增加一倍,就是2人,到1954年就是4人,…,依此类推,到1960年的数字是1024人,而到1995年,将会有32768人(而1995年,美国联邦调查局查办全美国的刑事杀人案件,含成人与孩童在内的受害者,总共也才只有9960人)。
到1970年,总数将超过一百万人;1980年,总数将超过十亿人(相当于当年度美国总人口数的四倍)!我们就不再往下计算了,再往下计算不仅要超出地球上生活的总人数了,恐怕边宇宙中存在的“人”都算上也抵不上这个总数,假如宇宙中存在“人”的话。
这篇文章的作者到底是从哪里得到的这个统计数字呢?经过询问作者后了解到,统计数字来自美国儿童保护基金会发布的《美国孩童现状年度报告:一九九四》(The State of American Yearbook-1994),该报告中写道:“自从1950年以来,每年美国孩童遭到枪杀的数目,至今已增加了一倍。
”请注意措辞上的差别:儿童保护基金会所说的是,1994年的死亡人数是1950年的两倍,但这个资料经过期刊文章作者改写后,即平白无故冒出一个完全不同的意义。
其实,在该时期内(1950~1994)美国总人口数同样增加了73%,几乎成长了一倍。
因此可以想见,随着人口的增加,各种人口统计数字也会增加,其中当然包括孩童遭到枪杀的人数。
不过,假若我们判断,两倍的死亡人数是否代表情势恶化?我们还必须要有其他深入的了解,即这个数字的来源如何?是谁在计算孩童的枪杀死亡人数?又是如何计算的?还有,“孩童”的定义是什么(在统计暴利案件时,儿童保护基金会有时会将“孩童”定义为年龄在25岁以下的人)?“枪杀死亡”指的又是什么(枪杀死亡统计一般包括自杀、意外与他杀)?但是,当民众遇到统计数字时,却绝少产生疑问。
第二节数据类型统计数据是对客观现象特征的反映,而由于客观现象的复杂性,在反映这些现象特征时可从不同的角度进行采集,从而得到不同类型的数据。
下面分别从不同的角度对这些数据特征给予介绍。
一、变量与数据每天晚上收看天气预报,会发现今天的气温与明天的气温不同,今天是情天明天可能就是多云转阴;观察股票市场上的上证股指天天在变化;每个在职工作的人员从事的职业不同,月收入不相同;观察成年人,每个人所受的教育程度也不同。
这里的“天气温度”、“天气形势”、“上证股指”、“职业”、“月收入”以及“教育程度”等就是变量(variable),它们的特点是从一次观察到下一次观察会出现不同结果。
把观察到的结果记录下来就是数据(data)。
二、数据类型(一)定性变量(数据)与定量变量(数据)“天气温度”、“天气形势”、“上证股指”、“职业”、“月收入”以及“教育程度”这些变量反映现象的特点不同。
“天气形势”、“职业”和“教育程度”是从现象的属性来表现现象的特征,如“天气情”和“阴转多云”就是反映两种天气状况;“生产工人”和“公务员”就是两种不同的职业;文化程度“小学”与“大学”就反映了两种不同的教育程度。
这样的就是称为定性变量(qualitative variable),定性变量的观察结果称为定性数据(qualitative data)。
这类数据的最大特点是它只能反映现象的属性特点,而不能说明具体量的大小和差异,如“天气晴”和“阴转多云”谁大谁小?“生产工人”和“公务员”谁好谁坏?这里没有量的特征,只有分类特征;这种只能反映现象分类特征的变量又称为分类变量(categoricalvariable),分类变量的观察结果就是分类数据(categorical data)。