当前位置：文档之家› 统计在考古学中的应用-第一讲

统计在考古学中的应用-第一讲

210
200
158 96 5
190
248 250 259 323
180
盒子的中间横线是数据的中位数(median)，封闭盒子的上下两横线（边）为上下四分位数（点）；按照SPSS的默认选项，如果所有样本中的数目都在离四分位点1.5倍盒子长度之内，则线的端点为最大和最小值，否则线长就是1.5倍的盒子长度（盒子长度称为四分位间距），在其外面的度量单独点出
统计学在考古中的应用
第一讲
统计学

以归纳为主要思维方式的统计不是以演绎为主的数学
统计可应用于各个不同学科，在有些学科已经有其特有的方法和特点；如生物统计 (biostatistics)、经济计量学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计。
太密的茎叶图

划分区间要相等个体数目平方根作为分组数目
双重茎叶图
直方图
旋转90º ，删除图中叶的具体数字，而以方框高度简单表示叶的个数
多峰

两个数值聚集中心在图上如同两个小峰。这种多峰的数值聚集方式明显暗示着两者截然不同的情况，在这里，即为两种不同类型的遗址，或许可将它们称之为大遗址和小遗址。茎叶图和直方图上的数值聚集方式，表明这两种遗址被明确分开。这就是说，Kiskiminetas河谷中遗址大小的划分，并非主观臆断，而是其样本数列内在特征的反映。

计算机无法识别你的统计方面的错误
错误的方法、错误的数据形式都必然输出错误的结果（虽然看上去可能很漂亮），得到大量垃圾另外，统计软件输出的结果太多、很难都理解

考古学研究中应用统计的化——思维模式的变化全过程中贯穿定量思想计算机辅助定量与传统考古方法的结合国际交流需要定量陷阱
分层定量统计

器物特征的定量
考古中的随机发现

男性：69.2% 女性：45.5% χ2分布检验随葬品与性别有关 18％犯错
有随葬无随葬品品男 18 8
女
5
6
大信息量的考古资料

化学成分植硅石测量数据体质人类学测量数据
数据制图

直观表示二维图三维图
高三男生身高
170
160
150
140
N= 163 175
地区1
地区2
地区
数列中心的标准化
离散程度的标准化
Z得分

平均值标准方差
Z (X X ) / s
数列的形状或分布

对称性中位数平均值
变换

用数列中的所有数据减去中位数或平均值，产生一个标准化水平的新数列，这种操作是将它的中心调为零的同时，保留了数列的形状和离散度。接着我们在一个零水平的数列中将所有数列除以四分位差或标准差来得到标准化离散度的数列，这是将数列的离散度调为标准值1
学习内容

描述性统计随机抽样概率论 C14测年统计推断抽样中的特殊问题多元统计上机操作
教材和统计软件

陈铁梅．定量考古学．北京大学出版社．北京，2005 Excel SPSS Origin WinBASP 其他……
评分标准

考试 40％课堂交流 20％课后作业 20％课题设计 10％
考古学

利有实物遗存资料去复原古代社会的科学
海量数据：测量、描绘。。。统计描述

抽样过程、随机
“样本”(局部)推断”总体“：发掘的随机性统计推断

数量关系

认识古代社会

一个器物、墓葬、房址、遗址？磁山类型 58％裴李岗类型 57％动物骨骼百分比

百分比关系

野羚羊绵羊、山羊
s
2
x x
n 1
2
截尾方差
sT
2 n 1 sW
nT 1

将火石原料制成的刮削器视为一个样本数列，而将燧石原料制成的刮削器视为另一个样本数列，绘出刮削器长度的双重茎叶图(这次忽略了刮削器出土遗址的不同)。如何比较这两个样本数列？能否看出什么规律，有助于解释上述所有刮削器长度组成的茎叶图？

数字之间有矛盾用可靠信息来源进行对比数据太好了

简单的算术问题

车祸： 42％的车祸发生在周五、周六和周日数量变动的百分比：5000－>7000－>6000
数据统计表
茎叶图

将一组测量值直接罗列出来，人们通常难以获取其深层次的信息，因此，欲分析一组样本，首先需将它们重新组织。

车商甲 1985－1991 借通用汽车 60亿美元 1990年12月 4.25亿美元 17000辆厢车进行改装出口有问题么？

厢车改装行业一个月17000辆行业协会报道 1.35%外销

数据虚假

数据是如何产生的测量的事物？
检查途径

信息不完整：

下雪天车祸28起高考分数
数据类型

名称变量
形态：平底、尖底、圜底纹饰：绳纹、蓖麻纹性别

有序变量

年龄分期地层次序
数值变量

数量百分比重量成分
考古器物的定量描述
陶豆
• • • • • • 通高口径/通高柄高/通高盘深/通高最大直径/最小直径纹饰：有无
数字合理性检查

Exploratory Data Analysis

茎叶图箱图中位数四分位差
名义变量

统计分析流程

一般来说，统计先从现实世界收集数据（信息），如观测路口的交通然后，根据数据作出判断，称为模型模型是从数据产生的模型也需要根据新的信息来改进不存在完美的模型模型的最终结局都是被更能够说明现实世界的新模型所取代

数据的产生：数据如何得到？资料分析：解读数据统计描述：数据制图概率：将事实和无关紧要的信息分离统计推断：用少量数据，推断大量总体
描述性统计

总体——参数样本——统计量
样品中心的统计量（集中趋势）

平均值：x分别为样本的各个数值；n为样本数值的个数 1号坑石片重量的平均值是 12.33g (12块石片重量的总和，除以石片的总数12)，而2号坑石片重量的平均值是11.42g (13块石片重量的总和，除以石片的总数13)。中位数：若样本的个数是奇数，则中位数即为样本的中间数值，而若样本的个数是偶数，则为中间两个数值的平均值。
双（多）峰

必须拆分
样本的离散趋势

全矩：极差
样本中最大数值和最小数值之差。完全没有抵抗性。

四分位差：是样本中间一半的全距。在样本数值中，它不考虑其最大和最小的四分之一部分。可将其视为一种调整过的全距。
方差和标准差

样本中较高的数值相对于平均值，具有正偏差(因它们大于平均值)，而较低的数值则具有负偏差(因它们小于平均值) 。偏差之和必然等于零，故其平均值也为零。
统计、计算机与统计软件

现代生活越来越离不开计算机了，最初的计算机仅仅是为科学计算而设计和建造的。统计是大型计算机的最早用户，现在仍然是数值计算的主要用户计算机的使用，从计算机语言到 “傻瓜式”地点击鼠标，输出结果也从数字输出到各种可以想象得到的形式。输入数据，点鼠标做一些选项，就可得到漂亮结果，但其中充满了危险的陷阱
小心潜在变量，变异无所不在
样本比较

直方图和茎叶图位置统计量：集中趋势尺度统计量：分散趋势
箱图

中位数四分位差异常值超异常值

异常值应该和方框边界大于一个半方框的长度。我们可以从纯粹图解的方法来考虑。我们可以测量如图所示箱图的框的长度。如果方框是一英尺长，那么我们可以认为任何一个和方框边界（或上或下）距离大于1.5英尺的数据就是异常值。 x代表数据聚集的范围（不包括所有的异常值）。异常值在图中都是空心点来表示，超异常值都是用实心点表示。
x X
n

异常值的出现，总是显著影响样本的平均值，而丝毫不会影响其中位数。用统计学的术语说，中位数具有良好的抵抗性，而平均值不具任何抵抗性。异常值剔除：正确？其他类型？直接？
截尾平均值

为1号坑样本调整5%的平均值，等于剩余数值的和除以nT(10)后所得的商，即11.17g。欲求2号坑样本调整5%的平均值，同样需先从样本两端各剔除一个数值(0.05╳13=0.65，进位为1)，再将剩余数值的总和除以nT(11) 得到，其具体的调整平均值为11.48g。截尾平均值与原初的平均值不同，它可抵消异常值的影响。

像这样聚集的样本是相当普遍的，而一个或几个数值远离大多数值聚集区域的样本也颇为常见，这些偏离甚大的数值通常称之为异常值，后面将对它们作较详细的讨论。这里需强调的是，对这些异常值，要特别怀疑并加以验证。该样本中，直径44.6cm的柱洞显然是不正常的，应怀疑某人记录此测量数据时出了差错。迅速核对田野记录或照片，应能判断该记录的正确与否，如属记录错误，则立即将其纠正。如果测量确实无误，则表明这个样本有这样一个突出的特征，即有个柱洞似乎完全不同于其余柱洞。

现实中的随机性和规律性

e商务文档

统计在考古学中的应用-第一讲

相关文档推荐：