当前位置:
文档之家› 统计在考古学中的应用-第一讲
统计在考古学中的应用-第一讲
210
200
158 96 5
190
248 250 259 323
180
盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线 (边)为上下四分位数(点);按照SPSS的默认选项,如果所有 样本中的数目都在离四分位点1.5倍盒子长度之内,则线的端点为 最大和最小值,否则线长就是1.5倍的盒子长度(盒子长度称为四 分位间距),在其外面的度量单独点出
统计学在考古中的应用
第一讲
统计学
以归纳为主要思维方式的统计不是以演绎 为主的数学
统计可应用于各个不同学科,在有些学科 已经有其特有的方法和特点;如生物统计 (biostatistics)、经济计量学(econometrics)以及 目前很热门的生物信息(bioinformation)和数 据挖掘(Data Mining)的方法主体都是统计。
太密的茎叶图
划分区间要相等 个体数目平方根作为分组数目
双重茎叶图
直方图
旋转90º ,删除图中叶的具体数字,而以方 框高度简单表示叶的个数
多峰
两个数值聚集中心在图上如同两个小峰。 这种多峰的数值聚集方式明显暗示着两者 截然不同的情况,在这里,即为两种不同 类型的遗址,或许可将它们称之为大遗址 和小遗址。茎叶图和直方图上的数值聚集 方式,表明这两种遗址被明确分开。这就 是说,Kiskiminetas河谷中遗址大小的划分, 并非主观臆断,而是其样本数列内在特征 的反映。
计算机无法识别你的统计方面的错误
错误的方法、错误的数据形式都必然输出错 误的结果(虽然看上去可能很漂亮),得到 大量垃圾 另外,统计软件输出的结果太多、很难都理 解
考古学研究中应用统计的化——思维模式的变化 全过程中贯穿定量思想 计算机辅助 定量与传统考古方法的结合 国际交流需要 定量陷阱
分层定量统计
器物特征的定量
考古中的随机发现
男性:69.2% 女性:45.5% χ2分布检验 随葬品与性别有关 18%犯错
有随葬 无随葬 品 品 男 18 8
女
5
6
大信息量的考古资料
化学成分 植硅石测量数据 体质人类学测量数据
数据制图
直观表示 二维图 三维图
高三男生身高
170
160
150
140
N= 163 175
地区1
地区2
地区
数列中心的标准化
离散程度的标准化
Z得分
平均值 标准方差
Z (X X ) / s
数列的形状或分布
对称性 中位数 平均值
变换
用数列中的所有数据减去中位数或平均值, 产生一个标准化水平的新数列,这种操作 是将它的中心调为零的同时,保留了数列 的形状和离散度。接着我们在一个零水平 的数列中将所有数列除以四分位差或标准 差来得到标准化离散度的数列,这是将数 列的离散度调为标准值1
学习内容
描述性统计 随机抽样 概率论 C14测年 统计推断 抽样中的特殊问题 多元统计 上机操作
教材和统计软件
陈铁梅.定量考古学.北京大学出版 社.北京,2005 Excel SPSS Origin WinBASP 其他……
评分标准
考试 40% 课堂交流 20% 课后作业 20% 课题设计 10%
考古学
利有实物遗存资料去复原古代社会的科学
海量数据:测量、描绘。。。 统计描述
抽样过程、随机
“样本”(局部)推断”总体“:发掘的随机性 统计推断
数量关系
认识古代社会
一个器物、墓葬、房址、遗址? 磁山类型 58% 裴李岗类型 57% 动物骨骼百分比
百分比关系
野羚羊绵羊、山羊
s
2
x x
n 1
2
截尾方差
sT
2 n 1 sW
nT 1
将火石原料制成的刮削器视为一个样本数 列,而将燧石原料制成的刮削器视为另一 个样本数列,绘出刮削器长度的双重茎叶 图(这次忽略了刮削器出土遗址的不同)。如 何比较这两个样本数列?能否看出什么规 律,有助于解释上述所有刮削器长度组成 的茎叶图?
数字之间有矛盾 用可靠信息来源进行 对比 数据太好了
简单的算术问题
车祸: 42%的车祸发生在周五、周六和周日 数量变动的百分比:5000->7000->6000
数据统计表
茎叶图
将一组测量值直接罗列出来,人们通常难以获取 其深层次的信息,因此,欲分析一组样本,首先 需将它们重新组织。
车商甲 1985-1991 借通用汽车 60亿美元 1990年12月 4.25亿美元 17000辆厢车进行改 装出口 有问题么?
厢车改装行业一个月17000辆 行业协会报道 1.35%外销
数据虚假
数据是如何产生的 测量的事物?
检查途径
信息不完整:
下雪天车祸28起 高考分数
数据类型
名称变量
形态:平底、尖底、圜底 纹饰:绳纹、蓖麻纹 性别
有序变量
年龄 分期 地层次序
数值变量
数量 百分比 重量 成分
考古器物的定量描述
陶豆
• • • • • • 通高 口径/通高 柄高/通高 盘深/通高 最大直径/最小直径 纹饰:有无
数字合理性检查
Exploratory Data Analysis
茎叶图 箱图 中位数 四分位差
名义变量
统计分析流程
一般来说,统计先从现实世界收集数据 (信息),如观测路口的交通 然后,根据数据作出判断,称为模型 模型是从数据产生的 模型也需要根据新的信息来改进 不存在完美的模型 模型的最终结局都是被更能够说明现实世 界的新模型所取代
数据的产生:数据如何得到? 资料分析:解读数据 统计描述:数据 制图 概率:将事实和无关紧要的信息分离 统计推断:用少量数据,推断大量总体
描述性统计
总体——参数 样本——统计量
样品中心的统计量(集中趋势)
平均值:x分别为样本的各个数 值;n为样本数值的个数 1号坑石片重量的平均值是 12.33g (12块石片重量的总和, 除以石片的总数12),而2号坑石 片重量的平均值是11.42g (13块 石片重量的总和,除以石片的 总数13)。 中位数:若样本的个数是奇数, 则中位数即为样本的中间数值, 而若样本的个数是偶数,则为 中间两个数值的平均值。
双(多)峰
必须拆分
样本的离散趋势
全矩:极差
样本中最大数值和最小数值之差。 完全没有抵抗性。
四分位差:是样本中间一半的全距。在样 本数值中,它不考虑其最大和最小的四分 之一部分。可将其视为一种调整过的全距。
方差和标准差
样本中较高的数值相对于平均值,具有正 偏差(因它们大于平均值),而较低的数值则 具有负偏差(因它们小于平均值) 。 偏差之和必然等于零,故其平均值也为零。
统计、计算机与统计软件
现代生活越来越离不开计算机了,最初的计算机 仅仅是为科学计算而设计和建造的。统计是大型 计算机的最早用户,现在仍然是数值计算的主要 用户 计算机的使用,从计算机语言到 “傻瓜式”地 点击鼠标,输出结果也从数字输出到各种可以想 象得到的形式。输入数据,点鼠标做一些选项, 就可得到漂亮结果,但其中充满了危险的陷阱
小心潜在变量,变异无所不在
样本比较
直方图和茎叶图 位置统计量:集中趋势 尺度统计量 :分散趋势
箱图
中位数 四分位差 异常值 超异常值
异常值应该和方框边界大于一个半方框的 长度。我们可以从纯粹图解的方法来考虑。 我们可以测量如图所示箱图的框的长度。 如果方框是一英尺长,那么我们可以认为 任何一个和方框边界(或上或下)距离大 于1.5英尺的数据就是异常值。 x代表数据聚集的范围(不包括所有的异常 值)。异常值在图中都是空心点来表示, 超异常值都是用实心点表示。
x X
n
异常值的出现,总是显著影响样本的平均 值,而丝毫不会影响其中位数。用统计学 的术语说,中位数具有良好的抵抗性,而 平均值不具任何抵抗性。 异常值剔除:正确?其他类型?直接?
截尾平均值
为1号坑样本调整5%的平均值,等于剩余数 值的和除以nT(10)后所得的商,即11.17g。 欲求2号坑样本调整5%的平均值,同样需先 从样本两端各剔除一个数值(0.05╳13=0.65, 进位为1),再将剩余数值的总和除以nT(11) 得到,其具体的调整平均值为11.48g。 截尾平均值与原初的平均值不同,它可抵 消异常值的影响。
像这样聚集的样本是相当普遍 的,而一个或几个数值远离大 多数值聚集区域的样本也颇为 常见,这些偏离甚大的数值通 常称之为异常值,后面将对它 们作较详细的讨论。这里需强 调的是,对这些异常值,要特 别怀疑并加以验证。该样本中, 直径44.6cm的柱洞显然是不正常 的,应怀疑某人记录此测量数 据时出了差错。迅速核对田野 记录或照片,应能判断该记录 的正确与否,如属记录错误, 则立即将其纠正。如果测量确 实无误,则表明这个样本有这 样一个突出的特征,即有个柱 洞似乎完全不同于其余柱洞。
现实中的随机性和规律性