第五章 质量数据的统计处理
x
1 n
n
xi
30
i 1
注意:在数学上,均值有两个非常重要的数学性质 • 各个样本数据与均值的离差之和为零。
(x
i 1
n
i
x)
=0
• 各个样本数据与均值的离差平方和最小。
n
( xi x)
2
=最小值
i 1
31
(2)样本中位数
适用情况:当样本数据中存在极端数据时(个别数据 特别大或者特别小),样本均值组为数据集中趋势的 代表不合适,从而引入另一个特征量――样本中位数, 它是将样本数据从小到大排列后处在中间位置上的数 据,当样本容量为奇数时,它恰为中间的一个数,当 n为偶数时它是中间两个数据的平均值。
7
二、质量数据的分类
在日常所进行的质量管理活动中,经常会遇到两类 形式的质量信息: 一类表现形式是数据的,即质量数据: 对于质量数据,可以运用一些处理工具和技术,如 直方图、排列图、控制图、散布图等做出判断; 另一类是非数据的,即非数据形式的质量信息: 而对于非数据形式的质量信息的加工、分析和判断, 可以运用分层法、因果图、调查表等做出分析和判 断。
33
(3)众数
在一批数据中,出现次数最多的那个数称为众数,
记做M0
如,某厂先后对本厂的某型号的一批产品的不合格数进行统 计,得到如下表所示的数据。 不合格(个) 出现次数 0 8 1 20 2 32 3 48 4 20 5 21 6 11
对照定义可以看出,出现3个不合格品的次数最多,共有48 次。故众数
12
另外,对于一些特殊的场合,还可以把质量数据分 为顺序数据、点数数据和优劣数据等。 1、顺序数据:
例如把10类产品按评审标准顺序排成1,2,3,…,10,这样 的数据就是顺序数据。在对产品进行综合评审而又无适当仪 表进行测量的场合常用这类数据。比如我们经常见到在竞赛 中的排名(第一名、第二名……)。如:按外观美观程度对 10种手机的排序得到的一组排序值。
描述总体数据离散程度的参数为方差σ2 ,描述总体数据中 心倾向的数为均值μ 。若利用样本参数近似描述总体状况 时,可以利用样本方差S2近似代替总体方差σ2,利用样本均 值X近似代替总体均值μ 。
28
四、质量数据统计特征的描述
常用的统计量有两大类, • 一是反映样本数据集中程度的特征量
样本平均值,样本中位数、众数等;
M0=3
34
2、表示样本数据离散程度的特征数
(1)极差 x 若记排序后的样本测定值为x1 x2 …… n,则
R=xn-x1
极差能正确反映数据的范围
35
(2)方差 当样本容量增大的时候,数据中出现最大或最 小异常值的可能性也将随之增大,这时用样本 极差表示数据的波动程度的可靠性随之下降。 为了充分利用样本数据,常用样本方差来表示 数据的波动。
简单随机抽样的优缺点是什么? * 优点:方法简单直观,由于总体中每个 个体抽取的概率相等,计算抽样误差及 对总体参数加以推断比较方便。 * 缺点:抽样顺序比较复杂,在实际工作 中,真正做到总体中每个个体被抽到机
会完全一样是不容易的。
21
系统抽样
又称机械随机抽样或等距随机抽,即将总体单位按某一标志 (如时间)排序,然后按一定间隔来随机抽取样本。 例,从具有100个个体的总体中抽取10个个体。 1, 2, …… 91, 92, ……..100: 95 …….10: 5
它是样本数据集中所有观测值的离差平方和的 “平均值”。记为 S2
S2=
(x n 1
i 1
1
n
i
x)
2
36
(3)标准差
样本方差的纲量与原始数据的纲量不同,它是原 始纲量的平方,所以在实际的应用中我们常用其 算术平方根,称为样本标准差,记为S。
n
S=
n 1
1
( xi x)
2
i 1
• 二是反映样本离散程度的特征量 样本极差、样本标准差、样本方差等。
29
1、表示样本集中程度的特征量
(1)样本平均值
表示n个样本测定值为x1,x2,…xn,则样本平均值为 样本中的多数数据分布在样本均值附近,因此样 本均值表示了样本数据的“质量中心”,是数据 高低相抵、误差正负相抵后客观事物必然性数量 特征的一种反映。
26
整群抽样的优缺点是什么?
* 优点:抽样实施比较方便。
* 缺点:由于抽样来自个别几个群,而不 能均匀分布在总体中,因而代表性差,
抽样误差大。
27
抽样的目的是通过样本来反映总体。
在质量管理中,常常将测试的样本数据,通过整理加 工,找出它们的特性,从而推断总体的变化规律、趋 势和性质。 一批数据的分布情况,可以用中心倾向及数据的分散 程度来表示,表示中心倾向的有平均值、中位值等, 表示数据分散程度的有方差、标准偏差、极差等。
11, 12, ……..20:
15
如果被抽总体足够大,并且易作某种次序的整理时,适用 于大批量生产的流水线上产品的抽查。
22
系统抽样的优缺点是什么?
* 优点:实施方便,同时能够保证样本对
总体的代表性。
* 缺点:总体单位排序后呈现一定的规律
性甚至周期性,而抽样间隔的周期正好
与之吻合,依赖于这样排列的系统抽样
17
1、随机抽样
是指从总体中随机抽取一定数目的个体单位作为
样本进行观察,使每个个体单位都有一定的概率
被选入样本,从而使根据样本所做出的结论对总 体具有充分的代表性。
随机抽样能有效地避免主观性导致的倾向性误差(系 统误差),使得样本资料能够用来有效地估计和推断 总体的数量特征,并通过计算抽样误差,说明估计结 果地可靠程度。
就因而会产生系统性的偏差。
23
分层抽样
分层抽样是先将总体按照研究内容密切有关的主要因素分 类或分层,然后在各层中按照随机原则抽取样本。分层抽 样可以减少层内差异,增加样本的代表性。 抽样
样本
当获得的资料不均匀,或呈偏态分布时,分层抽样是一种 有效的抽样方法;适用于产品质量的验收。
24
分层抽样的优缺点是什么?
x 若记排序后的样本测定值为x1 x2 …… n,则
x
n 1 2
~ x
1 2
n为奇数
1
[xn xn ]
2 2
n为偶数
32
如何选择使用样本均值和样本中位数?
注意:
• 在实际应用中,要根据不同的研究目的和不同的数据 分布特征来选择均值或中位数作为集中趋势的代表值。 • 一般的,当数据呈现对称分布或近似对称钟形分布时, 均值与中位数时一致的,应当选择均值作为数据集中 趋势的代表值。 • 但当数据分布的偏斜度较大(出现极端值情况)时, 均值容易受到极端数据的影响,不能很好地反映样本 数据地集中趋势,应该选择中位数作为集中趋势地代 表值。 1、3、4、5、7、8、10、50
10
质量数据—计数值数据
计件值数据:对产品按件检查时得到的数据。 如:批产品中的不合格品数、事故件数等
指1,2,3……,
11
质量数据—计数值数据
计点值数据:检查单件产品上质量缺陷时得到的数 据。 如:单位棉织品上的瑕疵点数、铸件上的砂眼数, 收音机底版焊点数等。
注意:表示百分率的数据(如出勤率、不合格品率、退修率 等)。其类型取决于其分子数据的类型。
37
五、收集质量数据注意事项
1. 明确收集数据目的与方法;
2. 注意数据的修正,剔除异常数据;
3. 数据记录要真实、可靠、准确; 4. 测定和记录工作应标准规范;
如年月日的书写:07/04/10; 04/10/2007; 10/04/2007
5. 注意记录与数据有关的数据背景。
如测试时间、地点、数量、测试者、零件号、批号、名称 规格及必要的环境 条件等。 有利于分析问题,且可以避 免不同条件的数据混淆。
8
质量数据
1、计量值数据:
适用于长度、重量、时间、强度、温度等质量特 性值的分析和控制。计量数据可以通过某种量具、 仪器等测定到,它们可以在某一区间内连续取值。 注意:这类数据具有连续型随机变量的分布特征, 符合正态分布。
9
质量数据
2、计数值数据:
是对批产品中的不合格品数或单位产品上的缺
陷数进行检查时得到的正整数数据。 计数值数据又可分为: 计件值数据 计点值数据
38
数据的修整
过多的四舍五入会造成误差过大,可采取进位和舍弃机会 均等的修整方法: (1)位数>5,则:进位并舍去后面的数,如:1.126→1.13 (2)位数<5,则:舍去,及后面的数,如:1.124→1.12 (3)位数=5,则:
后面的数为0或无数字,5前面的数为奇数进一、偶数 舍去。如:1.125→1.12;1.135→1.14
18
2、随机抽样的方法
简单随机抽样
随
机
抽
系统抽样
样
分层抽样
整群抽样
19
简单随机抽样
指总体中每一个个体都有同等可能的机会被抽到。这种抽样 方法事先不能考虑抽取哪一个样品,完全用偶然方法抽样, 常用抽签或利用随机数表来抽取样品以保证样品代表性。
抽样
当总体容量不大时,随机抽样是一种有效的抽样方法;
20
• (3)总体容量:
• 总体中所包含的个体数量称为总体容量,通常用N来表示。 • 一批零件、一个工序或某段时间内生产的同类产品的总数量
16
• (4)样本:
样本又叫子样,是从总体中抽出来一部分个体的集合。 一般我们用X1.X2…Xn来表示总体的一个样本 样本中每个个体叫样品,样本中所包含样品数目称为样本 大小,又叫样本量,常用n表示。 对样本的质量特性进行测定,所得的数据称为样本值。 样本数据的取值记为x1、x2…xn,称为样本观测值 当样本个数越多时,分析结果越接近总体的值,样本对总 体的代表性就越好。