当前位置:文档之家› 图形分析与数据挖掘

图形分析与数据挖掘


M
A
I
C
S
为何使用?

总结在一段时间内收集的来自流程的数据,并以条图形式表达其频率分布。

它能做什么?

展示不同的数据值出现的相对频率。 展示数据的中心、变异和形状。 快速了解数据的根本分布。 为流程未来的的表现提供有用的预测。 指出流程是否有变化。 协助回答问题:“流程能否满足客户的要求?” 将数据以容易理解的方式表达。
I
C
S
3. 时间序列图
追踪趋势

为何使用 ?

让团队研究在特定时间段里已观测的数据之趋势或
模式。

它有什么用?

监控一个或多个流程在一段时间的绩效以探测趋势或 模式。 让团队比较实施解决方案前后的测量绩效。 将关注点放在对流程有真正关键的改变上。 追踪对预测趋势有用的信息。

3. 时间序列

D
M
A
I
C
S
将同样的数据按区间分组并注明其出现的次数,每个区间 的高度是由一段时间内数据掉进区间的次数所决定的。
40
30
Frequency
20
10
0 9.90 . 10.00 10.10 10.20 . 10.30 10.40
Access Time (ms)
7a. 直方图
流程中心,分布和形状

D

D
M
A
I
C
S
画出数据

看一看采集的数据。如果没有明显的趋势,计算平均值或算术中项。平均值是测 量数据之和除以数据点数。也可以使用中位数,但均值更常用于测量样本的“集中 性”。在均值处画一条直线。
测 量 Y轴
• •
• •

X轴
平均

时间或系列
不要每次有新数据增加时就重新画平均线。当流程或主要条件有重大改变 时再重新计算和重画,且仅使用在确认改变后的数据点。
D
M
A
IБайду номын сангаас
C
S
2. 柏拉图
关注关键问题

为什么使用?

通过将数据出现的相对频率或大小在逐步下降的条块图中排列,
使得将改善关注点集中在潜在影响最大的问题上。
Pareto Chart by Product
100 6000
Scrapped Units
5000 4000 3000 2000 1000 0
80 60 40 20 0

D
M
A
I
C
S
练习

假定机器A,B,C制造相同的产品(范围图受控)。 假定产品输出变量的目标值是100mm。
X-bar Chart for Machine A
145 135 125 115 105 95 85 75 65 55 0 10 Sample Number 20
0 10 Sample Number
3. 时间序列

D
M
A
I
C
S
数据解析

注意平均线的位置。它对客户需求或规格来说是否在正确的位置?它对你 的经营目标来说是否在正确的位置?
TIP:使用运行图时的危险是将数据的每一个变化都视为重要的倾向。
控制图是时间系列图的特殊例子。
4. 控制图
UCL _ X LCL
D
M
A
I
C
S
UCL _ X
认识变异的来源

6. 点图

D
M
A
I
C
S
在点图中,一个圆点代表一个数据点。
很容易看到数据分布的位置和散布情况。
能判定数据是均匀分布或簇拥在一起。 Dotplot for C2 对于小样本量(特别是<10)的数据,点图很有用。


如果数据个数太多,数据点会拥挤在一起,难以解释。
点图对于比较2组(或多组)数据很有帮助。
LCL

为何使用?

通过研究变异和其根源监察,控制和改善流程绩效。

它有什么用?

将注意力集中在探测和监视流程的变异上。
区分变异特殊原因和普通原因,作为部门和管理层的行动指南。 作为对流程持续控制的工具。
帮助改进流程,使之一贯并可预测地产出更高质量、更低价格和更有效的
能力。 提供讨论流程绩效的共通语言。
re Int
pid
Isu
zu
c Es
ort
xus Le
O
rs th e
Percent
2. 柏拉图

D
M
A
I
C
S
它有什么用?

帮助团队将注意力集中在最大影响的原因上。 基于柏拉图原理 :20%的原因产生80%的问题 – 杠杆原理的思 维。 用简单、能迅速理解的格式展示问题的相对重要性。

D
M
A
99.99
Probability Plot of Shampoo
Normal
Mean 220.9 StDev 3.621 N 240 AD 3.322 P-Value <0.005
99 95
Percent
80 50 20 5 1 210 215 220 225 Shampoo 230 235 240
提供数据的基础 中心和变异趋势的快速测量 数据的透彻理解 描述和促进对数据的理解 确认分布假设
D
M
A
I
C
S
洗发水工厂

某洗发水工厂遇到一个难题,他们的洗发水灌瓶机器有一台出现 问题。 这台机器有两个漏斗(filler)和六个灌装头(head),应该给每个瓶 子灌入 220 ±10 毫升的洗发水 客户已经抱怨有些瓶子里洗发水没有满。 工厂经理也抱怨出货前检查发现有些瓶子里洗发水太多。 现场主管也抱怨机器在瓶子里洗发水达到溢出点时还过度灌注, 导致地面脏乱。 作为一名黑带,你被指派来判定到底发生了什么!

当数据不是正态时我们第一步该做什么?记住:看非参数 检验模块。
正态图:洗发水
\DataFile\Shampoo.mtw
Stat>Basic Stat>Normality test select Shampoo

D
M
A
I
C
S
Ho (原假设) 为数据是正态 P 为数据是正态的概率 当P < .05时,我们拒绝原假设 (认定数据为非正态) 更多关于假设检验的内容在第 二周的假设检验模块中。

它有什么用? 箱线图由下列组成:

矩形方框大致代表了中间的50%数据。 线段向两边延伸代表了数据的一般范围。
界外点由符号表示(远离其他数据的数值)。
D
M
A
I
C
S
箱形图
第1四分值
中值 Q2
第3四分值
最小值
最大值
|
1000 2400 3200
5700
| *12800
界外点
|
500
|
|
|
|
27 21 28 35 32 28 33 28 23 25
D
M
A
I
C
S
直方图
直方图中,利用竖条将数据分类。每个竖条的高度代表每组有多少
个数据。
20 20
12 10 4 1 0 10 15 20 25 30 35 40 Days 10
3
直方图是否显示了数据收集的时间顺序?
D
M
A
I
C
S
点图和直方图
哪个图最能描述出数据
7a. 直方图(续)
直方图例子
集中趋势 –流程分布是 否集中,太高或太低
客户要求
D
M
A
I
C
S
变异 –数据的分布如何? 变异是否太大
客户要求
流程 集中
流程在客户要求 之内
流程 太高 流程变异过大 流程 太低
D
M
A
I
C
S
直方图

直方图是频率分布的图形展示,可帮助我们评估数据的形状,中心和散 布情况。 当数据个数不少于30时,用直方图比较合适。 数据的总跨度被分成若干个相等的区间(区间、组、柱等)。
14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 (days)
集的形状?
20
形状是什么样的?
10
0
10
15
20
25
30
35
40
Days
D
M
A
I
C
S
综合所有工具

个别点 统计总结 直方图 分布 图
A
I
C
S
箱形图
*
界外点 最大分布 (= Min {高实际数据值, Q3 + 1.5 (Q3-Q1) } ) 75百分点(第三四分位数,或Q3)
+
均值 中值(50百分点) 25百分点(第一四分位数,或Q1) 最小分布 (= Max {低实际数据值, Q1 - 1.5 (Q3-Q1) } )
D
M
A
I
C
X-bar Chart for Machine C
X-bar Chart for Machine B
110
1
138.4
120
108.5 X=101.0 93.42
119.7
Sample Mean
X=100.7
Sample Mean
相关主题