散布图(scatter diagram)
又名:散点图( scatter plot) ,X-Y图(X-Y graph)
概述
散布图是分别用横、纵坐标轴表示一对变量,来描述它们之间相互关系的一种工具。
加果这两个变量相关,点的分布呈直线或曲线形状。
相关性越强,这些点的散布形状越接近一条直线。
适用场合
·当收集到一组成对数据后;
·当因变量的值可能受多个自变量值的综合影响时;
·当试图确定两个变量是否相关时,例如:
——鉴别问题潜在的根本原因;
——采用头脑风暴法列出问题因果关系的鱼骨图后,客观地验证这种因果关系是否真的存在;
——判断出现的两种相关结果是否都由相同的原因引起;
——构建控制图之前对自相关性的检测。
实施步骤
1.为可能存在关联的变量收集成对的数据。
2.画一张坐标图,将自变量标于横轴,因变量标于纵轴。
在每一个数据对应的横坐标值和纵坐标值的相交处画点或记号。
如果有两个点落在一起,就在此处画两个相连的点,确保都可以被看到。
3.通过点的分布特征,查看相关关系是否明显。
如果数据点清晰地形成一条直线,便可以证明变量相关,就可以使用回归分析或关联分析进行进一步的分析研究了。
否则要继续完成步骤4~7的工作。
4将图表中的点分成4个象限。
如果在图中有X个点:
从上到下,数出X/2个点,在此位置画一条垂直于纵轴的直线;
从左到右,数出X/2个点,在此位置画一条垂直于横轴的直线。
注意:如果点数为奇数,直线会经过一个点。
5数出每一个象限内点的个数.不包括落在直线上的点。
6把对角象限内点的个数加起来,并找到其中的较小者以及算出所有象限内点的个数:A=Ⅰ象限点的个数+Ⅲ象限点的个数
B=Ⅱ象限点的个数十Ⅳ象限点的个数
Q=A和B中的较小者
N =A+B
7在趋势检验表(表5. 18)中找出N允许的极值。
·如果Q小于临界值,这两个变量相关;
·如果Q大于或等于临界值,表明分布是随机的。
示例
这个例子是第4章ZZ-400改进项目的一部分。
ZZ.-400制造小组怀疑产品纯度(%)和铁含量(10-6)之间存在相关关系。
关于纯度和铁含量的散布图如图表5.172所示。
图表中共有24个数据点。
中位数线(X/2)画出后,各有12个点落在中位数线的两侧。
为检验相关关系,计算如下:
A=Ⅰ象限点的个数+Ⅲ象限点的个数=4+3=7
B=Ⅱ象限点的个数+Ⅳ象限点的个数=8+9 =17
Q=A和B中的较小者=7和17中的较小者=7
N=A+B=7+17=24
在趋势检验表(表5. 18)中找出N的临界值。
当N=24时,临界值是6。
如果Q小于这个临界值,这两个变量相关。
如果Q大于临界值,表明这种分布特征可视为随机出现。
在本例中:
Q=7>6
因此,此分布特征可视为随机出现,没有表现出相关关系。
注意事项
·在什么情况下可以应用散布图?下面是几个例子:
——变量n代表15分钟以后的一个反应的温度。
变量B代表产品颜色的测度。
你认为温度越高可能导致产品越黑。
在散布图中描绘温度和颜色的数据点。
——变量A代表新软件的培训人数,而变量B代表计算机热线服务电话的呼叫次数,你认为培训人数的增加可能会导致呼叫次数的减少。
在散布图中描绘培训人数和呼叫次数的数据点。
——用控制图检验测量数据的自相关性。
在特定的时间测量出变量A的数据,变量B也采用相同的测量方法,但是要用变量A对应数据的前一个时间点的数据。
如果散布图显示出相关性,就再做一张图,变量B采用比变量A提前两个时间段的观测数据。
持续增加散布图中两个变量的时间间隔,直到显示出它们之间没有相关性。
·即使散布图表明了某种相关关系,也不要轻易认为变量之间是因果关系,因为这两个变量可能同时受第三个变量的影响。
·画出数据点后,点的散布形状与直线越相近,这两变量之间的相关性就越强。
参考“相关性分析”中的图表5. 39至图表5.42,以及它们的曲线图类型和相关解释。
·如果直线的趋势不明显,那么由统计量(N和Q)来判断某种相关关系的存在是否具有必然性。
如果由统计量判断相关关系不存在,那么图中的分布情况就可视为随机出现。
·如果散布图表明变量之间不相关,可以考虑数据是否被分层了。
更多的细节请参阅“分层法”。
·如果图中显示两个变量不相关,考虑是否自变量分布范围过宽。
有时是因为数据覆盖的范围不够宽而导致相互之间的关系不够明显。
·充分发挥创造力去思考如何使用散布图去发现问题的根本原因。
·通过“图形方法”了解更多关于图表技术的知识。
通过对决策树图(图表5.68)的研究可以让你更清楚在什么时候使用散布图,以及什么时候附加运用一些其他图表工具对你的工作更有所帮助。
·画出散布图只是分析变量之间关系的第一步。
通过学习“相关性分析”和“回归分析”掌握需要的相关统计方法。
END。