QC(旧)七大手法之六——散布图(scatter diagram)第一小节散布图的观察分析一.定义散布图,也称散点图、相关图,散布图法又称为相关图法,QC要掌握的是平面散布图,是指通过分析研究两种因素的数据(成对出现)之间的关系,来控制影响产品质量的相关因素的一种有效方法(图示技术)。
散布图是研究成对出现的两组数据之间关系的图示技术。
在生产实际中,往往是一些变量共处于一个统一体中,它们相互联系、相互制约,在一定条件下又相互转化。
有些变量之间存在着确定性的关系,它们之间的关系,可以用函数关系来表达,如圆的面积S=πr2,有些变量之间却存在相关关系(即统计关系),即这些变量之间既有关系,但又不能由一个变量的数值精确地求出另一个变量的数值,如钢铁材料强度与含碳量之间的关系,车间的照明度与IPQC的测量误差之间的关系,人的身高与体重之间的关系等,这种统计关系只能用统计技术去研究,即将这两种有关的数据列出,用点子打在坐标图上,然后观察这两种因素之间的关系,这种图就是散布图或相关图,对散布图的分析称为相关分析。
散布图中所分析的两种数据之间的关系,一般有三种:可以是特性与原因的关系,即特性——原因(结果——原因);也可以是某一特性与另一特性的关系,即特性——特性(结果——结果);还可以是同一特性的两个原因之间的关系,即原因——原因。
散布图分析法,是适用范围较广的一种数理统计方法。
只要生产或试验中,存在着一些变量共处于一个共同体中,并且它们的关系又是不能用函数表示的非确定性关系,就可以运用散布图法来分析其是否具有相关关系以及这种关系的密切程度(即相关系数大小)。
若同时存在的不只是两个变量,而是多个变量,则可以两两分别作散布图来加以分析。
当然,也可用正交试验设计方法来对多变量(因素)之间的关系进行分析,并求得它们之间的最优配合。
注:用相关图法,可以应用相关系数r、回归分析等进行定量的分析处理,确定各种因素对产品质量的影响程度。
如果两个数据之间的相关程度很大,那么可以通过一个变量的控制来间接控制另外一个变量。
一般两组变量之间可能存在的关系有函数关系、相关关系和不相关三种情况。
相关关系是普通存在的,而函数关系仅是相关关系的特例。
质量是一种随机现象,在产品实现的过程中,存在两类因素影响产品质量的特性,其一是随机性因素(偶然性因素),其二是系统性因素(非随机性因素即确定性因素)。
在一定生产力水平下,随机性因素是不可观测和不可控无须控制的因素,在这种因素作用下产品质量特性的变化不会超出允许的界限(公差),产品质量符合要求。
而系统性因素是确定性因素,是构成生产过程的必要条件,可观测可控制,发生异常变化,产品质量特性则会超出允许的界限,产品质量将不会符合要求。
因此,在质量管理中,观测和控制这些决定产品质量特性是否符合要求的系统性因素,是一项重要的控制活动。
产品质量特性与影响因素的关系,可能没有确定的函数关系,但却具有某种关联,即原因和结果的关系。
如何确定影响产品质量特性的因素之间存在的相关关系?能否通过控制相关因素达到控制产品质量的目的?这就是散布图要回答的关键问题。
二.散布图的作图过程第一步:将需要研究是否有关系的两种数据收集30组或对(至少30对)以上,并一一对应地填入数据表:第二步:在坐标纸上画出纵坐标轴Y 和横坐标轴X ,并找出X 轴和Y 轴的最大值和最小值,分别给予适当的标度(定);纵坐标越往上取值越大,横坐标越往右取值越大,横坐标上数据的最大值和最小值之间的宽度,应与纵坐标上数据的最大值和最小值之间的长度基本相等(不可相差太大),以便于分析相关关系。
若所分析的两种数据之间的关系是特性和原因的关系,则通常以X 轴表示原因数据(或称为自变量),以Y 轴表示特性数据(或称为因变量);若两种数据之间是两种特性的关系,或同一特性的两种原因之间关系,则通常以X 轴表示较易测定的那种特性或原因的数据,以Y 轴表示较难测定的特性或原因的数据。
第三步:将一一对应的数据,用坐标点在图上表示出来(即描点)。
若有两组数据完全相同,则可用两重圈⊙表示;若有三组数据完全相同,可用三重圈◎表示或⊙3,依此类推。
第四步:填入必要的项目:图名、取样时间、取样方法、测定方法、测定仪器、观测者、环境条件、数据组数量、XY 轴名称及单位等。
(以上為電腦繪圖)皮帶速度X9.01010 1020 1030 1040 1050 5.0 6.0 7.0 8.0 工程別: 製品名: 日 期: 製錶者:三.散布图的观察分析(六种形式)注意:研究相关关系必须包括相关性质(正相关、负相关)和相关程度(强相关、弱相关)两个方面。
(1).对照典型散布图例法(是散布图分析法中最粗略的分析法,只适用于较明显的相关关系的情况) 根据测量的两种数据作出散布图后,就可以从散布图上点子(云)的分布状况,看出这两种数据之间是否有相关关系,以及关系的密切程度。
散布图的基本形式有六种:Y因素 (5)無相關關係(不相關) (6)非線性相關(曲線相關) X 因素X 因素 Y 因素 · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·· ·· · ···· ·r =0 r =0 如:氣壓與溫度产品质量与工厂规模如:人的記憶與年齡人对财富的追求与幸福指数X ,Y 無法表示關係,即X 與Y 不存在相關關係,說明X 不是影響Y 的因素 X 變化,Y 也變化但不成線性關係,而是呈現一種曲線關係 Y因素 (3)強負相關 (4)弱負相關 X 因素 X 因素Y 因素 · · · · · · · ·· · · · ·· · · ···· ··· r ≈-0.9 r ≈-0.6 如:投資率與失業率 员工的OJT 与不良率 如:人的血壓與年齡做好品管与学历X 增大時Y 顯著減小,分佈帶窄,說明X 是影響Y 的主要因素 X 增大時Y 大致減小(即減少不明顯),分佈帶寬,說明X 是影響Y 的因素,但不是唯一因素 Y因素(1)強正相關 (2)弱正相關 X 因素 X 因素Y 因素 · · · · · · · · · · ·· · ··· ··· ·· · · · ·· · · ·r ≈0.8 r ≈0.6如:汽車馬力與載重 合金含碳量与强度 如:人的體重與身高 IPQC 检验失误与车间的光照度 X 增大時,Y 顯著增大,分佈帶窄,說明X 是影響Y 的主要因素 X 增大時,Y 大致增大(即增大不明顯),分佈帶寬,說明X 是影響Y 的因素,但不是唯一因素如果具有线性相关关系即(1)、(2)、(3)、(4),那就可以通过控制比较容易控制的因素,来达到控制难以控制的因素。
观察散布图时,应注意以下几种情况:1.应观察是否有异常或离群的点出现,如图中有A 点和B 点就是两个异常点2.散布图如果处理不当也会造成假像。
如上图左所示,若将X 的范围只局限在中间的那一段,则在此范围内看,Y 与X 似乎并不相关,但从整体看,Y 与X 事实上相关关系还是比较密切的。
3.应注意必要的分层。
如上图右所示,从散布图上看Y 与X 之间的相关关系似乎很密切,但若仔细分析一下数据,发现这些数据原是来自三种不同的条件,或者说这些点子可以分成三个不同的层次A 、B 、C 。
从每个层次中考虑,X 与Y 实际上并不相关。
对于这种情况,在作散布图时就应事先进行正确的分层处理。
否则可能做出错误的判断(这是因为在不分层时,有时从整体上看观察不到两因素间的相关性,但分层后却出现相关关系;反之,也可能在不正确的过细分层情况下看不出因素的相关性,而从整体上观察却存在相关关系。
4.数据太少(少于30组),易发生误判(故数据的收集,不得少于30组,50-100组最佳)。
5.要有适宜的取值范围。
作散布图时,应根据专业理论知识和实践工作经验,合理确定自变量的取值范围,否则也会导致错误的分析结论。
散布图的相关性规律的运用范围也必须限于观测值数据范围内,任意扩大相关判断范围将造成结论错误,当取值范围不同时,应再做相应的试验与分析。
YX XY————————————————————————————· · ·· · · · · · · · · ·· · · · · ·· · · · · · ·· · · · ·· · · ··· ·局部与整体的散布图 应分层处理的散布图ABC XY 对于异常点,应查明原因,它是由于测量错误造成的,还是由于生产或实验条件的突然变化造成的?如果经调查后,表明它是由于不正常的条件或错误造成的,例如是A 点,就应将它剔除。
对于那些找不出明显原因的“异常点”,应慎重处理。
它们很可能包含着未认识到的其他规律,如B 点,由于对应于较大的X ,很可能此时Y 与X 的关系就不是线性关系了。
····· · · · ·· B· · ···A ·6.通过散布图可以对变量间的相关趋势做出估计,但是由于缺乏客观的统一的判定标准,可靠性较差,还只能说是一种定性判断的方法。