几种常用的数据处理方法
出处:按学科分类—工业技术 南京大学出版社《工程师实用手册》第76页(5154字)
试验数据处理和分折的方法很多,中、小企业的工程技术中常用的有极差分析、方差分析和回归分析等方法,现在分别作简单的介绍。
(一)极差分析法
极差分析是通过计算和比较相差大小来分析处理试验数据的方法。用于多因数多水平的正交试验数据处理(当不考虑偶然误差对试验结果的影响时)较简便易行,仅需经过少量的计算就能够找到各因素对指标影响的主次程度,获得达到最佳指标时各因素的水平,以及明确进一步试验研究的方向。
例:柱塞组合件收口强度稳定性试验
油泵中的柱塞组合件,是由柱塞杆和柱塞头在收口机上组合收口而成(图2-1)。组合件要满足承受拉脱力F≥900kg的要求。为提高产品质量,解决拉脱力波动大的问题。某厂决定用正交试验方法安排试验,如图2-2所示,为柱塞头零件图。
图2-1 柱塞组
图2-2 柱塞头
根据经验,对拉脱力有影响的主要有四个因素:柱塞头的外径D,高度L,倒角K×β°和收口油压。并把每个因数取三个不同水平,见表2-1,试验方案见表2-2。
试验考察因数
实验方案
根据试验方案,测得9个拉脱力数据见表2-3。
拉脱力测量结果
计算:
第一步:求出每组试验之和。由表2-2,3可知,试验共分三组,其和分别记为Ⅰ,Ⅱ,Ⅲ。
ⅠA:857+951+909=2717
ⅡA:878+973+899=2750
ⅢA:803+1030+927=2760
把ⅠA,ⅡA,ⅢA填入表2-3的下端栏内。
同样按表2-3分别求出B,C,D三个因素的三组试验Ⅰ,Ⅱ,Ⅲ之和。
B因素的三组试验为:1,4,7;2,5,8;3,6,9
C因素的三组试验为:1,6,8;2,4,9;3,5,7
D因素的三组试验为:1,5,9;2,6,7;3,4,8
其和分为:ⅠB=2538,ⅡB=2954,ⅢB=2735,
ⅠC=2786,ⅡC=2756,ⅢC=2685,
ⅠD=2757,ⅡD=2653,ⅢD=2817。
第二步:求出极差,算出Ⅰ,Ⅱ,Ⅲ之后,把Ⅰ,Ⅱ,Ⅲ中最大值和最小值之差算出来,我们把差值称之谓极差。
RA=2760-2713=47
RB=2954-2538=416
RC=2786-2685=101
RD=2817-2653=164
第三步:依极差分析试验结果:
(1)分析各因素对指标影响的重要程度。在按某因素的水平分得的每个试验组中,该因素的同一水平出现三次,而其他因素各水平只出现一次。当比较数据Ⅰ,Ⅱ,Ⅲ的太小时,可认为其他因素对Ⅰ,Ⅱ,Ⅲ的影响大体相同,Ⅰ,Ⅱ,Ⅲ之间的差异,是由于该因素取了三个不同的水平而引起的。由此可见,极差反映了该因素取了三个不同水平对指标的影响。因此,可按因素极差大小排列出因素影响的主次顺序:柱塞头高度、收口油压、柱塞头倒角、柱塞头外径。
(2)找出最佳指标的各因素水平。研究的目的是提高拉脱力,挑选出每个因素的Ⅰ,Ⅱ,Ⅲ中最大值所对应的水平,从而组合成一组保证拉脱力最大的实施方案。由表2-3可知,他们是:ⅢA(A3)、ⅡB(B2)、ⅠC(C1)、ⅢD(D3)。即试验号为8,其柱塞头外径为14.8mm,柱塞头高度11.8mm,柱塞头倒角为1×50°、收口油压为20kg/cm2。
(3)找出进一步试验研究的方向。图2-3是用线型表示各因素水平变化对拉脱力数据之和的影响。由图中可以看出,柱塞头高度从11.6mm增加到11.8mm时,拉脱力逐步提高。其他因素分析由图2-3便一清二楚。如果还望希进一步提高拉脱力,则B因素取大于11.8mm及D因素取大于20kg/cm2。
(二)方差分析法
通过一个单因素试验的例子来介绍这种方法。在上例中,关于柱塞组合件收口强度稳定性的试验,指出了B因素(柱塞头高L)再增大一点可能对提高拉脱力更有利。为此,以B1=11.8mm与B2=11.9mm做单因素的对比试验,每个水平重复五次,试验数据见表2-4。
表中“Yij”表示第i个试验条件下第j次试验的试验数据。如,Y11表示B1条件下第一次的试验数据为5.5,Y23表示在B2条件下第三次试验的数据7.5。Yij表示从Yij加到Yin之和。
为了把试验误差产生的影响同条件变化产生的影响区分开,以便认识条件变化对指标的影响,我们采用方差分析法来处理试验数据。其步骤为:
第一步,计算试验误差引起的数据波动。
误差是每个试验数据与其理论值的差值。理论值用同水平下试验数据的平均值i代替,则误差值为Yij-Yj。将所有误差平方后相加,用它来描述试验过程中试验误差引起的数据波动。简称误差波动。记做S误,其计算公式为:
式中:m为水平个数,本例为2;k为重复试验次数,本例为5。
将表2-4中数据代入:
第二步,计算因素水平变化引起的数据波动。
由表2-4可知,各水平条件下数据的平均值为5.6和7,它们大致是围绕总平均值6.3而波动,以S因表示,其计算公式为:
式中:k为重复试验次数,本例为5;m为水平个数,本例为2。
因此,由表2-4数据代入,
第三步,计算数据总的波动。
总的波动可以用各数据Yji与总平均值之差的平方和来描述。用S总来表示:
以表2-4数据代入:
S总=(5.5-6.3)2+…+(6-6.3)2=11.1
S总=S因+S误=11.1,由此可见,总的变动一般为两部分组成:即因素变动;误差变动。
第四步,因素显着性检验。
为了分折因素水平变化对指标影响的大小,还需把水平变化引起的波动与试验误差引起的波动进行比较。首先要克服试验数据个数的影响,为此,引入自由度的概念。所谓自由度,就是独立的数据个数。设因素自由度用f因,误差自由度用f误以及总自由度用f总来表示。
f总=总的试验数-1,本例:f总=10-1=9
f因=某因素的水平数-1,f因=2-1=1
f误=f总-f因 f误=9-1=8
若将因素变动S因除以它的自由度即S因/f因;将误差变动S误除以它的自由度即S误/f误;便消除了个数的影响。
比较S因/f因与S误/f误的大小。若S因/f因≈f误/f误,说明某因素的水平改变对指标的影响在误差范围之内,水平变化对指标无显着影响。若S因/f因大于S误/f误,则表明因素水平变化对指标的影响,超过了试验误差造成的影响。但是要大多少才能认为因素的影响明显的超过误差的影响呢?这就要确定F因=的临界值Fm。当F因>Fm时,便认为因素水平变化指标的影响是显着的。临界值Fa可由F分布表查出(见F检验临界值表)。a称作信度,表示判断误差的概率。表上横行代表F因分子的自由度,竖行代表分母的自由度。
利用F检验临界值表作显着性检验,简称为F检验。本例中:若选信度为a=0.05查表F0.05(1,8)=5.32,即FB>F0.05由此得出结论:柱塞头高度由11.8mm增至11.9mm,对提高拉脱力指标的有利把握为95%。
(三)回归分析法
回归分折法是研究两个或多个变量之间统计规律的数学方法。其内容很多,这里仅介绍处理两个变量之间关系的一元线性回归分析,至于多元回归等请参阅有关书籍。
例:在某产品表面进行腐蚀刻线试验,得到腐蚀深度y与腐蚀时间x的一组数据(表2-5),试求腐蚀时间与深度之间经验公式解:第一步,把试验数据用散点表示出来,如图2-4。
第二步,求回归方程。
以图中散点围绕的一直线表示x与y的关系。直线方程写为y=a+bx称作y对x的回归方程。实际上这样的直线只是试验数据的近似反映,可能有无数条,有的直线与散点符合得好些,有的符合得差些。符合程度用实测值yi与对应的回归直线上的i值之差的平方和表示为:
若使直线与数据符合得最好,必须使Q最小。依数学分析中的极值原理,只有对式中a,b求偏导数,且令其等于零。于是a,b满足下式:
由该方程组解出a,b确定的回归直线是所有直线中与试验数据符合最好的直线。这种求回归直线的方法即是最小二乘法。代入该列数据得a=5.36,b=0.304。则回归方程为:
第三步,显着性检验。
检验原理可参考方差分析法的显着性检验。
第四步,预测和控制。
根据回归直线,当给定条件x值时,就可估计y值将落在什么范围,即所谓预测。控制条件x值,使y值落在指定的范围,即所谓控制。