数理统计:方差分析与正交试验设计

learning why, thinking what, then forgetting how.

随着时间的流逝,知识总会被遗忘和被沉淀,我们无法选择去遗忘那一部分,但是我们可以选择去沉淀那一部分

教材为:《数理统计(孙海燕等)》


第五章 方差分析与正交试验设计

在科研和生产中,影响一个事物的因素有很多个。有些因素影响大,有些因素影响小。为了保证优质、高产、低消耗,就必须找出对产品质量与产量有显著影响的那些因素。

本章介绍如何充分利用试验诗句进行分析、推断因素影响显著性的方差分析方法。其主要任务是通过对数据的分析处理,搞清各试验条件以及它们所处的状态对试验结果的影响,以便有效地指导实践,提高经济效益或科研水平。

本章主要介绍方差分析正交试验设计


5.1 单因素方差分析

为了考察某个因素对试验指标的影响,应该把影响试验指标的其他因素相对固定,而让所考虑的因素改变。其中,因素所处的不同状态称为水平

检验单因素是否显著的问题,转化为推断具有相同方差正态总体均值是否相等的问题。

这里判断正态均值是否相等不能使用 t-检验法:即使任两个正态总体 t-检验的显著水平为 α=0.05,当正态总体个数增多时,使用 t-检验法进行两两检验,累计误差将导致犯第一类错误的概率大大增加。Fisher 提出方差分析法,可同时推断多个正态总体均值是否相等

方差分析的目的就是要确定数据差异主要是由随机误差引起的还是由所研究的因素的水平变化引起的。

  • 单因素试验方差分析表
方差来源平方和 S S S自由度 f f f均方和 S ‾ \overline S S F F F
A A A S A = ∑ i = 1 p n i ( x ‾ i ⋅ − x ‾ ) 2 S_A = \sum^p_{i=1} n_i (\overline x_{i·} - \overline x)^2 SA=i=1pni(xix)2p-1 S ‾ A = S A p − 1 \overline S_A = \frac {S_A} {p-1} SA=p1SA F = S ‾ A S ‾ e F = \frac {\overline S_A} {\overline S_e} F=SeSA
e e e S e = ∑ i = 1 p ∑ j = 1 n i ( x i j − x ‾ i ⋅ ) 2 S_e = \sum^p_{i=1} \sum^{n_i}_{j=1} (x_{ij} - \overline x_{i·})^2 Se=i=1pj=1ni(xijxi)2n-p S ‾ e = S e n − p \overline S_e = \frac {S_e} {n-p} Se=npSe
∑ \sum S T = ∑ i = 1 p ∑ j = 1 n i ( x i j − x ‾ ) 2 S_T = \sum^p_{i=1} \sum^{n_i}_{j=1} (x_{ij} - \overline x)^2 ST=i=1pj=1ni(xijx)2n-1 S ‾ T = S T n − 1 \overline S_T = \frac {S_T} {n-1} ST=n1ST

其中,组间平方和 S A S_A SA,组内平方和或误差平方和 S e S_e Se,离差平方和 S T S_T ST,且因素 A 有 p 个水平,对 A = A i A = A_i A=Ai 进行了 n i n_i ni 次试验。

自由度确定

  • S A S_A SA:共 p 个变量,满足 1 个线性约束。
  • S e S_e Se:共 n 个变量,满足 p 个线性约束。
  • S T S_T ST:共 n 个变量,满足 1 个线性约束。

且当假设因素 A 的水平变化对试验结果无影响时, S A S e \frac {S_A} {S_e} SeSA应该有取值偏小的趋势,则:

  • 假设 H 0 H_0 H0:因素 A 的水平变化对试验结果无影响
  • 检验统计量为: F = S ‾ A S ‾ e = S A / ( p − 1 ) S e / ( n − p ) ~ F ( p − 1 , n − p ) F = \frac {\overline S_A} {\overline S_e} = \frac {S_A / (p-1)} {S_e / (n-p)} ~ F(p-1, n-p) F=SeSA=Se/(np)SA/(p1)F(p1,np)
  • 给定显著性水平 α: P H 0 { F ≥ F 1 − α ( p − 1 , n − p ) } = α P_{H_0} \{F ≥ F_{1-α} (p-1, n-p)\} =α PH0{FF1α(p1,np)}=α
  • 拒绝域为: W = { F : F ≥ F 1 − α ( p − 1 , n − p ) } W = \{F: F ≥ F_{1-α} (p-1, n-p)\} W={F:FF1α(p1,np)}

如果进行 F-检验后拒绝了原假设 H 0 H_0 H0,则说明因素 A 的水平变化对试验结果有影响。而至于那些因素水平下存在差别,还需要借助多重比较方法来解决,用这个方法还可以确定因素的最优水平

在进行方差分析时,试验结果必须满足三个条件:

  1. 独立性:在试验过程中,只要很好地确保各次试验独立进行,试验结果的独立性一般很容易满足。
  2. 正态性:检验正态性的常用方法有 P e a r s o n χ 2 Pearson χ^2 Pearsonχ2 检验法等。
  3. 方差齐性:比正态性要求更为重要,在实际应用中宁可偏离正态性,也要尽可能保证方差齐性。通过检验,如果数据不具有方差齐性,可以通过适当变换,使变换后的数据具有方差齐性。

5.2 双因素方差分析

在两个因素的试验中,不但每一个因素单独对试验结果起作用,而且两个因素联合起来往往也会起作用,称这种作用为两个因素的交互作用。在多因素方差分析中,把交互作用当成一个新因素来处理

无重复试验的方差分析

无重复试验的意思是对因素 A 与因素 B 的每种搭配仅进行一次独立试验,实际上是假设因素 A 与因素 B 之间无交互作用。因为只进行了一次试验,所以将交互作用归为随机误差

  • 无重复试验的双因素试验方差分析表
方差来源平方和 S S S自由度 f f f均方和 S ‾ \overline S S F F F
A A A S A = q ∑ i = 1 p ( x ‾ i ⋅ − x ‾ ) 2 S_A = q \sum^p_{i=1} (\overline x_{i·} - \overline x)^2 SA=qi=1p(xix)2p-1 S ‾ A = S A p − 1 \overline S_A = \frac {S_A} {p-1} SA=p1SA F A = S ‾ A S ‾ e F_A = \frac {\overline S_A} {\overline S_e} FA=SeSA
B B B S B = p ∑ i = 1 q ( x ‾ ⋅ j − x ‾ ) 2 S_B = p \sum^q_{i=1} (\overline x_{·j} - \overline x)^2 SB=pi=1q(xjx)2q-1 S ‾ B = S B p − 1 \overline S_B = \frac {S_B} {p-1} SB=p1SB F B = S ‾ B S ‾ e F_B = \frac {\overline S_B} {\overline S_e} FB=SeSB
e e e S e = ∑ i = 1 p ∑ j = 1 q ( x i j − x ‾ i ⋅ − x ‾ ⋅ j + x ‾ ) 2 S_e = \sum^p_{i=1} \sum^q_{j=1} (x_{ij} - \overline x_{i·} - \overline x_{·j} + \overline x)^2 Se=i=1pj=1q(xijxixj+x)2(p-1)(q-1) S ‾ e = S e ( p − 1 ) ( q − 1 ) \overline S_e = \frac {S_e} {(p-1)(q-1)} Se=(p1)(q1)Se
∑ \sum S T = ∑ i = 1 p ∑ j = 1 q ( x i j − x ‾ ) 2 S_T = \sum^p_{i=1} \sum^q_{j=1} (x_{ij} - \overline x)^2 ST=i=1pj=1q(xijx)2pq-1 S ‾ T = S T p q − 1 \overline S_T = \frac {S_T} {pq-1} ST=pq1ST

其中,组间平方和 S A , S B S_A, S_B SA,SB,组内平方和或误差平方和 S e S_e Se,离差平方和 S T S_T ST,且因素 A 有 p 个水平,因素 B 有 q 个水平。

自由度确定

  • S A S_A SA:共 p 个变量,满足 1 个线性约束。
  • S B S_B SB:共 q 个变量,满足 1 个线性约束。
  • S T S_T ST:共 pq 个变量,满足 1 个线性约束。
  • S e : f ( S T ) − f ( S A ) − f ( S B ) S_e:f(S_T) - f(S_A) - f(S_B) Sef(ST)f(SA)f(SB)

且当

  • 假设因素 A 的水平变化对试验结果无影响时, S A S e \frac {S_A} {S_e} SeSA应该有取值偏小的趋势
  • 假设因素 B 的水平变化对试验结果无影响时, S B S e \frac {S_B} {S_e} SeSB应该有取值偏小的趋势

等重复试验的方差分析

等重复试验的意思是对因素 A 与因素 B 的每种搭配进行了 r 次独立试验,将交互作用与随机误差分离开

  • 等重复试验的双因素试验方差分析表
方差来源平方和 S S S自由度 f f f均方和 S ‾ \overline S S F F F
A A A S A = q r ∑ i = 1 p ( x ‾ i ⋅ ⋅ − x ‾ ) 2 S_A = qr \sum^p_{i=1} (\overline x_{i··} - \overline x)^2 SA=qri=1p(xix)2p-1 S ‾ A = S A p − 1 \overline S_A = \frac {S_A} {p-1} SA=p1SA F A = S ‾ A S ‾ e F_A = \frac {\overline S_A} {\overline S_e} FA=SeSA
B B B S B = p r ∑ i = 1 q ( x ‾ ⋅ j ⋅ − x ‾ ) 2 S_B = pr \sum^q_{i=1} (\overline x_{·j·} - \overline x)^2 SB=pri=1q(xjx)2q-1 S ‾ B = S B p − 1 \overline S_B = \frac {S_B} {p-1} SB=p1SB F B = S ‾ B S ‾ e F_B = \frac {\overline S_B} {\overline S_e} FB=SeSB
A X B A X B AXB S A X B = r ∑ i = 1 p ∑ j = 1 q ( x i j − x ‾ i ⋅ ⋅ − x ‾ ⋅ j ⋅ + x ‾ ) 2 S_{A X B} = r \sum^p_{i=1} \sum^q_{j=1} (x_{ij} - \overline x_{i··} - \overline x_{·j·} + \overline x)^2 SAXB=ri=1pj=1q(xijxixj+x)2(p-1)(q-1) S ‾ A X B = S A X B ( p − 1 ) ( q − 1 ) \overline S_{A X B} = \frac {S_{A X B}} {(p-1)(q-1)} SAXB=(p1)(q1)SAXB F A X B = S ‾ A X B S ‾ e F_{A X B} = \frac {\overline S_{A X B}} {\overline S_e} FAXB=SeSAXB
e e e S e = ∑ i = 1 p ∑ j = 1 q ∑ k = 1 r ( x i j k − x ‾ i j ⋅ ) 2 S_e = \sum^p_{i=1} \sum^q_{j=1} \sum^r_{k=1} (x_{ijk} - \overline x_{ij·})^2 Se=i=1pj=1qk=1r(xijkxij)2pq(r-1) S ‾ e = S e p q ( r − 1 ) \overline S_e = \frac {S_e} {pq(r-1)} Se=pq(r1)Se
∑ \sum S T = ∑ i = 1 p ∑ j = 1 q ∑ k = 1 r ( x i j k − x ‾ ) 2 S_T = \sum^p_{i=1} \sum^q_{j=1} \sum^r_{k=1} (x_{ijk} - \overline x)^2 ST=i=1pj=1qk=1r(xijkx)2pqr-1 S ‾ T = S T p q r − 1 \overline S_T = \frac {S_T} {pqr-1} ST=pqr1ST

其中,组间平方和 S A , S B S_A, S_B SA,SB,交互作用引起的数据离差平方和 S A X B S_{A X B} SAXB,组内平方和或误差平方和 S e S_e Se,离差平方和 S T S_T ST,且因素 A 有 p 个水平,因素 B 有 q 个水平,每种搭配共进行了 r 次试验。

自由度确定

  • S A S_A SA:共 p 个变量,满足 1 个线性约束。
  • S B S_B SB:共 q 个变量,满足 1 个线性约束。
  • S T S_T ST:共 pqr 个变量,满足 1 个线性约束。
  • S e S_e Se:共 pqr 个变量,满足 pq 个线性约束。
  • S A X B : f ( S T ) − f ( S A ) − f ( S B ) − f S e S_{A X B}:f(S_T) - f(S_A) - f(S_B) - f{S_e} SAXBf(ST)f(SA)f(SB)fSe

且当

  • 假设因素 A 的水平变化对试验结果无影响时, S A S e \frac {S_A} {S_e} SeSA应该有取值偏小的趋势
  • 假设因素 B 的水平变化对试验结果无影响时, S B S e \frac {S_B} {S_e} SeSB应该有取值偏小的趋势
  • 假设交互作用 A X B 的对试验结果无影响时, S A X B S e \frac {S_{A X B}} {S_e} SeSAXB应该有取值偏小的趋势

进行 F-检验后,如果拒绝了原假设,可以用多重比较方法辨识哪些水平的影响有显著差别,以及选取因素的最优水平。


5.3 正交试验设计的极差分析

正交试验设计法是利用一套现成的规格化的正交表科学地安排和分析多因素试验的方法。它的主要优点是:能在很多试验方案中挑选出代表性强的少数试验方案,并通过对这些少数试验方案试验结果的分析,推断出最优方案或生产工艺。同时它还可以做很多进一步的分析,提供出比试验结果本身多得多的对各因素的分析

随着所考虑的因素个数及其水平数的增多,试验次数和计算量都是很大的。若有 p 个因素,每个因素有 q 个水平,每个因素的水平搭配进行 r 次重复试验,总共就要做 n = r ∗ q p n = r * q^p n=rqp 次试验,而且,对这么多试验数据进行统计分析计算,也是非常繁重的任务。 如果使用正交设计来安排试验,则试验次数会大大减少,而统计分析的计算也将会变得简单。使用正交设计可使试验次数达到至少 q 2 q^2 q2

对正交试验结果的分析,通常采用两种方法:

  • 极差分析法
  • 方差分析法

正交表

  • L 9 ( 3 4 ) L_9(3^4) L9(34) 正交表

在这里插入图片描述

如图所示, L 9 ( 3 4 ) L_9(3^4) L9(34) 正交表最多可以安排 4 个 3 水平的因子,需要做 9 次试验。值得强调的是,在正交试验设计分析中将相互作用也看成因子

正交表的两个性质:

  1. 每个水平在每列都出现了,且每列中不同水平出现的次数相同。
    • 每个因子的各个不同水平在试验中都出现了,且出现的次数相同
  2. 在任何两列中,所有各种可能的有序对出现的次数都相同。
    • 任何两个因子各个不同水平的搭配在试验中都出现了,且出现的次数相同

因此,正交试验设计安排的试验方案是有代表性的,能够比较全面地反映各因子、各个水平对指标影响的大致情况,并且大大地减少了试验次数。

正交表的构造原理:forgetting how

无交互作用的正交试验的极差分析

  1. 选择一张合适的正交表,要求试验次数要尽可能少。
  2. 安排试验,一个因子占有一列,称此为表头设计未安排因子的列称为空列,它在正交试验设计的方差分析中起着重要作用
  • 极差分析

在这里插入图片描述

度量 T 1 j , T 2 j , T 3 j T_{1j}, T_{2j}, T_{3j} T1j,T2j,T3j 之间差异程度大小最简单的量是极差

极差越大,说明这个因素的水平改变对试验结果影响就越大,因而极差最大的那一列所安排的因素就是对试验结果影响最大的因素,也就是最主要的因素。依照极差从大到小的排序,就可以对影响试验结果的因素主次进行排序。习惯上,用分号将极差相差过大的因子隔开,用逗号将极差相差不大的因子隔开。

最优试验方案的确定涉及到要选取每个因素的最优水平,而选取水平的策略与所考虑的指标有关。如果指标取值越大越好,则应该选取各列中 T 1 j , T 2 j , T 3 j T_{1j}, T_{2j}, T_{3j} T1j,T2j,T3j 达到最大的那个水平;反之选取最小的那个水平。

需要指出的时,最优试验常常不在已做过的试验方案之中。这是因为正交表安排的试验是全部可能搭配的试验的典型代表,通过正交表安排的试验能从所有可能搭配的试验中挑选出最好的搭配方案,这正体现了正交试验设计的优越性

有交互作用的正交试验的极差分析

用正交表安排有交互作用的试验时,由于要把交互作用看成一个因子,因此它要在正交表上占有一列或几列,称所占的列为交互作用列

交互作用列的位置由交互作用列表确定,安排了交互作用的列不能再安排其他因素,否则在这列上就会出现混杂现象,导致无法区分该列的极差是由交互作用引起的还是由所安排的其他因素引起的。

  • L 8 ( 2 7 ) L_8(2^7) L8(27) 的交互作用列表

在这里插入图片描述

在进行表头设计时,应避免混杂现象。当所考察的因子和交互作用较多时,较小的表无法避免混杂,可以选择更大的正交表,而这会使试验次数增多,试验成本提高。当选定正交表后,若混杂不可避免:

  1. 避免交互作用与单独因子的混杂;
  2. 避免重点考察的交互作用之间的混杂;
  3. 避免重点考察的交互作用与其他交互作用的混杂;
  4. 否则,就只能选择更大的正交表。

交互作用所在列内的水平无任何实际意义,并不代表任何实际水平,它对决定试验方案不起任何作用,仅在做方差分析时要用到,仅仅依安排因素的列内水平来安排相应的试验即可。

  • 极差分析

在这里插入图片描述

当所研究的指标不是单增或单减时,可以进行适当的变换,使其为单增或单减。

在选择最优方案时,水平的选择次要因子应该服从主要因子。若交互作用对试验结果的影响在单独因子之前,最优水平要从交互作用来考虑。通常将两个因素的各种水平搭配下对应的试验结果之和列成表格,称为搭配表二元表

  • 因素 A 与 B 的水平搭配表

在这里插入图片描述

  • 因素 B 与 C 的水平搭配表

在这里插入图片描述

在实际应用中,为了提高统计分析结果的可靠性,条件允许时,往往会对正交试验安排的每一个试验方案进行多次试验,分别计算平均值,将其看成各试验方案下的试验数据。

若所考察的因素有 3 个或以上水平,则交互作用的分析比较复杂,不便于应用极差分析法,通常采用方差分析法


5.4 正交试验设计的方差分析

极差分析方法的优点是简单直观,但是没有将试验过程中由因素水平变化引起的数据波动同由试验随机误差引起的数据波动区分开来,因而不能真正区分试验结果的差异究竟是由水平变化所引起的,还是由试验随机误差所引起的。进一步,我们需要一个客观标准来判断所考察的因素对试验结果的影响是否显著

不考虑交互作用的正交试验的方差分析

方差分析除了计算极差,还计算了总离差平方和各个因素水平变化引起的离差平方和

  • 方差分析

在这里插入图片描述

空列误差列,其方差平均值为误差平方和

  • 离差平方和小于误差平方和的因素可以认为其影响不显著,并归为误差处理
  • 给定显著性水平 α,根据因素的 F-值来判断其影响是否显著;或者使用 p-值来判断其影响是否显著
    • F 因 = S 因 / f 因 S e / f e ~ F ( f 因 , f e ) F_因 = \frac {S_因 / f_因} {S_e / f_e} ~ F(f_因, f_e) F=Se/feS/fF(f,fe)
    • 拒绝域为: W 因 = { F 因 ≥ F 1 − α ( f 因 , f e ) } W_因 = \{F_因 ≥ F_{1-α}(f_因, f_e)\} W={FF1α(f,fe)}

考虑交互作用的正交试验的方差分析

在有交互作用的情形下,若用正交表 L n ( t m ) L_n(t^m) Ln(tm) 来安排试验,则每一列的自由度为 t-1,而任意两列的交互作用的自由度为 (t-1)(t-1),因此任意两列的交互作用都要在正交表 L n ( t m ) L_n(t^m) Ln(tm) 上占用 t-1 列。(在交互作用列表上可以查到 t-1 列

求解:forgetting how


5.5 均匀设计

所有的试验设计方法本质上都是在试验的范围内给出挑选代表性点的一个方法。

正交设计是根据正交性来挑选代表点,在挑选代表点时有两个特点:均匀分散,整齐可比。但为了在达到整齐可比,正交设计的试验点并没有能做到充分均匀分散,而也使得其试验布点的数目比较多。

均匀设计是基于试验点在整个试验范围内均匀散布的从均匀性角度出发的一种试验设计方法,是数论方法中的伪蒙特卡罗方法的一个应用。均匀设计可极大地降低试验的次数,正交试验必须至少要做 q 2 q^2 q2 次试验,而均匀设计只需要 q 次试验,其中 q 为因素的水平数。均匀设计失去了正交设计的整齐可比性,但更注重了均匀性,在选点方面有更大的灵活性。

  • 水平数多,因素数多:均匀设计
  • 水平数少,因素数少:正交设计
  • 正交设计和均匀设计结合使用

求解:forgetting how

已标记关键词 清除标记
相关推荐
<p> <b><span style="background-color:#FFE500;">【超实用课程内容】</span></b> </p> <p> <br /> </p> <p> <br /> </p> <p> 本课程内容包含讲解<span>解读Nginx的基础知识,</span><span>解读Nginx的核心知识、带领学员进行</span>高并发环境下的Nginx性能优化实战,让学生能够快速将所学融合到企业应用中。 </p> <p> <br /> </p> <p style="font-family:Helvetica;color:#3A4151;font-size:14px;background-color:#FFFFFF;"> <b><br /> </b> </p> <p style="font-family:Helvetica;color:#3A4151;font-size:14px;background-color:#FFFFFF;"> <b><span style="background-color:#FFE500;">【课程如何观看?】</span></b> </p> <p style="font-family:Helvetica;color:#3A4151;font-size:14px;background-color:#FFFFFF;"> PC端:<a href="https://edu.csdn.net/course/detail/26277"><span id="__kindeditor_bookmark_start_21__"></span></a><a href="https://edu.csdn.net/course/detail/27216">https://edu.csdn.net/course/detail/27216</a> </p> <p style="font-family:Helvetica;color:#3A4151;font-size:14px;background-color:#FFFFFF;"> 移动端:CSDN 学院APP(注意不是CSDN APP哦) </p> <p style="font-family:Helvetica;color:#3A4151;font-size:14px;background-color:#FFFFFF;"> 本课程为录播课,课程永久有效观看时长,大家可以抓紧时间学习后一起讨论哦~ </p> <p style="font-family:"color:#3A4151;font-size:14px;background-color:#FFFFFF;"> <br /> </p> <p class="ql-long-24357476" style="font-family:"color:#3A4151;font-size:14px;background-color:#FFFFFF;"> <strong><span style="background-color:#FFE500;">【学员专享增值服务】</span></strong> </p> <p class="ql-long-24357476" style="font-family:"color:#3A4151;font-size:14px;background-color:#FFFFFF;"> <b>源码开放</b> </p> <p class="ql-long-24357476" style="font-family:"color:#3A4151;font-size:14px;background-color:#FFFFFF;"> 课件、课程案例代码完全开放给你,你可以根据所学知识,自行修改、优化 </p> <p class="ql-long-24357476" style="font-family:"color:#3A4151;font-size:14px;background-color:#FFFFFF;"> 下载方式:电脑登录<a href="https://edu.csdn.net/course/detail/26277"></a><a href="https://edu.csdn.net/course/detail/27216">https://edu.csdn.net/course/detail/27216</a>,播放页面右侧点击课件进行资料打包下载 </p> <p> <br /> </p> <p> <br /> </p> <p> <br /> </p>
©️2020 CSDN 皮肤主题: 终极编程指南 设计师:CSDN官方博客 返回首页