分散分析:一元配置表モデル

作成日 : 2024-10-18
最終更新日 :

分散分析の中で、一元配置表モデルを取り上げる。一元配置表モデルの拡張は、二元配置表モデルにある。

例題1 : ある化学品の収量が触媒の添加量によって差があるかどうかを検討するため、因子 `A` として触媒の添加量を `a = 3` 水準(`A_1, A_2, A_3`)取り上げて実験した。 各水準での繰り返しを `n = 4` として、合計 `N= an = 3 times 4 = 12` 回の実験をランダムに行ったところ、表 1.1 のデータが得られた。解析せよ(文献[1] 例題4.1 より改題)。

解答1: AIC モデルについて、因子 `A` の効果を考慮しないモデル (`O/`) と考慮するモデル(`A`)の AIC を求めた。両者を比較すると (`A`) のモデル AIC が、 考慮しないモデル (`O/`) より小さいので、因子 `A` を考慮するモデルがよい。すなわち、因子 `A` の効果があるといえる。
伝統的な分散分析では、表 1.3 のとおり分散分析表を作成する。結果は `P` 値が 0.0321 であるから、5 % 水準で有意である。 すなわち、5 % 水準で因子 `A` の効果があるといえる。

表1.1 化学品の収量
(単位は省略)
添加量 データ
表1.2 例題1のAICモデル
モデル自由パラメータ数`hat sigma^2`AIC
表1.3 例題1の分散分析表
因子平方和自由度平均平方F値P値

例題2 : 4 種類の材料`A_1, A_2, A_3, A_4` のサンプルの耐摩耗量を調べた。重量減少を mg 単位で測り 4 回繰り返した結果が 表 2.2 である。 このデータから材料の間の耐摩耗性の差を検出できるか。 解析せよ(文献[6] 例9.1 より改題)。

解答2: AIC モデルについて、因子 `A` の効果を考慮しないモデル (`O/`) と考慮するモデル(`A`)の AIC を求めた。両者を比較すると考慮した (`A`) のモデル AIC が、 考慮しないモデル (`O/`) より大きいので、因子 `A` を考慮しないモデルがよい。これは「耐摩耗性の差が(サンプルが少ないため)検出できない」と解釈すべきである。
伝統的な分散分析では、表 2.3 のとおり分散分析表を作成する。結果は `P` 値が 0.9005 であるため、5 % 水準では有意ではない。すなわち、因子 `A` の効果はわからない。 この「わからない」の意味も、「耐摩耗性の差が(サンプルが少ないため)検出できない」と解釈すべきである。

表2.1 摩耗量の比較
(単位はmg)
材料種類 データ
表2.2 例題2のAICモデル
モデル 自由パラメータ数 `hat sigma^2` AIC
表2.3 例題 2 の分散分析表
因子平方和自由度平均平方F値P値

例題3 : ある材料の摩耗量を調べる機械がある。この機械の取り付け位置は 4 箇所 `A_1, A_2, A_3, A_4` あり、 場所により耐摩耗量が異なるかをサンプルで調べた。 重量減少を mg 単位で測り 4 回繰り返した結果が 表 2.3 である。 このデータから取付位置の間の耐摩耗性の差を検出できるか。 解析せよ(文献[6] 例9.1 より改題)。

解答3: AIC モデルについて、因子 `A` の効果を考慮しないモデル (`O/`) と考慮したモデル(`A`)の AIC を求めた。表 3.2 に示す。 両者を比較すると考慮した (`A`) のモデル AIC が、 考慮しないモデル (`O/`) より小さいので、因子 `A` を考慮したモデルがよい。位置によって耐摩耗量が異なることがわかる。」と解釈すべきである。 それぞれの取付位置の平均を比べると、`A_4` の位置の摩耗が激しいことがわかる。
伝統的な分散分析では、表 3.3 のとおり分散分析表を作成する。結果は `P` 値が 0.0094 であるため、5 % 水準では有意である(1 % 水準でも有意)。 すなわち、因子 `A` の効果はある。

表3.1 摩耗量の比較
(単位はmg)
取付位置 データ
表3.2 例題 3 のAICモデル
モデル 自由パラメータ数 `hat sigma^2` AIC
表3.3 例題 3 の分散分析表
因子平方和自由度平均平方F値P値

入力データの計算

以下データ欄にデータを入力すると計算できる。

データ入力と補助表
データ
総平均 `barbary= sum_(i=1)^a sum_(j=1)^(n(i)) y_(ij) // N`
`A_i` 水準平均 `bary_(i*)`
行平均全体平均差
総平方和 `S = sum_(i=1)^a sum_(j=1)^(n_i) (y_(ij) - barbary)^2`
処理間平方和`S_A = sum_(i=1)^a n_i (bary_(i*) - barbary)^2`
誤差平方和`S_e = S - S_A`
AIC 表
モデル自由パラメータ数`hat sigma^2`AIC
(`O/`)
(`A`)
分散分析表
因子平方和自由度平均平方F値P値

AIC を用いた手法と伝統的な分散分析の手法の比較

解答:AIC を用いた手法と伝統的な分散分析の手法とを比較する。

AIC を用いた手法

AIC を用いる方法は、次のいずれのモデルがよいかを調べる方法である。
モデル `O/` : `y_(ij) = mu + e_(ij), e_(ij) ~ N(0, sigma_(O/)^2)`
モデル `A` : `y_(ij) = mu + alpha_i + e_(ij), \quad sum_(i=1)^alpha n_i alpha_i = 0, \quad e_(ij) ~ N(0, sigma_(A)^2)`

モデル `O/` は因子 `A` の効果を認めず、全てが同じ正規分布に従うとするモデルである。このときの `sigma^2` は、総平方和を全データ数で除した値である。 また自由パラメータ数は、`mu` と `sigma^2` の 2 である。

モデル `A` は因子 `A` の効果を認め、水準 `i` に属する場合に要因効果 `alpha_i` を採用し、これに総平均 `mu` と誤差項 `e_(ij)` が加わるモデルである。 このときの `sigma^2` は、誤差平方和を全データ数で除した値である。 また自由パラメータ数は、`mu` と `sigma^2` の 2 に、水準数 `a` から 1 を差し引いた `a-1` を加える。すなわち、`a+1` である。 ここで 1 を差し引くのは、`alpha_i` には、`sum_(i=1)^alpha n_i alpha_i = 0` の制約式があるので自由度が 1 減るからである。

AIC は次の式で与えられる。全データ数を `n`、最尤推定量としての分散を `hatsigma^2`、自由パラーメータの数を `m` とする。

AIC = `n log 2pi + n log hat sigma^2 + n + 2 times(m)`

伝統的な分散分析の手法

分散分析には、分散分析表と呼ばれる表を作るのがよい。 まず、表の一番左の列は見出しとなる値を変動させる要因を書く。下記の表では因子 `A` と誤差 `e` 、全体 `T` を書く。

2 番の列からデータを記載する。この列には平均からの偏差の平方和を記す。ここでは、水準間のバラツキや誤差のバラツキ、データ全体のバラツキを記す。
水準間のバラツキを因子 `A` の平方和といい `SS_A` と書き、次の式で与えられる。

`SS_A = n_i sum_(j=1)^a (bar y_(*j) - bar y_(* *))^2 `
ここで `n_i` は水準 `i` における繰り返し数(例題1ではすべて 4)、`a` は要因の数(例題1では 3)、`bar y_(* *)` はすべてのデータの平均であり、 `bar y_(* j)` は要因ごとのデータの平均である。
誤差のバラツキを誤差平方和といい、`SS_e` で表す。これは次の式で与えられる。
`SS_e = sum_(i=1)^a sum_(j=1)^(n_i) (y_(ij) - bar y_(i*))^2 `
データ全体のバラツキ `SS_T` で表す。これは次の式で与えられる。
`SS_T = sum_(i=1)^a sum_(j=1)^(n_i) (y_(ij) - bar bar y)^2 `
`SS_T, SS_A, SS_e` の間には次の関係があるので、積和演算を実際に行うのは 3 つのうち 2 つだけでいい。私はいつも `SS_e` に関して積和演算はせず、下記から求めている。
`SS_T = SS_a + SS_e `

3 番めの列には自由度を書く。`A` の自由度を `df_A` と書くと `df_A = a-1`である。また `e` の自由度を `df_e` と書くと `df_e=a(n-1)`である。 また`T` の自由度は `na-1` である。

4 番目の列は平均平方を書く。これは、全体以外の変動要因について、平方和を自由度で割った値である。

5 番目の列は `F` 値を書く。これは、全体・誤差以外の変動要因について、平均平方を誤差で割った値であり、因子 `A` の`F` 値を `F_A` とおく。 この値が 1 よりずっと大きいときは、帰無仮説のもとで、小さな確率でしか観測されない。帰無仮説は通常 `H_0` で表し、この例1の場合は次のような仮説である

`H_0`: 添加量を 3 水準変えた収量の、母平均の値は同じである。

6 番目の列(右端)は、帰無仮説のもとで、その値以上の数値が得られる確率を書く。この確率を「限界水準」と呼ぶ。P 値という場合もある。限界水準は、 次の積分の値である。なお、`df_A = phi, df_e = varphi` とおいた。

`P = int_(F_A)^oo F_(phi, varphi)(x)dx`
ここで `F_(phi, varphi)(x)` は自由度`(phi, varphi)` に従う `F` 分布である。この限界水準が 0.05 以下であれば 5 % 水準で有意、0.01 以下であれば 1 % 水準で有意、 0.001 以下であれば 0.1 % 水準で有意、とそれぞれ判断する。有意か否かを判断するには2つの方法がある。

第1の方法は、限界水準を求めてから有意か否かを判断するタイプである。この教科書は、[2]、[5] などがある。[2] は統計ソフトとして SPSS を使うことを前提としているようだ。 [5] は題名の通り、Excel を用いた限界水準を求めている。

F 値から限界水準を直接計算できないという前提に立つ。この場合は `F` 値を k% F 分布表と照合し、F 値が k% F 分布表より小さい場合には k % 水準で有意である、 という手法をとる。この手法をとるのは、[1]、[3]、[4] などである。[1] は Excel を利用しているが、F 分布表で判断している。これは理由あってのことである。 同書を参照してほしい(私は理解できないが)。

参考

  1. 松本哲夫[編著]:Excel による実験計画法
  2. 豊田秀樹:違いを見ぬく統計学
  3. 東京大学教養学部統計学教室(編):自然科学の統計学
  4. 永田靖:入門 実験計画法
  5. 渕上美喜ほか:Excel で学ぶ営業・企画・マーケティングのための実験計画法
  6. 坂元 慶行, 石黒 真木夫, 北川 源四郎:情報量統計学

まりんきょ学問所統計活用術 ≫ 分散分析:一元配置表モデル


MARUYAMA Satosi