分散分析:二元配置表モデル

作成日 : 2004-02-14
最終更新日 :

分散分析の中で、繰り返しのない二元配置表モデルを取り上げる。二元配置表モデルで因子を多くした拡張は、多元配置表モデルにある。 また、繰り返しのある場合は、繰り返しのある二元配置表モデルで説明した。

二元配置の問題

例題1 : 因子 `A` (因子数 4 個)と 因子 `B`(因子数 4 個) をさまざまに変えて、次の計測値を得た。 このデータから、因子 `A` の水準が変わったことにより計測値の差を検出できるか。因子 `B` についてはどうか。(文献[1] 改題)

解答1: AIC を用いたモデル選択手法と伝統的な分散分析手法との両方で考える。 どちらの手法でも、A の水準が変わったことでの計測値の差は検出できない(検出できるかどうかはわからない)が、 B の水準が変わったことで計測値の差は検出できる(伝統的分散分析手法であれば 5%水準で検出できる)という結果が得られる。

表1.1 例題1の計測値
`A\B`
表1.2 例題 1 のモデルと AIC の表
AIC MODEL自由パラメータ数 AIC `hat sigma^2`
MODEL(∅):2 461.7148 147.5652
MODEL(A):5 440.6719 152.8188
MODEL(B):5 183.7031 138.8192
MODEL(A, B):8 162.6602 142.8726
表1.3 例題 1 のモデルと 分散分析表
因子 平方和 自由度 平均平方 `F` 値 限界水準(`P` 値)
A 336.6875 3 112.2292 0.38810 0.764425
B 4448.1875 3 1482.7292 5.12747 0.024357
e 2602.5625 9 289.1736
全体(T) 7387.4375 15

例題2: 選手 `A` 11 人の演技を審査員 `B` 9 人が採点した。選手による点数の違いはあるか。審査員による点数の違いはあるか。(文献[2] 改題)

解答2: 伝統的な分散分析手法と AIC を用いたモデル選択手法の両方で考える。 どちらの手法でも、A が変わったことで点数は異なるし、 Bが異なる場合でもその変化が検出できる(伝統的分散分析手法であれば 5%水準で検出できる)という結果が得られる。B が有意ということは、 審査員が異なれば点数も異なるということを表している(審査員はロボットではない)。

表2.2 例題2の計測値
`A\B`
表2.2 例題 2 のモデルと AIC の表
AIC MODEL自由パラメータ数 `hat sigma^2` AIC
MODEL(∅):2 0.1394 89.8752
MODEL(A):10 0.0195 -85.0437
MODEL(B):8 0.1351 102.7884
MODEL(A, B):20 0.0152 -93.6262
表2.3 例題 2 のモデルと 分散分析表
因子 平方和 自由度 平均平方 `F` 値 限界水準(`P` 値)
A 11.8733 10 1.18733 63.198 0.000
B 0.4236 8 0.05295 2.81836 0.04793
e 1.5030 80 0.0187875
全体(T) 13.8 98

例題3 : 小麦 `A` の品種の違いにより収穫量に差異があるかどうか調べる。ブロック `B` は 5 つあり、それぞれ 4 個の試験区がある。 4 種類の小麦を 5 つの試験区にそれぞれ無作為にわりあてて栽培し、次の収穫量を得た。このテストから、収穫量は小麦の品種による差異があるといえるか。 (文献[3] p.82 <例>改題)

解答3: 伝統的な分散分析手法と AIC を用いたモデル選択手法の両方で考える。 どちらの手法でも、A が変わったことで収穫量が異なるし、 Bが異なる場合でもやはり収穫量が異なる(伝統的分散分析手法であれば 1%水準で検出できる)という結果が得られる。

`A\B`
表3.2 例題 3 のモデルと AIC の表
AIC MODEL自由パラメータ数 `hat sigma^2` AIC
MODEL(∅):2 51.7000 139.6667
MODEL(A):5 27.2000 132.8219
MODEL(B):6 27.7000 135.1862
MODEL(A, B):9 3.2000 98.0206
表3.3 例題 3 のモデルと 分散分析表
因子 平方和 自由度 平均平方 `F` 値 限界水準(`P` 値)
A 490.0000 3 163.333 30.625 0.0000
B 480.0000 4 120 22.5 0.0000
e 64 12 5.333
全体(T) 1034 19

解答

伝統的な分散分析手法と AIC を用いたモデル選択手法の両方で考える。 伝統的な分散分析手法では、主効果の項の P 値が 0.05 以下であれば 5 % 水準で帰無仮説が棄却できる、すなわちその因子に差があるという結論になる。 AIC を用いたモデル選択では、AIC が最小となるモデルが最も予測をする上で適したモデルということになる。たとえば、MODEL(A, B) が選ばれば、 主効果 A に関しても主効果 B に関してもそれぞれ変化があるとするモデルが採用できるということになる、

データ入力 行平均 行平均 - 全体平均
列平均 全体平均
列平均-全体平均
モデルと AIC の表
AIC MODEL自由パラメータ数 `hat sigma^2` AIC
MODEL(∅):
MODEL(A):
MODEL(B):
MODEL(A, B):
分散分析表
因子 平方和 自由度 平均平方 `F` 値 限界水準(`P` 値)
A
B
e
全体(T)

伝統的な分散分析手法の場合

答:分散分析表を書く。全体的な流れは一元配置表のときと同じであるが、要因が2種類あるので、列どうしを比較するだけではなく、行どうしも比較することに注意する。 従って、求める `F` 値は行と列の 2 つとなり、その結果として限界水準 (`P` 値)も行と列の 2 つをそれぞれ求めて、有意か否かを判断する。

AIC によるモデル選択手法の場合

答:モデルを4種類考える。

`A` という因子(要因、特性、区分け)をカテゴリー1、 `B` という因子(要因、特性、区分け)をカテゴリー2とする。 因子(要因、特性、区分け)の違いを水準という。 `A` と `B` のそれぞれを特定すると、値は一つのみ決まるものとする(繰り返しなし)。

文献

  1. 坂元慶行、石黒真木夫、北川源四郎:情報量統計学(共立出版)
  2. 豊田秀樹:違いを見ぬく統計学
  3. 宇喜多義昌:実験計画法

まりんきょ学問所統計活用術 ≫ 分散分析:二元配置表モデル


MARUYAMA Satosi