分散分析:欠測のある分散分析モデル

作成日 : 2025-01-12
最終更新日 :

分散分析の中で、欠測のある分散分析モデルを取り上げる。ここでいう「欠測のある」ということは、各水準のデータが異なる実験を意味する。 したがって、計画的に取られるべきデータで欠測がある場合はもちろん、社会調査などで必然的に各水準のデータが異なる場合にも適用できる。

例題1

文献[1] にある p.202 [例題 6.5] 欠測値のある 2 元配置実験からの引用である。 「表 6.13 要因の割付けとデータ表」の数値を用いている。

因子 `A` は 2 水準、`B` は 3 水準の繰返しのある 2 元配置実験において,欠測セルのある表 6.13 のデータを取り上げる.

A\B`B_1``B_2``B_3`
`A_1`73, 7581, 8489, 92
`A_2`--103, 100

解答1

AICによる分散分析

文献[2]に従い AIC により解析する。モデル `O/` はどの因子も考慮しないモデル、モデル `A` は因子 `A` のみを考慮するモデル、モデル `B` は因子 `B` のみを考慮するモデルである。 この中ではモデル `B` が最も AIC が低いが、モデル `A` も AIC が低いので、因子 `A, B` とも水準の違いによる測定値の差を説明するのに効果がある、といえる。 なお、モデル `A, B` 、すなわち因子 `A, B` の双方を考慮するモデルは考えない。 なぜなら、このモデルでは自由パラメータ数が 5 となり、データ数 8 であることを考えると AIC を適用できる範囲から外れてしまうからである。文献 [2] では、 データにあてはめるモデルの自由パラメータ数はデータ数を `n` として通常 `2sqrt(n)` (高々 `n//2` )までとする.と記されている。

伝統的な分散分析

伝統的な分散分析による手法を示す。因子 `A, B` ともに `P` 値が 0.01 を下回っているので、どちらも高度に有意である。

表1.1 例題1 の水準と測定値
因子`A`の水準 因子`B`の水準 測定値
表1.2 例題 1 のAIC
モデル 自由パラメータの数 `hat sigma^2` AIC
`O/`
`A`
`B`
表1.3 例題 1 の分散分析表
因子 `S` `phi` `V` `F_0` `P`
`A`
`B`
`E`
`T`

例題2

文献[1] にある p.206 「[例題 6.6] 直交表による実験で欠測値が生じた場合」からの引用である。 「表 6.20 要因の割付けとデータ表」の数値を用いている。

因子 `A, B, C, D` はすべて 2 水準であり、`L_8` 直交表の割りつけと比較すると `A, B, C, D = 2, 2, 1, 1` で欠測値がある。


解答2

AICによる分散分析

文献[2]に従い AIC により解析する。モデル `O/` はどの因子も考慮しないモデル、モデル `A` は因子 `A` のみを考慮するモデル、モデル `B` は因子 `B` のみを考慮するモデル、…である。 この中で最も優れているのはモデル `B` で、因子 `B` のみを考慮するモデルである。なお、複数因子を考慮するモデルでは自由パラメータが 4 となってしまう。 データ数が 7 であることを考慮すると、このデータに関して AIC で複数因子を考慮することはできない。

伝統的な分散分析

伝統的な分散分析による手法を示す。文献 [1] では検定は行なっていない。ただし、下記のデータの構造
`y = mu +- alpha +- beta +- gamma +- delta + e, e ~ N(0, sigma^2)`
のパラメータ `mu, alpha, beta, gamma, delta ` の推定は行なっている。文献[1] p.208 によれば、これらパラメータの推定値(パラメータにハットをつけて表す)は、
`hat mu = 460 // 24, hat alpha = 86 // 24, hat beta = 104 // 24, hat gamma = 52 // 24, hat delta = 46 // 24`
である。ここで `mu` を除く各パラメータについている複号は、各パラメータを表す因子の水準が 1 であれば + を、2 であれば - をとることを表す。 これらを計算した結果は表 2.3 のとおりである。

表2.1 例題2の水準と測定値
`A` `B` `C` `D` 測定値
表2.2 例題 1 のAIC
モデル 自由パラメータの数 `hat sigma^2` AIC
表2.3 例題 2 のパラメータ
パラメータ 推定値

データからの計算

現在作成中である。

左列、中央列、右列のそれぞれについて説明する。

左列では、データ入力欄に適切な形式でデータを入れる。形式は1行1データ形式であり、 1データには、目的変数の値、因子 `X_1` の水準`(1, 2, ..., c(X_1))`、因子 `X_2` の水準`(1, ..., c(X_2)), cdots,` 因子 `X_r` の水準`(1, ..., c(X_r))` の順に、空白を間に入れて並べる。 例題 1 のボタンをクリックすると、この形式に従った 例題 1 のデータがデータ入力欄に挿入される。 [計算]ボタンをクリックすると、AIC 表が作成される。

中央列は AIC 表である。AIC の値が最も小さなモデルが最も適したモデルであるという結論である。今まで、例題1、例題2で `MODEL O/` としていたのは、ここでは MODEL 0 とする。 また、`MODEL(A)` は `MODEL 1`、`MODEL(B)` は `MODEL 2` と、それぞれアルファベットを数字に置き換えて表示する。 `theta_0` はモデルにおける平均値を表す。

右列は分散分析表とモデルのパラメータ表を予定しているが、未完成である。

データ入力



表 入力データの AIC
モデル 自由パラメータの数 `hat sigma^2``hat sigma^` AIC `theta_0`
表 入力データの分散分析表
因子 `S` `phi` `V` `F_0` `P`
表 入力データのパラメータ
パラメータ 0

文献

  1. 楠正・辻󠄀谷将明・松本哲夫・和田武夫:応用実験計画法
  2. 坂元慶行、石黒真木夫, 北川源四郎:情報量統計学

まりんきょ学問所統計活用術 > 分散分析:欠測のある分散分析モデル


MARUYAMA Satosi