分散分析の中で、欠測のある分散分析モデルを取り上げる。ここでいう「欠測のある」ということは、各水準のデータが異なる実験を意味する。 したがって、計画的に取られるべきデータで欠測がある場合はもちろん、社会調査などで必然的に各水準のデータが異なる場合にも適用できる。
文献[1] にある p.202 [例題 6.5] 欠測値のある 2 元配置実験からの引用である。 「表 6.13 要因の割付けとデータ表」の数値を用いている。
因子 `A` は 2 水準、`B` は 3 水準の繰返しのある 2 元配置実験において,欠測セルのある表 6.13 のデータを取り上げる.
A\B | `B_1` | `B_2` | `B_3` |
---|---|---|---|
`A_1` | 73, 75 | 81, 84 | 89, 92 |
`A_2` | - | - | 103, 100 |
文献[2]に従い AIC により解析する。モデル `O/` はどの因子も考慮しないモデル、モデル `A` は因子 `A` のみを考慮するモデル、モデル `B` は因子 `B` のみを考慮するモデルである。
この中ではモデル `B` が最も AIC が低いが、モデル `A` も AIC が低いので、因子 `A, B` とも水準の違いによる測定値の差を説明するのに効果がある、といえる。
なお、モデル `A, B` 、すなわち因子 `A, B` の双方を考慮するモデルは考えない。
なぜなら、このモデルでは自由パラメータ数が 5 となり、データ数 8 であることを考えると AIC を適用できる範囲から外れてしまうからである。文献 [2] では、
データにあてはめるモデルの自由パラメータ数はデータ数を `n` として通常 `2sqrt(n)` (高々 `n//2` )までとする.
と記されている。
伝統的な分散分析による手法を示す。因子 `A, B` ともに `P` 値が 0.01 を下回っているので、どちらも高度に有意である。
因子`A`の水準 | 因子`B`の水準 | 測定値 |
モデル | 自由パラメータの数 | `hat sigma^2` | AIC |
---|---|---|---|
`O/` | |||
`A` | |||
`B` |
因子 | `S` | `phi` | `V` | `F_0` | `P` |
---|---|---|---|---|---|
`A` | |||||
`B` | |||||
`E` | |||||
`T` |
文献[1] にある p.206 「[例題 6.6] 直交表による実験で欠測値が生じた場合」からの引用である。 「表 6.20 要因の割付けとデータ表」の数値を用いている。
因子 `A, B, C, D` はすべて 2 水準であり、`L_8` 直交表の割りつけと比較すると `A, B, C, D = 2, 2, 1, 1` で欠測値がある。
文献[2]に従い AIC により解析する。モデル `O/` はどの因子も考慮しないモデル、モデル `A` は因子 `A` のみを考慮するモデル、モデル `B` は因子 `B` のみを考慮するモデル、…である。 この中で最も優れているのはモデル `B` で、因子 `B` のみを考慮するモデルである。なお、複数因子を考慮するモデルでは自由パラメータが 4 となってしまう。 データ数が 7 であることを考慮すると、このデータに関して AIC で複数因子を考慮することはできない。
伝統的な分散分析による手法を示す。文献 [1] では検定は行なっていない。ただし、下記のデータの構造
`y = mu +- alpha +- beta +- gamma +- delta + e, e ~ N(0, sigma^2)`
のパラメータ `mu, alpha, beta, gamma, delta ` の推定は行なっている。文献[1] p.208 によれば、これらパラメータの推定値(パラメータにハットをつけて表す)は、
`hat mu = 460 // 24, hat alpha = 86 // 24, hat beta = 104 // 24, hat gamma = 52 // 24, hat delta = 46 // 24`
である。ここで `mu` を除く各パラメータについている複号は、各パラメータを表す因子の水準が 1 であれば + を、2 であれば - をとることを表す。
これらを計算した結果は表 2.3 のとおりである。
`A` | `B` | `C` | `D` | 測定値 |
モデル | 自由パラメータの数 | `hat sigma^2` | AIC |
---|
パラメータ | 推定値 |
---|
現在作成中である。
左列、中央列、右列のそれぞれについて説明する。
左列では、データ入力欄に適切な形式でデータを入れる。形式は1行1データ形式であり、 1データには、目的変数の値、因子 `X_1` の水準`(1, 2, ..., c(X_1))`、因子 `X_2` の水準`(1, ..., c(X_2)), cdots,` 因子 `X_r` の水準`(1, ..., c(X_r))` の順に、空白を間に入れて並べる。 例題 1 のボタンをクリックすると、この形式に従った 例題 1 のデータがデータ入力欄に挿入される。 [計算]ボタンをクリックすると、AIC 表が作成される。
中央列は AIC 表である。AIC の値が最も小さなモデルが最も適したモデルであるという結論である。今まで、例題1、例題2で `MODEL O/` としていたのは、ここでは MODEL 0 とする。 また、`MODEL(A)` は `MODEL 1`、`MODEL(B)` は `MODEL 2` と、それぞれアルファベットを数字に置き換えて表示する。 `theta_0` はモデルにおける平均値を表す。
右列は分散分析表とモデルのパラメータ表を予定しているが、未完成である。
データ入力
モデル | 自由パラメータの数 | `hat sigma^2` | `hat sigma^` | AIC | `theta_0` |
---|
因子 | `S` | `phi` | `V` | `F_0` | `P` |
---|
パラメータ | 0 |
---|
まりんきょ学問所 > 統計活用術 > 分散分析:欠測のある分散分析モデル