分散分析の中で、繰り返しのない二元配置表モデルを取り上げる。二元配置表モデルで因子を多くした拡張は、多元配置表モデルにある。 また、繰り返しのある場合は、繰り返しのある二元配置表モデルで説明した。
例題1 : 因子 `A` (因子数 4 個)と 因子 `B`(因子数 4 個) をさまざまに変えて、次の計測値を得た。 このデータから、因子 `A` の水準が変わったことにより計測値の差を検出できるか。因子 `B` についてはどうか。(文献[1] 改題)
解答1: AIC を用いたモデル選択手法と伝統的な分散分析手法との両方で考える。 どちらの手法でも、A の水準が変わったことでの計測値の差は検出できない(検出できるかどうかはわからない)が、 B の水準が変わったことで計測値の差は検出できる(伝統的分散分析手法であれば 5%水準で検出できる)という結果が得られる。
`A\B` |
AIC MODEL | 自由パラメータ数 | AIC | `hat sigma^2` |
---|---|---|---|
MODEL(∅): | 2 | 461.7148 | 147.5652 |
MODEL(A): | 5 | 440.6719 | 152.8188 |
MODEL(B): | 5 | 183.7031 | 138.8192 |
MODEL(A, B): | 8 | 162.6602 | 142.8726 |
因子 | 平方和 | 自由度 | 平均平方 | `F` 値 | 限界水準(`P` 値) |
---|---|---|---|---|---|
A | 336.6875 | 3 | 112.2292 | 0.38810 | 0.764425 |
B | 4448.1875 | 3 | 1482.7292 | 5.12747 | 0.024357 |
e | 2602.5625 | 9 | 289.1736 | ||
全体(T) | 7387.4375 | 15 |
例題2: 選手 `A` 11 人の演技を審査員 `B` 9 人が採点した。選手による点数の違いはあるか。審査員による点数の違いはあるか。(文献[2] 改題)
解答2: 伝統的な分散分析手法と AIC を用いたモデル選択手法の両方で考える。 どちらの手法でも、A が変わったことで点数は異なるし、 Bが異なる場合でもその変化が検出できる(伝統的分散分析手法であれば 5%水準で検出できる)という結果が得られる。B が有意ということは、 審査員が異なれば点数も異なるということを表している(審査員はロボットではない)。
`A\B` |
AIC MODEL | 自由パラメータ数 | `hat sigma^2` | AIC |
---|---|---|---|
MODEL(∅): | 2 | 0.1394 | 89.8752 |
MODEL(A): | 10 | 0.0195 | -85.0437 |
MODEL(B): | 8 | 0.1351 | 102.7884 |
MODEL(A, B): | 20 | 0.0152 | -93.6262 |
因子 | 平方和 | 自由度 | 平均平方 | `F` 値 | 限界水準(`P` 値) |
---|---|---|---|---|---|
A | 11.8733 | 10 | 1.18733 | 63.198 | 0.000 |
B | 0.4236 | 8 | 0.05295 | 2.81836 | 0.04793 |
e | 1.5030 | 80 | 0.0187875 | ||
全体(T) | 13.8 | 98 |
例題3 : 小麦 `A` の品種の違いにより収穫量に差異があるかどうか調べる。ブロック `B` は 5 つあり、それぞれ 4 個の試験区がある。 4 種類の小麦を 5 つの試験区にそれぞれ無作為にわりあてて栽培し、次の収穫量を得た。このテストから、収穫量は小麦の品種による差異があるといえるか。 (文献[3] p.82 <例>改題)
解答3: 伝統的な分散分析手法と AIC を用いたモデル選択手法の両方で考える。 どちらの手法でも、A が変わったことで収穫量が異なるし、 Bが異なる場合でもやはり収穫量が異なる(伝統的分散分析手法であれば 1%水準で検出できる)という結果が得られる。
`A\B` |
AIC MODEL | 自由パラメータ数 | `hat sigma^2` | AIC |
---|---|---|---|
MODEL(∅): | 2 | 51.7000 | 139.6667 |
MODEL(A): | 5 | 27.2000 | 132.8219 |
MODEL(B): | 6 | 27.7000 | 135.1862 |
MODEL(A, B): | 9 | 3.2000 | 98.0206 |
因子 | 平方和 | 自由度 | 平均平方 | `F` 値 | 限界水準(`P` 値) |
---|---|---|---|---|---|
A | 490.0000 | 3 | 163.333 | 30.625 | 0.0000 |
B | 480.0000 | 4 | 120 | 22.5 | 0.0000 |
e | 64 | 12 | 5.333 | ||
全体(T) | 1034 | 19 |
伝統的な分散分析手法と AIC を用いたモデル選択手法の両方で考える。 伝統的な分散分析手法では、主効果の項の P 値が 0.05 以下であれば 5 % 水準で帰無仮説が棄却できる、すなわちその因子に差があるという結論になる。 AIC を用いたモデル選択では、AIC が最小となるモデルが最も予測をする上で適したモデルということになる。たとえば、MODEL(A, B) が選ばれば、 主効果 A に関しても主効果 B に関してもそれぞれ変化があるとするモデルが採用できるということになる、
答:分散分析表を書く。全体的な流れは一元配置表のときと同じであるが、要因が2種類あるので、列どうしを比較するだけではなく、行どうしも比較することに注意する。 従って、求める `F` 値は行と列の 2 つとなり、その結果として限界水準 (`P` 値)も行と列の 2 つをそれぞれ求めて、有意か否かを判断する。
答:モデルを4種類考える。
`A` という因子(要因、特性、区分け)をカテゴリー1、 `B` という因子(要因、特性、区分け)をカテゴリー2とする。 因子(要因、特性、区分け)の違いを水準という。 `A` と `B` のそれぞれを特定すると、値は一つのみ決まるものとする(繰り返しなし)。
まりんきょ学問所 ≫ 統計活用術 ≫ 分散分析:二元配置表モデル