注意 : 以下に書かれていることは内容が古くなっている。現在は、2 群の間の標本分散が同じか否かにかかわらず、 最初から一度だけWelch の t 検定を行うことがほぼ常識となっている。以下の記述は、 あえて残している。
2つのデータ群があるとき、平均値に差があるかどうかを調べる。 AIC を用いる方法が簡便だが、t分布および F分布を利用した手法をここで述べる。
例 : 群 1 はある WEB ページの 1 日あたりのアクセス数を 7 日間にわたって調べたデータである。 この WEB ページを更新した後で、同様に 1 日あたりのアクセス数を 5 日間調べた。このときの 1 日あたりのアクセス数のデータを群2とした。 そのときの結果は次の通りである。アクセスは変わったと言えるか。 5 % 水準で検定せよ。
No. | 日数 | データ |
---|---|---|
群 1 | 7 | 45, 30, 75, 45, 60, 70, 60 |
群 2 | 5 | 60, 90, 45, 70, 80 |
答:次の手順で求められる。
平均値の差に関する帰無仮説 H0 および対立仮説 H1 は次のとおりである。 ここで群iに関する平均を `mu_i` とする。
H0:μ1 =μ2
H1:μ1 ≠ μ2
この場合は、既に 2 群の間で分散に大きな差はないことがわかっているものとする。もし分散に違いがあるかが分からない場合は、 分散の違いの検定で計算すればよい。 ここでは 2 群の間で分散に大きな差はないことを仮定して、 これから述べる方法で平均値の差の検定を行なう。次のように記法を定義する。
群1 | 群2 | |
---|---|---|
標本サイズ | n1 | n2 |
平均 | μ1 | μ2 |
不偏分散 | `s_1^2` | `s_2^2` |
プールした不偏分散 `s^2` は次で定義される。
`s^2 = ((n_1 - 1) s_1^2+ (n_2 - 1) s_2^2) / (n_1 + n_2 - 2)`
この s を用いて、標本平均の差の標準誤差 `s_e` を計算する。
`s_e = s sqrt(1/n_1 + 1/n_2)`
`s_e` の値と、標本平均の差 `d` から、次の `t_0` 値を計算する。
`t_0 = d / s_e`
両側検定の場合はこの値の絶対値 `abs(t_0)` を自由度 `phi` の `t` 分布から得られる値と比べ、 `abs(t_0)` が大きい場合は、 帰無仮説を棄却する。 `abs(t_0)` が小さい場合は帰無仮説は棄却されない。
以下は、JavaScript で計算を行なう場合のフォームである。 初期状態では上記の値が入っている。「計算」のボタンを押すと、 各種データを計算するとともに与えられた自由度 `phi = n_1 + n_2 - 2` の `t` 分布の1%点と5%点を計算する。 なお、これは両側検定の場合である。 本例の場合、`abs(t_0) = 1.44972` は、自由度 `phi = 10` での 5 % 点 の値 2.228 より小さい。 従って、有意水準 5 %で帰無仮説は棄却されない。つまり、差があるとはいえない(差があるかどうかはわからない)。
注意 : 自由度 `phi` は 1 から 30 までに対応している。
冒頭にも記した通り、本ページの平均値の差の検定は推奨できない。理由は、 等分散検定から t検定,ウェルチ検定,U検定への問題点 (biolab.sakura.ne.jp) などを参照のこと。
ASCIIMath を使っている。