平均値の差の検定

作成日 : 2004-08-24

最終更新日 :

注意 : 以下に書かれていることは内容が古くなっている。現在は、2 群の間の標本分散が同じか否かにかかわらず、最初から一度だけWelch の t 検定を行うことがほぼ常識となっている。以下の記述は、あえて残している。

２つのデータ群があるとき、平均値に差があるかどうかを調べる。 AIC を用いる方法が簡便だが、t分布および F分布を利用した手法をここで述べる。

例 : 群 1 はある WEB ページの 1 日あたりのアクセス数を 7 日間にわたって調べたデータである。この WEB ページを更新した後で、同様に 1 日あたりのアクセス数を 5 日間調べた。このときの 1 日あたりのアクセス数のデータを群2とした。そのときの結果は次の通りである。アクセスは変わったと言えるか。 5 % 水準で検定せよ。

No.	日数	データ
群 1	7	45, 30, 75, 45, 60, 70, 60
群 2	5	60, 90, 45, 70, 80

答：次の手順で求められる。

これまでの経験があれば、２群の間で分散に大きな差がないことを確かめる。経験がない場合は、分散の差の検定を行ない、２群の間で分散に大きな差がないことを確かめる。
分散で大きな差がなければ、これから述べる方法による平均値の差の検定を行なう。

平均値の差に関する帰無仮説 H₀ および対立仮説 H₁ は次のとおりである。ここで群iに関する平均を `mu_i` とする。

H₀：μ₁ ＝μ₂
H₁：μ₁ ≠ μ₂

この場合は、既に 2 群の間で分散に大きな差はないことがわかっているものとする。もし分散に違いがあるかが分からない場合は、分散の違いの検定で計算すればよい。ここでは 2 群の間で分散に大きな差はないことを仮定して、これから述べる方法で平均値の差の検定を行なう。次のように記法を定義する。

	群1	群2
標本サイズ	n₁	n₂
平均	μ₁	μ₂
不偏分散	`s_1^2`	`s_2^2`

プールした不偏分散 `s^2` は次で定義される。

`s^2 = ((n_1 - 1) s_1^2+ (n_2 - 1) s_2^2) / (n_1 + n_2 - 2)`

この s を用いて、標本平均の差の標準誤差 `s_e` を計算する。

`s_e = s sqrt(1/n_1 + 1/n_2)`

`s_e` の値と、標本平均の差 `d` から、次の `t_0` 値を計算する。
`t_0 = d / s_e`

両側検定の場合はこの値の絶対値 `abs(t_0)` を自由度 `phi` の `t` 分布から得られる値と比べ、 `abs(t_0)` が大きい場合は、帰無仮説を棄却する。 `abs(t_0)` が小さい場合は帰無仮説は棄却されない。

以下は、JavaScript で計算を行なう場合のフォームである。初期状態では上記の値が入っている。「計算」のボタンを押すと、各種データを計算するとともに与えられた自由度 `phi = n_1 + n_2 - 2` の `t` 分布の1%点と5%点を計算する。なお、これは両側検定の場合である。本例の場合、`abs(t_0) = 1.44972` は、自由度 `phi = 10` での 5 % 点の値 2.228 より小さい。従って、有意水準 5 %で帰無仮説は棄却されない。つまり、差があるとはいえない（差があるかどうかはわからない）。

注意 : 自由度 `phi` は 1 から 30 までに対応している。

群番号	データ
1
2

各群に関する統計量

	群1	群2
標本サイズ	n₁	n₂
平均	μ₁	μ₂
分散	`s_1^2`	`s_2^2`

全体に関する統計量

プールした分散 s²
標本平均の差 d
標本平均の差の標準誤差 s_e
自由度φ
t₀
1%点
5%点

平均値の差の検定が推奨できない理由

冒頭にも記した通り、本ページの平均値の差の検定は推奨できない。理由は、等分散検定から t検定，ウェルチ検定，U検定への問題点 (biolab.sakura.ne.jp) などを参照のこと。

表記

ASCIIMath を使っている。

文献

日科技連QCリサーチ・グループ編初等品質管理テキスト日科技連

まりんきょ学問所 ≫ 統計活用術 ≫ 平均値の差の検定

MARUYAMA Satosi