平均値の差の検定

作成日 : 2004-08-24
最終更新日 :

注意 : 以下に書かれていることは内容が古くなっている。現在は、2 群の間の標本分散が同じか否かにかかわらず、 最初から一度だけWelch の t 検定を行うことがほぼ常識となっている。以下の記述は、 あえて残している。


2つのデータ群があるとき、平均値に差があるかどうかを調べる。 AIC を用いる方法が簡便だが、t分布および F分布を利用した手法をここで述べる。

例 : 群 1 はある WEB ページの 1 日あたりのアクセス数を 7 日間にわたって調べたデータである。 この WEB ページを更新した後で、同様に 1 日あたりのアクセス数を 5 日間調べた。このときの 1 日あたりのアクセス数のデータを群2とした。 そのときの結果は次の通りである。アクセスは変わったと言えるか。 5 % 水準で検定せよ。

No.日数データ
群 1745, 30, 75, 45, 60, 70, 60
群 2560, 90, 45, 70, 80

答:次の手順で求められる。

  1. これまでの経験があれば、2群の間で分散に大きな差がないことを確かめる。 経験がない場合は、分散の差の検定を行ない、2群の間で分散に大きな差がないことを確かめる。
  2. 分散で大きな差がなければ、これから述べる方法による平均値の差の検定を行なう。

平均値の差に関する帰無仮説 H0 および対立仮説 H1 は次のとおりである。 ここで群iに関する平均を `mu_i` とする。

H0:μ1 =μ2
H1:μ1 ≠ μ2

この場合は、既に 2 群の間で分散に大きな差はないことがわかっているものとする。もし分散に違いがあるかが分からない場合は、 分散の違いの検定で計算すればよい。 ここでは 2 群の間で分散に大きな差はないことを仮定して、 これから述べる方法で平均値の差の検定を行なう。次のように記法を定義する。

群1群2
標本サイズn1n2
平均μ1μ2
不偏分散`s_1^2``s_2^2`

プールした不偏分散 `s^2` は次で定義される。

`s^2 = ((n_1 - 1) s_1^2+ (n_2 - 1) s_2^2) / (n_1 + n_2 - 2)`

この s を用いて、標本平均の差の標準誤差 `s_e` を計算する。

`s_e = s sqrt(1/n_1 + 1/n_2)`

`s_e` の値と、標本平均の差 `d` から、次の `t_0` 値を計算する。
`t_0 = d / s_e`

両側検定の場合はこの値の絶対値 `abs(t_0)` を自由度 `phi` の `t` 分布から得られる値と比べ、 `abs(t_0)` が大きい場合は、 帰無仮説を棄却する。 `abs(t_0)` が小さい場合は帰無仮説は棄却されない。

以下は、JavaScript で計算を行なう場合のフォームである。 初期状態では上記の値が入っている。「計算」のボタンを押すと、 各種データを計算するとともに与えられた自由度 `phi = n_1 + n_2 - 2` の `t` 分布の1%点と5%点を計算する。 なお、これは両側検定の場合である。 本例の場合、`abs(t_0) = 1.44972` は、自由度 `phi = 10` での 5 % 点 の値 2.228 より小さい。 従って、有意水準 5 %で帰無仮説は棄却されない。つまり、差があるとはいえない(差があるかどうかはわからない)。

注意 : 自由度 `phi` は 1 から 30 までに対応している。


群番号 データ
1
2

各群に関する統計量

群1 群2
標本サイズ n1 n2
平均 μ1 μ2
分散 `s_1^2` `s_2^2`

全体に関する統計量

プールした分散 s2
標本平均の差 d
標本平均の差の標準誤差 se
自由度φ
t0
1%点
5%点

平均値の差の検定が推奨できない理由

冒頭にも記した通り、本ページの平均値の差の検定は推奨できない。理由は、 等分散検定から t検定,ウェルチ検定,U検定への問題点 (biolab.sakura.ne.jp) などを参照のこと。

表記

ASCIIMath を使っている。

文献

  1. 日科技連QCリサーチ・グループ編 初等品質管理テキスト 日科技連

まりんきょ学問所統計活用術 ≫ 平均値の差の検定

MARUYAMA Satosi