2つのデータ群があるとき、分散に違いがあるかどうかを調べる。2 つの母分散が等しいという仮説(等分散仮説)を検定すればいい。 この等分散仮説の検定は、以前は母平均の差の検定の前処理として使われていた。すなわち 等分散仮説の検定を行ない、その仮説が棄却されない場合に母平均の差を検定するという二段階の検定を行う、という手法が使われていた。 しかし、この二段階検定には問題点があることがわかり、現在ではWelch 検定を行なうのがよいとされている。 従って、ここで紹介する方法は単純に分散比そのものに関心がある場合にのみ用いるべきである。
なお、等分散か否かを推定するにはAIC を用いる方法が簡便だが、ここでは従来手法である F 分布を利用した手法を述べる。
例 : 群 1 はある WEB ページの 1 日あたりのアクセス数を 7 日間にわたって調べたデータである。 この WEB ページを更新した後で、同様に 1 日あたりのアクセス数を 5 日間調べた。このときの 1 日あたりのアクセス数のデータを群2とした。 そのときの結果は次の通りである。分散(バラツキ)に違いがあるといえるか。
No. | 日数 | データ |
---|---|---|
群 1 | 7 | 45, 30, 75, 45, 60, 70, 60 |
群 2 | 5 | 60, 90, 45, 70, 80 |
答:次の手順で求められる。
分散の違いに関する帰無仮説H0および対立仮説H1は次のとおりである。
`H_0 : s_1^2 = s_2^2`
`H_0 : s_1^2 != s_2^2`
次のように記法を定義する。
群1 | 群2 | |
---|---|---|
標本サイズ | n1 | n2 |
平均 | μ1 | μ2 |
不偏分散 | s1 | s2 |
ここで、不偏分散の比 `s_1^2//s_2^2` は、自由度が `(n_1 - 1, n_2 - 1)` の `F` 分布に従う。これを利用して、 次のように検定する。
まず、`F` 分布の表がある場合について述べる。`F` 分布の表の一例は、統計計算のページにある。
`F` 分布の表について説明する。`F` 分布に従う確率密度関数を `G(x; n_1, n_2)` とする。 `F` 分布の表とは、`n_1, n_2` をそれぞれ `phi, varphi` とおいて、
さて、この `F` 分布の表があれば、 自由度 `n_1, n_2` に対応する表の値と不偏分散の比(以下単に比という)を比べ、 比が表の値より大きければ帰無仮説が棄却できる。 比が表の値より小さい場合には、自由度 `n_2, n_1` に対応する表の値と比の逆数とを比べ、 比の逆数が表の値より大きい場合は帰無仮説が棄却できる。どちらも小さい場合は、帰無仮説は棄却できない。
次に、`F` 分布の表がない場合である。このときは、比を `t` として `t` から `oo` まで `G(x; phi, varphi)` を数値積分により求める。 この値が 0.95 超または 0.05 未満の場合は 5 % 水準で帰無仮説を棄却できる(すなわち、有意で分散が異なるといえる)。 またこの値が 0.99 超または 0.01 未満の場合は 1 % 水準で帰無仮説を棄却できる。本ページでは `F` 分布の表がないので、 この数値積分による値を示す。
以下は、JavaScript で計算を行なう場合のフォームである。
初期状態では上記の値が入っている。「計算」のボタンを押すと、
`F` 分布の積分値を計算する。
本例の場合、
F0 = 0.819
この場合の積分値確率は0.6066 であり、5 % 検定では棄却できない。
よって、2群のアクセス数で分散(バラツキ)に差があるとはいえない。
積分の計算法は文献 [3] に従った。 F 分布の 1 % 点と5 % 点を近似式で求める方法も文献 [4] により考案されている。 しかし、文献 [4] の近似式を JavaScript で実装したが正しい値が得られなかったため、この方法の採用は断念した。