母比率の判定・検定

作成日 : 1999-11-15
最終更新日:

AIC の考え方

赤池情報量規準(AIC)の応用の中に、従来の複雑で煩雑な統計的検定の各種手法の簡便化がある。 このページでは、従来「母比率(population proportion)の検定」と呼ばれていた統計的検定の問題を、母比率の判定という名前で紹介する。 名前を変更したのは、従来の煩雑な検定手法とは一線を画していて、 AIC による統一した扱いができるからだ。そして、実際の簡単な計算もできることを示す。 具体的な計算にはJavaScriptを用いる。 この結果、手軽に計算をしてみることができる。なお、従来の母比率の検定方法も紹介した。

さてこのページに限らず、AIC を用いた簡便化とは次のようになる。

  1. 統計モデルを複数作り、
  2. それらのモデルについて、一種の「あてはまり度」をAICと呼ばれる値として計算する
  3. 複数のモデルがもつAICを比較して、
  4. もっとも小さなAICをもつモデルを採用する。

本ページでは、AICの導出の仕方はばっさり省略して、使える形になったものだけを見ていく。

例題1: 視聴率が 10 % と考えられていた番組についてランダムサンプリングで調査したところ視聴者が 400 人中 28 人しかいなかった。 母集団での視聴率は 7 % (=28/400) に落ちたと判定すべきか。(文献 [1] p.65 [例 5.1 より引用])

回答1: AIC を使った解答は次のとおりである。まず、視聴率が所与の値と異なるとみなすモデルMODEL(1)と視聴率が所与の値と同じとみなすモデル MODEL(0) の AIC を比較する。 結果は、AIC(1)が204.91,AIC(0)が207.33で、AIC(1)が低くなる。これは、所与の値とは異なる、独自の確率をもつモデルがより確からしい、ということだ。 すなわち、視聴率は 7 % に変化した(落ちた)、と判定すべきである。

従来の母比率の検定による方法では次のとおりである。まず、サンプルサイズ (`n = 40`) と通常回答率 (`pi_0 = 0.1`)から求められる諸量を計算して、2項分布による近似が適用可能か調べる。 適用可能であるので、帰無仮説 `H_0 : p = pi_0` を有意水準 `alpha = 0.05` で検定する。このとき、棄却域 `R` は `R ={x in R | abs(x) gt 1.96}` で与えられる。 一方、統計検定量の実現値は -2 であり、これは棄却域に入る。従って、帰無仮説は棄却されるので、母集団での視聴率は 7 % に変化した(落ちた)といえる。

表1.1 アンケートの回答率
表1.2 AICの比較
モデル AIC
表1.3 母比率の検定
項目
`n pi_0`40
`n (1-pi_0)`360
正規分布近似可否OK
`sqrt(pi_0(1-pi_0) // n)`0.015
`n_1 // n - pi_0`-0.03
`z`-2

母比率の判定・検定の一般論と計算プログラム

n 回の試行が独立で(ある試行が他の試行に影響を与えない)、 かつそれぞれの試行の結果が2つの背反な事象に分けられる(結果がOK/NGのように2通りしかなく、必ずどちらか一方しかとらない) とき、着目した事象が `n` 回中 `n_1`回起こる確率は2項分布で与えられる。

一般化してみると、次のようになる。 着目した事象が `n` 回のうち`n_1` 回起こったとする。 いっぽう、母集団で、着目した事象が起こる確率は `pi_0` であることがわかっているとする。 問題は、`n` 回のうち `n_1` 回起こったことが確率 `pi_0` に照らして正しいといえるのか、 それとも正しいとはいえないのかを調べることである。

AIC による計算

AIC では2種類のモデルについて式を立て、そのモデルの AIC を求め、 AIC が小さなモデルを採用する、という流れをとる。 モデルの式のことばで言い換えると、2項分布の結果起こった率が、所与の率pとみなすモデル MODEL(0)が正しいのか、 それとも、他の値とみなすモデルMODEL(1)が正しいのかを所与のデータから判定することだ。 以下は AIC でのアプローチについて述べる。一般式は次の通り。母比率の特定の値を `pi_0` とする。

`AIC(1)=(-2){n_1 * log(n_1 /n) + (n - n_1)log(1 - n_1/n)}+ 2`
`AIC(0)=(-2){n_1 * log(pi_0) + (n - n_1) * log(1-pi_0)}`

AIC(1)が、独自の確率をもつモデルのAIC、AIC(0)が所与の確率をもつモデルのAICであり、値の小さい方がよりよいモデルとなる。 これをプログラムにしてみた。従来確率とサンプル数と、起こった数を入力した後、「計算」ボタンをクリックすればよい。

従来の母比率の検定による方法

2 項分布を正規分布で近似する方法と、2 項分布と等価な F 分布を使う方法がある。正規分布で近似できるのは、定数を `A` として、 `min[ n pi_0 , n ( 1 − pi_0) ]ge A` の場合に限られる。 定数 `A` は、青木先生の 母比率の検定(aoki2.si.gunma-u.ac.jp) では `A = 5` であり、 Wikipedia の Population proportion (en.wikipedia.org) では `A = 10` である。 ここでは `A = 5` とする。 以下、この条件を満足する場合の方法を示す

特性 `P` に関する母比率 `p` において

として有意水準 α = 0.05 で検定する。
検定統計量を `Z = (bar X − pi_0)/sqrt(pi_0(1 − pi_0)//n)`
とおく. 帰無仮説 `H_0` が成り立つとすると `Z` は標準正規分布 `N(0, 1)` に従う. ここ で, 対立仮説 `H_1` より両側検定を行う. このとき棄却域 `R` は, 標準正規分布の両側 5% 点 `z_(0.05) = 1.96` を使い,
`R ={x in R | abs(x) gt 1.96}`
と設定する. 標本比率は `hat p = n_1 / n` であるから、この検定統計量における実現値 z を次のように求める。
`z = (n_1 // n - pi_0)/sqrt(pi_0(1 − pi_0)//n)`
この `z` が棄却域 `R` に含まれれば帰無仮説 `H_0` は棄却され, 対立仮説 `H_1` が採択される。`z` が棄却域 `R` に含まれなければ、 帰無仮説は `H_0` は棄却されず、よって対立仮説 `H_1` も採択されない。

データ入力
従来確率 `pi_0`
サンプル数 `n`
起こった数 `n_1`

母比率の判定
モデルAIC
AIC(1)
AIC(0)
母比率の検定
項目
`n pi_0`
`n (1-pi_0)`
正規分布近似可否
`sqrt(pi_0(1-pi_0) // n)`
`n_1 // n - pi_0`
`z`

文献

  1. 坂元慶行、石黒真木夫、北川源四郎:情報量統計学(共立出版)
  2. 楠正・辻󠄀谷将明・松本哲夫・和田武夫:応用実験計画法

まりんきょ学問所統計活用術 > 母比率の判定


MARUYAMA Satosi