独立性の判定

作成日 : 2007-08-28
最終更新日 :

問題

二大新聞(A新聞とB新聞)の地域による普及度の違いをしらべるために、 関東の220世帯と関西の180世帯で読者数を調べたところ、 それぞれ次の表のようになった。 新聞の選択比率は、地域によって異なるといえるか。 (2007年 中小企業診断士第1次試験 経営情報システム 改題)

A新聞B新聞合計
関東14080220
関西9090180
合計230170400

解答

次の式で AIC を計算し、値の低いモデルを選択する。 AIC(1)が採択されたので、非独立(従属)モデルが選ばれる。 すなわち、A新聞とB新聞のいずれが選ばれるかは地域に依存(従属)する。 従って、新聞の選択比率は、地域によって異なるといえる。

カテゴリー1 カテゴリー2 合計
Aタイプ
Bタイプ
AIC(0) 独立モデル
AIC(1) 非独立モデル
χ02

解説

AICによる解法

便宜上、新聞の分類をカテゴリー、地域の分類をタイプと呼ぶ。 ここで、カテゴリー軸を`i_1= 1, cdots, c_1` で、 タイプ軸を `i_2= 1, cdots, c_2` で表す。 ここで、`c_1, c_2` はそれぞれ `i_1, i_2` の分類数である。 また、`i_1` に属するカテゴリーの数を `n(i_1)`、 `i_2` に属するタイプの数を `n(i_2)`、 `i_1` と `i_2` の同時に属するカテゴリーおよびタイプの数をそれぞれ `n(i_1, i_2)` と記す。`n` はサンプル数すべてである。

MODEL(0)をカテゴリーとタイプが独立であるモデル、 MODEL(1)をカテゴリーとタイプが非独立であるモデルとする。 AIC(0), AIC(1)はそれぞれMODEL(0), MODEL(1)のAICである。 AIC(0), AIC(1) の求め方は次の通りである。log は自然対数である。

`AIC(0) = (-2)[sum_(i_1) n(i_1) log n(i_1) + sum_(i_2) n(i_2) log n(i_2) - 2 n logn] + 2(c_1 + c_2 - 2)`
`AIC(1) = (-2)[sum_(i_1) sum_(i_2) n(i_1, i_2) - n log n] + 2(c_1 c_2 - 1)`

数値をあてはめよう。

AIC(0) = (-2)[230log230 + 170log170 + 220log220 + 180log180 + 2*400log400] + 2(2 + 2 - 2) = 1099.99

AIC(1) = (-2)[140log140 + 80log80 + 90log90 + 90log90 + *400log400] + 2(2 * 2 - 1) = 1094.46

AIC(1) < AIC(0) だから、MODEL(1)のほうがよいモデルということになる。 すなわち、新聞の選択比率は、関東と関西で独立である(異なる)。

カイ2乗検定による解法

従来の独立性の検定は次の通り。

`chi^2 = sum_(i_1)sum_(i_2) {n(i_1, i_2) - (n(i_1)n(i_2))/n}^2 / {(n(i_1)n(i_2))/n} `

なる値を計算し、 χ2が近似的に自由度 (c1 - 1)(c2 - 1)の カイ2乗分布に従うことを利用した「独立性の検定」によって処理されてきた。 この表のχ2値は7.53である (これをχ02とおく)。 また、c1, c2 とも2なので、自由度は1である。

一方、χ2表によると、5%水準でのχ2値は 自由度1では 3.84である。 帰無仮説「地域ごとに差がない(無関係)」を検定する。

χ02 > χ2(1, 0.05) = 3.84

であるので、仮説は棄却された。 故に、地域ごとに差があるといえる。

数式表現

数式の表現にはMathJax を使用した。 なお、以前は MathML を使っていた。

参考文献

まりんきょ学問所統計活用術 > 独立性の判定


MARUYAMA Satosi