独立性の判定

独立性の判定

作成日:2007-08-28
最終更新日:

問題

二大新聞(A新聞とB新聞)の地域による普及度の違いをしらべるために、 関東の220世帯と関西の180世帯で読者数を調べたところ、 それぞれ次の表のようになった。 新聞の選択比率は、地域によって異なるといえるか。 (2007年 中小企業診断士第1次試験 経営情報システム 改題)

A新聞B新聞合計
関東14080220
関西9090180
合計230170400

解答

次の式で AIC を計算し、値の低いモデルを選択する。 AIC(1)が採択されたので、非独立(従属)モデルが選ばれる。 すなわち、A新聞とB新聞のいずれが選ばれるかは地域に依存(従属)する。 従って、新聞の選択比率は、地域によって異なるといえる。

カテゴリー1 カテゴリー2 合計
Aタイプ
Bタイプ
AIC(0) 独立モデル
AIC(1) 非独立モデル
χ02

解説

AICによる解法

便宜上、新聞の分類をカテゴリー、地域の分類をタイプと呼ぶ。 ここで、カテゴリー軸をi1 = 1 .. c1で、 タイプ軸をi2 = 1 .. c2で表す。 ここで、c1、c2はそれぞれ i1、i2の分類数である。 また、iに属するカテゴリーの数をn(i)、 iに属するタイプの数をn(i)、 i1とi2の同時に属するカテゴリーおよびタイプの数を n(i1,i2)と記す。n はサンプル数すべてである。

MODEL(0)をカテゴリーとタイプが独立であるモデル、 MODEL(1)をカテゴリーとタイプが非独立であるモデルとする。 AIC(0), AIC(1)はそれぞれMODEL(0), MODEL(1)のAICである。 AIC(0), AIC(1) の求め方は次の通りである。log は自然対数である。

AIC(0) = ( -2 ) [ i 1 n i 1 log n i 1 + i 2 n i 2 log n i 2 - 2 n log n ] + 2 ( c 1 + c 2 - 2 ) AIC(1) = ( -2 ) [ i 1 i 2 n i 1 , i 2 log n i 1 , i 2 - n log n ] + 2 ( c 1 c 2 - 1 )

MathML 非対応ブラウザは、下記をどうぞ

AIC(0) = (-2)[Σi1n(i1)log n(i1) + Σi2n(i2)log n(i2) - 2 n log n] + 2(c1 + c2 - 2)

AIC(1) = (-2)[Σi1Σi2n(i1, i2)log n(i1, i2) - n log n] + 2(c1 c2 - 1)

数値をあてはめよう。

AIC(0) = (-2)[230log230 + 170log170 + 220log220 + 180log180 + 2*400log400] + 2(2 + 2 - 2) = 1099.99

AIC(1) = (-2)[140log140 + 80log80 + 90log90 + 90log90 + *400log400] + 2(2 * 2 - 1) = 1094.46

AIC(1) < AIC(0) だから、MODEL(1)のほうがよいモデルということになる。 すなわち、新聞の選択比率は、関東と関西で独立である(異なる)。

カイ2乗検定による解法

従来の独立性の検定は次の通り。

`chi^2 = sum_(i_1)sum_(i_2) {n(i_1, i_2) - (n(i_1)n(i_2))/n}^2 / {(n(i_1)n(i_2))/n} `

なる値を計算し、 χ2が近似的に自由度 (c1 - 1)(c2 - 1)の カイ2乗分布に従うことを利用した「独立性の検定」によって処理されてきた。 この表のχ2値は7.53である (これをχ02とおく)。 また、c1, c2 とも2なので、自由度は1である。

一方、χ2表によると、5%水準でのχ2値は 自由度1では 3.84である。 帰無仮説「地域ごとに差がない(無関係)」を検定する。

χ02 > χ2(1, 0.05) = 3.84

であるので、仮説は棄却された。 故に、地域ごとに差があるといえる。

数式表現

数式の表現にはASCIIMathを使用した。

参考文献

まりんきょ学問所統計活用術 > 独立性の判定


MARUYAMA Satosi