分割表の比較

作成日 : 2009-04-29
最終更新日 :

問題

二大新聞(A新聞とB新聞)の地域による普及度の違いをしらべるために、 関東の220世帯と関西の180世帯で読者数を調べた。 さらに、それぞれの世帯で、世帯主の支持政党を調べたら それぞれ次の表のようになった。 新聞の選択比率を予測する上で、前頁の地域のみを考慮するモデルと、 それとも地域と支持政党を同時に考慮するモデルのどちらがより有効か。

購読新聞(I)合計
地域(I)支持政党(I)A新聞B新聞合計
関東X党602080
関東Y党8060140
関西X党602080
関西Y党3070100
合計230170400

解答

次の式で AIC を計算し、値の低いモデルを選択する。その結果、 `AIC(I_1; I_2) = -5.54` であるのに対し、 `AIC(I_1; I_2, I_3) = -46.15` であるから、`AIC(I_1; I_2, I_3)` が採択された。 すなわち、購読新聞を説明するには、地域に加えて支持政党の情報も合わせるのがより有効である、という結論を得る。

I合計
III(1)I(2)合計
I(1)I(1)
I(1)I(2)
I(2)I(1)
I(2)I(2)
合計
`AIC(I_1; I_2)` 地域のみモデル
`AIC(I_1; I_2, I_3)` 地域・政党モデル

解説

AICによる解法

`AIC(I_1; I_2)` は、支持政党と無関係に、地域のみで購読新聞が定まると考えるときのモデルの AIC、 `AIC(I_1; I_2, I_3)` は、地域に加えて支持政党の情報も合わせて購読新聞が定まると考えるときのモデルの AIC とする。 ここで、`AIC(I_1; I_2)`、`AIC(I_1; I_2, I_3)` は、 それぞれ次のように計算される。 ここで、`n` はサンプル全体の度数、`(i_1, i_2, i_3)` の組み合わせが観測された度数を `n(i_1, i_2, i_3)`で表す。 また、`n(i_1, i_3) = sum_(i_2) n(i_1, i_2, i_3)` などの記法も用いる。

`AIC(I_1; I_2) = (-2)[sum_(i_1, i_2) n(i_1,i_2) log {:(n times n(i_1, i_2)) / (n(i_1)n(i_2)):}] + 2(c_1 - 1)(c_2 - 1)`
`AIC(I_1; I_2, I_3) = (-2)[sum_(i_1,i_2,i_3)n(i_1,i_2,i_3) log{:(n times n(i_1, i_2, i_3)) / (n(i_1)n(i_2, i_3)):} ] + 2(c_1-1)(c_2c_3-1)`

数値をあてはめて計算すると、 AIC(I;I) > AIC(I;I, I) だから、 新聞の選択比率は、地域による条件に加えて、政党支持による条件も合わせて説明するモデルが、 よりよいことになる。

参考文献

まりんきょ学問所統計活用術 > 分割表の比較


MARUYAMA Satosi