分割表の比較

作成日 : 2009-04-29

最終更新日 :

問題

二大新聞(A新聞とB新聞)の地域による普及度の違いをしらべるために、関東の220世帯と関西の180世帯で読者数を調べた。さらに、それぞれの世帯で、世帯主の支持政党を調べたらそれぞれ次の表のようになった。新聞の選択比率を予測する上で、前頁の地域のみを考慮するモデルと、それとも地域と支持政党を同時に考慮するモデルのどちらがより有効か。

		購読新聞(I_１)		合計
地域(I_２)	支持政党(I_３)	A新聞	B新聞	合計
関東	Ｘ党	60	20	80
関東	Ｙ党	80	60	140
関西	Ｘ党	60	20	80
関西	Ｙ党	30	70	100
合計		230	170	400

解答

次の式で AIC を計算し、値の低いモデルを選択する。その結果、 `AIC(I_1; I_2) = -5.54` であるのに対し、 `AIC(I_1; I_2, I_3) = -46.15` であるから、`AIC(I_1; I_2, I_3)` が採択された。すなわち、購読新聞を説明するには、地域に加えて支持政党の情報も合わせるのがより有効である、という結論を得る。

		I_１		合計
I_２	I_３	I_１(1)	I_１(2)	合計
I_２(1)	I_３(1)
I_２(1)	I_３(2)
I_２(2)	I_３(1)
I_２(2)	I_３(2)
合計

`AIC(I_1; I_2)`		地域のみモデル
`AIC(I_1; I_2, I_3)`		地域・政党モデル

解説

AICによる解法

`AIC(I_1; I_2)` は、支持政党と無関係に、地域のみで購読新聞が定まると考えるときのモデルの AIC、 `AIC(I_1; I_2, I_3)` は、地域に加えて支持政党の情報も合わせて購読新聞が定まると考えるときのモデルの AIC とする。ここで、`AIC(I_1; I_2)`、`AIC(I_1; I_2, I_3)` は、それぞれ次のように計算される。ここで、`n` はサンプル全体の度数、`(i_1, i_2, i_3)` の組み合わせが観測された度数を `n(i_1, i_2, i_3)`で表す。また、`n(i_1, i_3) = sum_(i_2) n(i_1, i_2, i_3)` などの記法も用いる。

`AIC(I_1; I_2) = (-2)[sum_(i_1, i_2) n(i_1,i_2) log {:(n times n(i_1, i_2)) / (n(i_1)n(i_2)):}] + 2(c_1 - 1)(c_2 - 1)`
`AIC(I_1; I_2, I_3) = (-2)[sum_(i_1,i_2,i_3)n(i_1,i_2,i_3) log{:(n times n(i_1, i_2, i_3)) / (n(i_1)n(i_2, i_3)):} ] + 2(c_1-1)(c_2c_3-1)`

数値をあてはめて計算すると、 AIC(I_１;I_２) ＞ AIC(I_１;I_２, I_３) だから、新聞の選択比率は、地域による条件に加えて、政党支持による条件も合わせて説明するモデルが、よりよいことになる。

参考文献

坂元、石黒、北川：情報量統計学（共立出版）

まりんきょ学問所＞統計活用術＞分割表の比較

MARUYAMA Satosi