二大新聞(A新聞とB新聞)の地域による普及度の違いをしらべるために、 関東の220世帯と関西の180世帯で読者数を調べた。 さらに、それぞれの世帯で、世帯主の支持政党を調べたら それぞれ次の表のようになった。 新聞の選択比率を予測する上で、前頁の地域のみを考慮するモデルと、 それとも地域と支持政党を同時に考慮するモデルのどちらがより有効か。
購読新聞(I1) | 合計 | |||
---|---|---|---|---|
地域(I2) | 支持政党(I3) | A新聞 | B新聞 | 合計 |
関東 | X党 | 60 | 20 | 80 |
関東 | Y党 | 80 | 60 | 140 |
関西 | X党 | 60 | 20 | 80 |
関西 | Y党 | 30 | 70 | 100 |
合計 | 230 | 170 | 400 |
次の式で AIC を計算し、値の低いモデルを選択する。その結果、 `AIC(I_1; I_2) = -5.54` であるのに対し、 `AIC(I_1; I_2, I_3) = -46.15` であるから、`AIC(I_1; I_2, I_3)` が採択された。 すなわち、購読新聞を説明するには、地域に加えて支持政党の情報も合わせるのがより有効である、という結論を得る。
`AIC(I_1; I_2)` は、支持政党と無関係に、地域のみで購読新聞が定まると考えるときのモデルの AIC、 `AIC(I_1; I_2, I_3)` は、地域に加えて支持政党の情報も合わせて購読新聞が定まると考えるときのモデルの AIC とする。 ここで、`AIC(I_1; I_2)`、`AIC(I_1; I_2, I_3)` は、 それぞれ次のように計算される。 ここで、`n` はサンプル全体の度数、`(i_1, i_2, i_3)` の組み合わせが観測された度数を `n(i_1, i_2, i_3)`で表す。 また、`n(i_1, i_3) = sum_(i_2) n(i_1, i_2, i_3)` などの記法も用いる。
`AIC(I_1; I_2) = (-2)[sum_(i_1, i_2) n(i_1,i_2) log {:(n times n(i_1, i_2)) / (n(i_1)n(i_2)):}] + 2(c_1 - 1)(c_2 - 1)`
`AIC(I_1; I_2, I_3) = (-2)[sum_(i_1,i_2,i_3)n(i_1,i_2,i_3) log{:(n times n(i_1, i_2, i_3)) / (n(i_1)n(i_2, i_3)):} ] + 2(c_1-1)(c_2c_3-1)`
数値をあてはめて計算すると、 AIC(I1;I2) > AIC(I1;I2, I3) だから、 新聞の選択比率は、地域による条件に加えて、政党支持による条件も合わせて説明するモデルが、 よりよいことになる。