「まえがき」から引用する。このテキストでは.データ解析の手法として広く使われている「回帰分析」を例にとって解説します.
要再読である。
「6. 時系列データの見方」では、<蓑谷千鳳彦『回帰分析のはなし』(東京図書,1985)>から引用されているデータによって得られたグラフ「図 6.1.1 ビール出荷量の時系列データ」 がある。数値にしてみると次の表 6.1.2 の左側の表になるだろう。単位は不明である。また、引用にあたりかなりの数字を割愛した。 また、私は蓑谷氏の本は読んでいないので、このデータの出所はわからない。そして転記に当たっての誤記については責任をもてない。
1~3月 | 4~6月 | 7~9月 | 10~12月 | |
---|---|---|---|---|
1975 | 620.7 | 1186.9 | 1270.6 | 849.4 |
1976 | 536.0 | 1158.1 | 1183.1 | 762.4 |
1977 | 584.3 | 1260.4 | 1338.0 | 891.9 |
1978 | 700.4 | 1352.7 | 1456.6 | 895.5 |
1979 | 651.6 | 1373.3 | 1449.2 | 998.6 |
1980 | 839.1 | 1329.1 | 1344.0 | 999.3 |
1981 | 818.1 | 1380.0 | 1425.5 | 986.7 |
1982 | 709.0 | 1534.0 | 1413.5 | 1077.0 |
1983 | 739.6 | 1511.4 | 1816.3 | 841.6 |
このデータの出所はどこだろうと思ってインターネットで検索すると、「ビール酒造組合」https://www.brewers.or.jp という団体の URL がわかった。 ここのデータを見ればわかるのではないかと思ったが、上記に相当するデータはない。それどころか、同サイトの「ビールの統計資料」を見ても「国別のビール(生産量|消費量)」 などが載っている程度で、しかもリンク先は同団体のものではなくキリンホールディングスやキリンのサイトについている。なんというか、 この団体はビールに関する基本統計を調べる気がないことがわかった。これからはビールを飲む量や頻度をさらに減らすことにしよう。
他にも手がかりがないかと思ってインターネットでさがしてみた。本書 p.206 の「付表 F.1 ビール販売量と関連指標」について、
X1 ビール消費(課税移出数量)
とある。この課税移出数量
をキーワードとして探してみると国税庁のページの統計資料・各種資料
(https://www.nta.go.jp/taxes/sake/tokei/mokuji.htm)が見つかった。ここの「酒税の課税関係等状況表(4月~3月)」の「過年分」を見ると、
平成 12 年度分までさかのぼることができる。なぜもっとさかのぼれなかったのかと思うが、平成 12 年 = 2000 年という、切りのいい数字だからだろう。
さて、この平成 12 年度分のページの「第6表 月別酒類課税移出数量表(国税局分)(PDFファイル/10KB)」のリンクを見てみると、
ビールの欄があり、そこでは毎月の移出数量が kℓ 単位でわかる。以下は憶測だが、上記表はこの国税局が出している各年における第6表相当の値をもとにしたのであろう。
上記表をもとにした 1975 年(昭和 50 年)の年間数量は 3927.6、1980 年(昭和 55 年)の年間数量は 4511.5 である。一方、「国税庁レポート2022(HTML) Ⅴ 酒類行政」
https://www.nta.go.jp/about/introduction/torikumi/report/2022/05_1.htm
にある課税移出数量のグラフから読み取れる昭和50年、昭和55年のビールの量(単位 万kℓ)は目視でそれぞれ 370、410 程度である。少し差がある。
さらに、長期時系列データ
https://www.nta.go.jp/publication/statistics/kokuzeicho/jikeiretsu/01.htm
にある統計表→酒税(Excel 70KB)のデータを見ると、
昭和 50 年、昭和 55 年のビールに関する酒類課税状況はそれぞれ 3,905 千kℓ、4,521 千kℓ である。ますますわからなくなってきた。
本書の付録には、付表 F.2 として「家計におけるビール購入量(月別)」のデータが BASIC プログラムの形で掲げられている。 これは、(家計調査全世帯での)ビール購入量で、単位は 633 ml(大瓶!)、世帯あたりの月平均で、出典は[家計調査年報/総務庁統計局]である。これも転記する。 前の表と同様、転記に当たっての誤記については責任をもてない。
1月 | 2月 | 3月 | 4月 | 5月 | 6月 | 7月 | 8月 | 9月 | 10月 | 11月 | 12月 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1975 | 2.76 | 2.85 | 4.11 | 5.97 | 7.31 | 7.83 | 10.07 | 11.24 | 8.38 | 4.74 | 3.33 | 5.74 |
1976 | 2.50 | 2.85 | 4.30 | 5.23 | 7.94 | 8.40 | 10.14 | 10.29 | 6.36 | 5.07 | 4.12 | 6.85 |
1977 | 2.55 | 3.15 | 4.30 | 9.08 | 4.83 | 6.61 | 11.00 | 10.63 | 5.97 | 4.82 | 3.36 | 6.25 |
1978 | 2.59 | 3.32 | 5.00 | 6.04 | 6.56 | 8.39 | 10.37 | 10.19 | 6.26 | 5.09 | 3.78 | 6.28 |
1979 | 2.476 | 2.869 | 3.973 | 4.754 | 6.785 | 8.957 | 11.186 | 11.488 | 7.103 | 5.551 | 4.203 | 6.668 |
1980 | 2.856 | 2.811 | 3.949 | 8.349 | 5.770 | 7.801 | 11.462 | 11.792 | 6.566 | 4.635 | 3.462 | 5.663 |
1981 | 2.136 | 2.337 | 3.587 | 4.714 | 6.209 | 7.240 | 10.865 | 9.786 | 6.676 | 4.874 | 3.615 | 5.981 |
1982 | 2.241 | 1.915 | 3.219 | 4.035 | 5.558 | 7.207 | 9.821 | 9.495 | 4.964 | 3.705 | 2.810 | 4.941 |
1983 | 2.096 | 2.507 | 4.327 | 4.682 | 6.288 | 7.147 | 10.384 | 9.591 | 6.668 | 3.783 | 2.805 | 5.278 |
著者は、シンプソンのパラドックスが起こるのは「混同効果」によるものだとしている。 私はこの用語を見るのは本著者による著書しかないが、おもしろいと思う。以下、「4.2 平均値対比における混同効果の補正」から引用する。
① ある変数 `X` によって観察対象がいくつかの区分にわけられており,それぞれの区分 `K` において,変数 `Y` の平均値 `bar Y_K` が計算されているものとします.
この `bar Y_k` について,その大小を比べることによって `Y` に対する `X` の効き方(この場合は `X` の区分による差)の区分別差異を把握する問題が,この節のテーマです.(中略)
② `Y` に対して別の変数 `Z` が効くのにかかわらず,その影響に関する配慮なし区分けされ,平均値が計算されている場合に
区分間に差があること観察されたとしても
それが,
区分の基準とされた `X` のちがいによるものか,
区分にあたって考慮されていない `Z`のちがいによるものか
を判別できない ことになります.(中略)このような混同効果に気づかず,誤った結論を誘導したために起きる誤読を「シンプソンのパラドックス」とよんでいます.
③ このような場合,`Z` を混同要因,`Z` の効果を混同効果と呼びます.`X` の効果を計測するためには
`Z` に関して差がないように区分の仕方を工夫する
とか,それができないなら
`Z` の効果を補正する
ことを考えなければなりません.(後略)
本書では混同効果の補正法が複数解説されている。「4.2 平均値対比における混同効果の補正」では回帰式を使う方法が説明されている。
p.81 では平均値の補正のための方法が解説されたあと、この方法の詳細については,本シリーズの統計学の論理を参照のこと
、とある。
しかし、むしろ平均値の補正のための方法は、本シリーズの統計学の基礎の「6 混同要因への対処」
p.207 付表 F.2 にあるプログラムのコメント枠に家計調査全世帝
とあるが、正しくは《家計調査全世帯》だろう。
p.218 にある UEDA のメニュー画面の 4 が2 変教の関係
となっているが、正しくは《2 変数の関係》だろう。
書名 | 統計学の数理 |
著者 | 上田尚一 |
発行日 | 2002 年 11 月 25 日 初版第1刷 |
発行元 | 朝倉書店 |
定価 | 3400 円(本体) |
サイズ | A5 版 |
ISBN | 4-254-12773-1 |
その他 | 講座 情報をよむ統計学 3 草加市立図書館にて借りて読む。 |
まりんきょ学問所 > 統計 > 統計の本 > 上田尚一:統計学の数理