上田尚一:統計学の数理

作成日 : 2025-02-20
最終更新日:

概要

「まえがき」から引用する。このテキストでは.データ解析の手法として広く使われている「回帰分析」を例にとって解説します.

感想

要再読である。

時系列データ

「6. 時系列データの見方」では、<蓑谷千鳳彦『回帰分析のはなし』(東京図書,1985)>から引用されているデータによって得られたグラフ「図 6.1.1 ビール出荷量の時系列データ」 がある。数値にしてみると次の表 6.1.2 の左側の表になるだろう。単位は不明である。また、引用にあたりかなりの数字を割愛した。 また、私は蓑谷氏の本は読んでいないので、このデータの出所はわからない。そして転記に当たっての誤記については責任をもてない。

表 6.1.2 時系列データの分解 (1)
1~3月4~6月7~9月10~12月
1975620.71186.91270.6849.4
1976536.01158.11183.1762.4
1977584.31260.41338.0891.9
1978700.41352.71456.6895.5
1979651.61373.31449.2998.6
1980839.11329.11344.0999.3
1981818.11380.01425.5986.7
1982709.01534.01413.51077.0
1983739.61511.41816.3841.6

このデータの出所はどこだろうと思ってインターネットで検索すると、「ビール酒造組合」https://www.brewers.or.jp という団体の URL がわかった。 ここのデータを見ればわかるのではないかと思ったが、上記に相当するデータはない。それどころか、同サイトの「ビールの統計資料」を見ても「国別のビール(生産量|消費量)」 などが載っている程度で、しかもリンク先は同団体のものではなくキリンホールディングスやキリンのサイトについている。なんというか、 この団体はビールに関する基本統計を調べる気がないことがわかった。これからはビールを飲む量や頻度をさらに減らすことにしよう。

他にも手がかりがないかと思ってインターネットでさがしてみた。本書 p.206 の「付表 F.1 ビール販売量と関連指標」について、 X1 ビール消費(課税移出数量)とある。この課税移出数量をキーワードとして探してみると国税庁のページの統計資料・各種資料 (https://www.nta.go.jp/taxes/sake/tokei/mokuji.htm)が見つかった。ここの「酒税の課税関係等状況表(4月~3月)」の「過年分」を見ると、 平成 12 年度分までさかのぼることができる。なぜもっとさかのぼれなかったのかと思うが、平成 12 年 = 2000 年という、切りのいい数字だからだろう。 さて、この平成 12 年度分のページの「第6表 月別酒類課税移出数量表(国税局分)(PDFファイル/10KB)」のリンクを見てみると、 ビールの欄があり、そこでは毎月の移出数量が kℓ 単位でわかる。以下は憶測だが、上記表はこの国税局が出している各年における第6表相当の値をもとにしたのであろう。 上記表をもとにした 1975 年(昭和 50 年)の年間数量は 3927.6、1980 年(昭和 55 年)の年間数量は 4511.5 である。一方、「国税庁レポート2022(HTML) Ⅴ 酒類行政」 https://www.nta.go.jp/about/introduction/torikumi/report/2022/05_1.htm
にある課税移出数量のグラフから読み取れる昭和50年、昭和55年のビールの量(単位 万kℓ)は目視でそれぞれ 370、410 程度である。少し差がある。 さらに、長期時系列データ
https://www.nta.go.jp/publication/statistics/kokuzeicho/jikeiretsu/01.htm
にある統計表→酒税(Excel 70KB)のデータを見ると、 昭和 50 年、昭和 55 年のビールに関する酒類課税状況はそれぞれ 3,905 千kℓ、4,521 千kℓ である。ますますわからなくなってきた。

本書の付録には、付表 F.2 として「家計におけるビール購入量(月別)」のデータが BASIC プログラムの形で掲げられている。 これは、(家計調査全世帯での)ビール購入量で、単位は 633 ml(大瓶!)、世帯あたりの月平均で、出典は[家計調査年報/総務庁統計局]である。これも転記する。 前の表と同様、転記に当たっての誤記については責任をもてない。

表 家計におけるビール購入量
1月2月3月4月5月6月7月8月9月10月11月12月
19752.762.854.115.977.317.8310.0711.248.384.743.335.74
19762.502.854.305.237.948.4010.1410.296.365.074.126.85
19772.553.154.309.084.836.6111.0010.635.974.823.366.25
19782.593.325.006.046.568.3910.3710.196.265.093.786.28
19792.4762.8693.9734.7546.7858.95711.18611.4887.1035.5514.2036.668
19802.8562.8113.9498.3495.7707.80111.46211.7926.5664.6353.4625.663
19812.1362.3373.5874.7146.2097.24010.8659.7866.6764.8743.6155.981
19822.2411.9153.2194.0355.5587.2079.8219.4954.9643.7052.8104.941
19832.0962.5074.3274.6826.2887.14710.3849.5916.6683.7832.8055.278

シンプソンのパラドックス

著者は、シンプソンのパラドックスが起こるのは「混同効果」によるものだとしている。 私はこの用語を見るのは本著者による著書しかないが、おもしろいと思う。以下、「4.2 平均値対比における混同効果の補正」から引用する。

① ある変数 `X` によって観察対象がいくつかの区分にわけられており,それぞれの区分 `K` において,変数 `Y` の平均値 `bar Y_K` が計算されているものとします.

この `bar Y_k` について,その大小を比べることによって `Y` に対する `X` の効き方(この場合は `X` の区分による差)の区分別差異を把握する問題が,この節のテーマです.(中略)

② `Y` に対して別の変数 `Z` が効くのにかかわらず,その影響に関する配慮なし区分けされ,平均値が計算されている場合に
 区分間に差があること観察されたとしても
 それが,
  区分の基準とされた `X` のちがいによるものか,
  区分にあたって考慮されていない `Z`のちがいによるものか
 を判別できない ことになります.(中略)

このような混同効果に気づかず,誤った結論を誘導したために起きる誤読を「シンプソンのパラドックス」とよんでいます.

③ このような場合,`Z` を混同要因,`Z` の効果を混同効果と呼びます.`X` の効果を計測するためには
  `Z` に関して差がないように区分の仕方を工夫する
とか,それができないなら
  `Z` の効果を補正する
ことを考えなければなりません.(後略)

本書では混同効果の補正法が複数解説されている。「4.2 平均値対比における混同効果の補正」では回帰式を使う方法が説明されている。 p.81 では平均値の補正のための方法が解説されたあと、この方法の詳細については,本シリーズの統計学の論理を参照のこと、とある。 しかし、むしろ平均値の補正のための方法は、本シリーズの統計学の基礎の「6 混同要因への対処」

誤植

p.207 付表 F.2 にあるプログラムのコメント枠に家計調査全世帝とあるが、正しくは《家計調査全世帯》だろう。

p.218 にある UEDA のメニュー画面の 4 が2 変教の関係となっているが、正しくは《2 変数の関係》だろう。

書誌情報

書名 統計学の数理
著者 上田尚一
発行日 2002 年 11 月 25 日 初版第1刷
発行元 朝倉書店
定価 3400 円(本体)
サイズ A5 版
ISBN 4-254-12773-1
その他 講座 情報をよむ統計学 3 草加市立図書館にて借りて読む。

まりんきょ学問所統計統計の本 > 上田尚一:統計学の数理


MARUYAMA Satosi