「まえがき」から引用する。統計学では(中略)観察対象をいくつかの区分にわけて各区分の比較をします.
(中略)観察単位ひとつひとつがそれぞれ個性をもっていますから,平均値だけに注目するのではなく,傾向性では表せない個性にも目を向けることが必要です.
したがって,「平均値」の比較だけでなく,「ひろがり幅」を表す標準偏差を比較したり,「データの分布」を比較することが必要となるのです.(中略)
このテキストでは,これらの比較に関する基礎的な手法を説明します.(後略)
章末には問題がある。解答はない。
要再読である。
p.9 の図 1.3.2(a) には、歩くことは健康によい
というキャプションが付けられ、ある新聞記事が引用されている。
新聞記事の見出しは歩けば高血圧怖くない!?
という見出しがあり、1 日の歩数と高血圧の関係が折れ線グラフで描かれている。男性と女性に層別されていて、
横軸に1日の歩数が、縦軸に最高血圧を取られていて、男性・女性ともほぼ右下がりである。つまり歩く歩数が多いほど最高血圧が低くなる図である。
私はこれを見て騙された。騙された、というのは実際には「歩く歩数が多いほど最高血圧が低くなる」ことが実証されたわけではないのである。
p. 10 を見ると、最高血圧の高低は歩数以外の他の要因、たとえば年齢が影響しているのではないか。その年齢の影響も考慮しないと因果関係が立証できない、
というのである。
p.11 から引用する。ここで、`A` は歩行距離を、`C` は年齢を指す。
要因 `A` に注目して集団を `A_1, A_2, cdots` に区分して比較したとき,「差がみられた」としても「よってその差は,`A` による差だ」とはいえない. 混同要因 `C` があると予想されるときには,要因 `C` による区分 `C_1, C_2, cdots` にわけた上,その各区分ごとに,`A` による区分を適用して比較する.
そして最後に、シンプソンのパラドックスという用語を紹介して、「混同要因を見過ごしたために起きる誤読」と定義している。 ここで混同要因については 「6. 混同要因への対処」という章で詳しく述べられている。この章での混同要因について見てみると、比較したい指標 `X` を、 比較しようとする区分 `A` を使って、`X` と `A` の関係を分析したいとき `X` の大小に影響をもたらす他の要因 `C` があって、 この要因に関して `A_1, A_2, cdots` が糖質とはいえない場合、`X` の差は `A` によるものなのか `C` によるものなのかが判別できない。 このような場合、`C` を混同要因と呼ぶ、としている。
書名 | 統計学の基礎 |
著者 | 上田尚一 |
発行日 | 2002 年 9 月 20 日 初版第1刷 |
発行元 | 朝倉書店 |
定価 | 3400 円(本体) |
サイズ | A5 版 |
ISBN | 4-254-12771-5 |
その他 | 講座 情報をよむ統計学 1 草加市立図書館にて借りて読む。 |
まりんきょ学問所 > 統計 > 統計の本 > 上田尚一:統計学の基礎