豊田秀樹:違いを見ぬく統計学

作成日 : 2024-09-30
最終更新日:

概要

副題は「実験計画と分散分析入門」

感想

ところどころ、自分で分散分析表を計算しながら理解しようとした。本書の計算は SAS を使っているが、私は自分で JavaScript のプログラムを組んだり、LibreOffice Calc を使ったりした。計算方法は、 本書のほか文献[1] を参考にした。

「第2章 違いを見ぬく」では、1因子実験と仮設検定について説明されている。p.64 からは繰り返しが不ぞろいの実験(繰り返し数が異なる1因子実験)が説明されている。

図表 2-6 オキシダント濃度の測定データ
季節
20 27 13 16
35 28 12 18
40 欠測 19 欠測
平均 31.7 27.5 14.717.0

(単位:1 × 10-3ppm)

p.66 から転載する。

図表 2-7 繰返しが不ぞろいの場合の分散分析表
変動要因 平方和 自由度 平均平方和 統計量(`F`)
`A` `SS_A` `df_A` `SS_A//df_A` `MS_A//MS_e`
`e` `SS_e` `df_e` `SS_e//df_e`
全体 `SS_r` `df_r`

上記の一般的な分散分析表を計算した結果は次のとおりである。

変動要因 平方和 自由度 平均平方 `F` 値限界水準
`A`(季節)
`e`
全体(`T`)

ここで限界水準を計算しようと思って、はたと困った。限界水準とは、本書によれば、p.63 で、分散分析表の書き方を説明している項で説明されている。

最後に統計量の F 値を置き,数値による分散分析表にのみ,帰無仮説の下でその値以上の数値が得られる確率を書く。この確率を「限界水準」と呼ぶ。

限界水準が 0.05 以下ならば 5 % 水準で有意,0.01 以下ならば 1 % 水準で有意,0.001 以下であれば 0.1 % 水準で有意と判定する。

困ったというのは、JavaScript でこの計算をするのが難しいのだ。本書にはこの計算の仕方について触れられている箇所はない。もちろん、今なら表計算ソフトで計算すれば一発だ。 たとえば、私が使っている Libre Office Calc では、分散分析のツールを使うと P 値という項でこの 0.058 が得られる。

本書の「はじめに」では、計算はコンピュータがやってくれること、コンピュータにまかせるために、統計パッケージ SAS の GLM プロシジャの使い方が付録(補章)で解説していることが述べられている。ただ、 この補章では、分散分析は基本的には手計算の分析が可能であると書かれているが、この限界水準(P値)を手計算で求めるのは酷だ。 上記の計算結果の限界水準(P 値)は、奥村晴彦:[改訂新版]C言語による標準アルゴリズム事典の p.344 にある F 分布のプログラムを JavaScript に移植して求めている。

分散分析の観点からの因子の分類

第3章は「公平性は測れるか」という、ちょっとそそる表題がある。この章の p.84 で、季節を因子とした亜硫酸ガスの濃度の実験データと、スケーターの実力を因子とした審査の採点結果を比較している。 この場合、因子として考えている季節とスケーターとをまったく同じ因子として考えてよいのかという疑問が出されている。比較してみると、次のような点が異なる。

表 分散分析の観点での因子の分類
季節スケーターの実力
水準数常に4つで変わらない常に一定というわけではない(スケーターの人数が水準数になるから)
興味季節ごとの濃度の違いに興味がある特定の選手と他の選手との実力の差に興味があるわけではない
水準の効果の扱い母数として扱い、非確率変数とみなす無作為標本として扱い、確率変数とみなす
モデル名母数モデル変量モデル

このことから、母数モデルで扱う因子が母数因子であり、変量モデルで扱う因子が変量因子である、ということができるだろう(これらは第4章で出てくる)。

なお、「母数」は本書 p.54 で登場しているが、統計モデルを特徴づける数のことであり、分母でも全数でもない。 統計学の基本用語.母数は分母でも全数でもない!:母数とは母平均や母分散のことである(biolab.sakura.ne.jp) という記事を参照してほしい。

交互作用

第4章は「組み合わせの妙趣を取り出す」という表題である。「妙趣」という、聞き慣れない単語があるが、漢字を追えば意味はつかめる。さて、第3節で交互作用が説明されて、 その例題として、概略次のような説明がある。アメリカの2つの都市、サンフランシスコとロサンジェルスの、それぞれダウンタウンと郊外にあるホテル料金のデータがある。 これらのデータの分散分析して得られる結果を記述している。以下因子 `A` は都市 `A_1` はサンフランシスコ、`A_2` はロサンジェルスであり、両方をまとめて `A_j` で表す。また、 因子 `B` は場所であり、`B_1` はダウンタウン、`B_2` は郊外でありまとめて `B_j` で表す。同じ `A_j, B_k` で繰り返しの番号 `i` 個あるものとする。 元データを計算した結果、図表 4-7 の分析結果が出ている。以下抜粋して引用する。

変動要因平方和
`A`7425
`B`2550
`AB`25547
`e`190619
全体 `(T)`226141

私は検算してみたが、なかなか合わない。まず、構造模型を p.103 から引用しよう。

`y_(ijk) = mu + a_j + b_k + (ab)_(jk) + e_(ijk)`
ここで、`y_(ijk)` は、`j` 番目の都市の `k` 番目の場所の `i` 番目の繰り返し番号のホテル料金(`i = 1, cdots, n, j = 1, cdots, a, k = 1, cdots, b`)、`mu` は全体平均、 `a_j` は `j` 番目の都市の全体平均からのずれ、`b_k` は `k` 番目の場所の全体平均からのずれ、 `(ab)_(jk)` は`j` 番目の都市の`k` 番目の場所のホテルの料金の、主効果を適用した料金のズレである。`e_(ijk)` は誤差である。

計算は以下のように行った。以下、変動要因 `A, B, AB, e, T` の平方和をそれぞれ単に `A, B, AB, e, T` で表す。なお、`n=9, a=2, b=2` である。

`hat mu = 1/(nab) sum_(i = 1)^n sum_(j = 1)^a sum_(k = 1)^b y_(ijk)`
`T = sum_(i = 1)^n sum_(j = 1)^a sum_(k = 1)^b (y_(ijk) - hat mu)^2`
`A = nb sum_(j = 1)^a (1/(nb)sum_(i = 1)^n sum_(k = 1)^b y_(ijk) - hat mu)^2`
`B = na sum_(k = 1)^b (1/(na)sum_(i = 1)^n sum_(j = 1)^a y_(ijk) - hat mu)^2`
`AB = n sum_(j = 1)^a sum_(k = 1)^b (1/n sum_(i = 1)^n y_(ijk) - hat mu)^2 - A - B`
`e = T - A - B - AB`
私の当初の計算では、`T, A, B` までは本書と合っていたのだが、`AB` が本書より大きな値で困っていた。よく考えてみたら、上の `AB` の式の右辺で、第2項、第3項の `-A-B` を抜かしていた。恥ずかしい。

因子の分類

本書の同じく第4章を読んでまとめたことがある。 p.105 から始まる第4節は「因子と交互作用を分類しよう」という表題で、 本文に、分散分析の観点からは,因子は母数因子と変量因子に分類された。と振り返っている。あれ、そんなところがあっただろうか。読み直してみたら、確かにそのようなところがあった。 「分散分析の観点からの因子の分類」を参照してほしい。

では交互作用の分類の観点からの因子はどう分類するか。本書を参考に次のようにまとめた。

表 交互作用の観点での因子の分類
制御因子標示因子ブロック因子
制御可能性実験者が自由に水準を定め、いつでも意のままに制御できる制御が不可能、あるいは制御の必要性がない制御不可能
再現性同様な実験を繰り返しても効果の値が変わらない(再現性あり)同左(再現性あり)再現性なし
原料の配合比、反応温度、添加物の種類、反応時間、材料の種類、仕上げの方法、品種が商品に与える影響、など 年齢、性別、場所、人種、季節、など。製品の使用条件など 実験日、実験者、実験装置、実験場所、実験の順番、など
目的効果が最大/最小の水準を探すこと特性値の振る舞いの特徴を記述するために実験に組み込まれる。最大/最小の水準だけに興味があるわけではない 水準ごとの効果の大きさには興味がなく、制御因子や表示因子の検定力を高めるため。特性値に影響すると考えられるため精度を上げるために実験の場の局所管理に使う。
交互作用標示因子間、あるいは制御因子との間にに交互作用があることを仮定標示因子間、あるいは制御因子との間にに交互作用があることを仮定 制御因子や標示因子、他のブロック因子とも交互作用を仮定しない

うーむ、難しい。

別荘地

第5章は「異なる要因を解きほぐす」である。p.153 にある図表 5-12 のキャプションは「最寄り駅を加味した別荘地の値段表」であり、これを見てどうでもいいことを考えた。 伊豆は「熱海」と「伊豆」に、九十九里は「大洋」と「東金」に、軽井沢は「軽井沢」と「中軽井沢」に、八ヶ岳は「小淵沢」と「茅野」にそれぞれ分かれている。 気になるのは、伊豆には「熱海」という駅はあるが「伊豆」という駅はないことである。 「伊豆」ではなく「伊東」とか、「伊豆高原」だったら、伊豆急行の駅にあるので(伊東駅は伊東線の駅でもある)、これらの駅名と混同してしまったのではないか。 また、九十九里とされる大洋駅は鹿島灘にある。鹿島灘は九十九里には含まれないので、 「九十九里」のかわりに別の名称に差し替える必要があるだろう。

ミネラルウォーター

「第6章 市販の水はおいしいか?」の p.164 から引用する。

いつだったか,知人と喫茶店で話をしているときに,グラスに入れて出された水が非常にまずかった。 飲めないほどではないが,カルキの匂いがする。「この水はカルキ臭いから飲まないほうがいいかもしれませんよ」と友人に忠告すると, 「私はミネラルウォーターしか飲まないから,喫茶店の水はいつも飲みませんよ」と言われて,非常に驚いたことがある。
「なにもそこまで」と思ったので「水なんかにお金をかけなくても,一度わかして湯冷ましにすると,おいしいですよ」と答えると,「ミネラルウォーターと湯冷ましじゃ, 全然味が違いますよ。違いがわかりませんか?」と言われてしまった。違いがわかりませんかと言われても,ミネラルウォーターをほとんど飲んだ経験のない私は何も言えなかった。

私は、喫茶店の水がカルキ臭いと思ったことはない(覚えていない)が、ミネラルウォーターをほとんど飲んだ経験の私というのは私にもあてはまる。著者に共感し、同情する。

p.166 からは、不完備ブロック実験(正確には、不完備ブロック実験のなかの釣り合い型不完備ブロック実験)が紹介されている。その評定値 p.167 の図表 6-1 に、 分析結果が同じページの図表 6-2 に示されている。私は図表 6-1 から図表6-2 の数値を出そうとしたが、同じ数字にならないのであきらめた。

フロリダへはハロウィンに

第7章の表題は「フロリダへはハロウィン」にである。この表題の意味を本書に従ってまとめる。

米国のホテルの料金は、シカゴとオーランドとで違い、さらにどちらの都市でも夏と冬とで異なる。シカゴは夏の料金が高く、オーランドは冬が高い。その理由は次のとおりである。 シカゴはアメリカの北にあり、冬が寒いことで知られている(かつての同僚が冬のシカゴに何度か行って、そのたびに参ったといっていた)。 オーランドはフロリダ半島にある保養地であり、夏は高温多湿で冬に比べ不快である。以上が理由である。さて章の表題の意味であるが、本書の p.199 から引用する。 オーランドを訪れるのなら 10 月から 11 月はじめの頃をお勧めする。この時期はそれほど暑くないのに,ほとんどのホテルは,まだ夏料金なのである。ここまでくれば表題の意味がわかるだろう。

数値が合わない

p.209 の図表7-10 に掲載されているデータを計算すれば、図表 7-12 の数値が得られるはずなのだが、変動要因が全体(`T`)の平方和 316585 を除き、ことごとく異なっている。困った。 js-STAR XR+ release 2.1.3 j の AsBC デザイン(3要因混合計画)(www.kisnet.or.jp) のページで計算した値を掲げる。 記法は本書にしたがった。空欄は前記ページで計算されなかった値である。カッコ内は前記ページの値を利用して私が計算した値である。

変動要因平方和自由度平均平方F 値限界水準
`A ` 251001.0000 1251001.0000659.950.0001
`B(A)` 1521.3333 4380.3333(3.78)0.0118
`C` 17911.1667 28955.583345.570.0001
`AC` 17911.1667 28955.583345.570.0001
`CB(A)` 1572.3333 8196.5417(1.95)0.0832
`D` 5625.0000 15625.0000120.110.0001
`AD` 18769.0000 118769.0000400.760.0001
`DB(A)` 187.3333 446.8333(0.47)0.7574
`CD` 641.1667 2320.58333.190.0534
`ACD` 641.1667 2320.58333.190.0534
`e` 804.3333 8100.5417
全体 316585.000035

3種類の因子

少し前に、交互作用の分類の観点から因子を分類した。さらに p.215 で、この章では,標本間因子,標本を表す変量因子,標本内因子という3種類の因子を扱うモデルを中心に話をすすめてきた。 と述べられている。また、因子の種類が出てきた。さくいんで調べて復習する。シカゴとオーランドの、ホテルの夏料金と冬料金の例でいえば、 因子Aの「都市」が「標本間因子」であり、因子C「季節」が「標本内因子」である。

モデルの区別のための観点

第7章の末尾に、モデルを区別するための観点の復習として次が述べられている。

  1. いくつの因子が登場するのか。たとえば,対応のある二元配置や,二元配置の乱塊法は,構造模型の観点からはブロック因子を含めて3因子モデルである.
  2. セル内に繰り返しはあるのかないのか。このとき繰り返しと反復測定の違いに注意する。
  3. どの因子の間に交互作用が仮定されているのか,あるいは仮定できるのか。交互作用が仮定できるのにしていない場合は,その分,誤差の自由度が大きくなる。
  4. 構造模型の各項(主効果と交互作用を含めて)は,どれが母数でどれが変量か。主効果が変量である場合は,その因子がらみの交互作用は変量となる。ただし交互作用が変量でも主効果が変量であるとは限らない。
  5. 因子間のクロスとネストの関係はどうなっているのか。ネストしている因子とされている因子の間には交互作用は仮定できないし,しても意味がない。

(1)の、「対応のある二元配置」とは、「繰り返しの3因子実験の1つの変量因子がブロックであるモデル」や「標本間0因子,標本内2因子のモデル」でもある。 また、乱塊法についても本書 p.94 で触れられているが、文献[1]を見るのがわかりやすいだろう。

(2)の繰り返しと反復測定の違いについては、pp.199-200 でも触れられているが、文献[1]の p.189 の説明がわかりやすい。

(3)の交互作用は難しい。

(4)も難しい。

(5)も難しい。

共分散分析

第8章は「特性値に影響したのは何か」という表題であり、共分散分析が解説されている。共分散分析ということばは組合せ理論とその応用で初めて見て、 その後どんな内容なのか知ることはなかった。 本書 p.226 によれば、共分散分析は、回帰分析と分散分析を同時に行う手法であると説明されている。 手順を本書 p.233 を参考に説明する。共分散分析の対象とする要因は `X` と `Y` という 2 つであるとする。

  1. `X` は `Y` と相関があるかどうかを調べる。相関がなければ `X` を分析に入れずに分散分析して終了する。相関があれば 2. に進む。
  2. 回帰係数は群間で同じか調べる。異なれば群ごとに回帰分析して終了する。同じと仮定できれば 3. に進む。
  3. 回帰係数の値は 1 とみなせるか調べる。1 とみなせれば標本間 1 因子標本内 1 因子の分散分析をして終了する(注)。1 ではないと仮定できれば4. に進む。
  4. 切片は群間で同じか調べる。異なるのであれば、`X` で補正した `Y` には群間で平均値の差があるとして終了する。異なるとはいえないのであれば、 `X` で補正した `Y` には群間で平均値の差があるとは言えないとして終了する。

(注)終了せずに 4. に進んでもよい。

本書では p.233 以降に例を挙げて説明している。この例は第7章で述べたシカゴとオーランドのホテルの夏料金と冬料金の例である。

まず、夏料金に関して、シカゴとオーランドのホテルで分散分析を行ったが、限界水準は 0.58 で有意ではない。そこで、冬料金を補助因子として利用し、共分散分析をする。上記手順で、 `X` が冬料金、`Y` が夏料金である。

手順 1. は `X` と `Y` の間に相関があるかどうかを調べることである。相関係数は(シカゴとオーランドを合わせた)全体で 0.51 である。本書では、散布図からも明らかに相関はありそうである。 として先に進んでいる。私も散布図から見るかぎりは同じように思うが、本来ならば相関係数の検定をすべきではないか。しかし、相関係数の検定は本書では触れられていないので、先に進むのもありだろう。

誤植

p.227 の線形モデルは次が正しいと思われる。

`[[y_(11)],[y_(21)],[y_(31)],[y_(41)],[y_(12)],[y_(22)],[y_(32)],[y_(42)]] = \ [[1,1,,x_(11),x_(11),],[1,1,,x_(21),x_(21),],[1,1,,x_(31),x_(31),],[1,1,,x_(41),x_(41),],[1,,1,x_(12),,x_(12)],[1,,1,x_(22),,x_(22)],[1,,1,x_(32),,x_(32)],[1,,1,x_(42),,x_(42)]]\ [[mu],[a_1],[a_2],[b],[(ab)_1],[(ab)_2]] + [[e_(11)],[e_(21)],[e_(31)],[e_(41)],[e_(12)],[e_(22)],[e_(32)],[e_(42)]]`

また、p.228 の線形モデルは次が正しいと思われる。

`[[y_(11)],[y_(21)],[y_(31)],[y_(41)],[y_(12)],[y_(22)],[y_(32)],[y_(42)]] = \ [[1,1,,x_(11)],[1,1,,x_(21)],[1,1,,x_(31)],[1,1,,x_(41)],[1,,1,x_(12)],[1,,1,x_(22)],[1,,1,x_(32)],[1,,1,x_(42)]]\ [[mu],[a_1],[a_2],[b]] + [[e_(11)],[e_(21)],[e_(31)],[e_(41)],[e_(12)],[e_(22)],[e_(32)],[e_(42)]]`

p.266 の後から4 行目週間住宅情報は、ただしくは《週刊住宅情報》だろう

文献

  1. 永田靖:入門 実験計画法

書誌情報

書名 違いを見ぬく統計学
著者 豊田秀樹
発行日 1994 年 4 月 20 日 第 1 刷
発行元 講談社
定価 757 円(税別)
サイズ 新書版
ISBN 4-06-256013-0
NDC
備考 越谷市立図書館で借りて読む

まりんきょ学問所統計活用術統計の本 > 豊田秀樹:違いを見ぬく統計学


MARUYAMA Satosi