「はじめに」から引用する。
実験計画法(Design of Experiments : DE)という言葉を聞かれたことがありますか? 使用されていますか?(後略)
第1章から第6章までが基本的な分散分析の手法にあてられている。ここまでの個所を理解することが、第7章以降の測定数を減らす手法のもとになっているといえる。 第7章から第11章が実験計画法の具体的な手法である。第12章は実験計画法と直接の関係はないが、社会的調査を行う上で有用な一対比較法が解説されている。
なお、本書では、p.10 で【注】本書では狭義に直交表を利用した要因計画のことを実験計画法と呼びます。
といっている。「狭義に」
のかかり方がわかりにくいが、おそらくこういうことだと思う。つまり、広義の実験計画法と狭義の実験計画法があり、
広義の実験計画法とは効率のよい実験方法を設計(デザイン)し、結果を適切に解析することを目的とする
(Wikipedia より引用)方法のすべてを指すものである。
一方、狭義の実験計画法とは、広義の実験計画法で直交表を使うもののみを指すものである。こういうことを著者らは言いたいのだろう。
この本を借りてきて、そういえば私は Excel を最近使っていないのだった。普段使いのコンピュータには Excel は入っていない。 以前使っていて今は緊急用に使うコンピュータには入っているが、 これは起動に 10 分以上を要する困ったコンピュータだ。だから普段使いはできない。
第1章を読みながら、困ったなと考えていたが、そういえば普段使いの Excel ではない表計算ソフトで同等のことができないか、
普段使いのコンピュータでたまに使う表計算ソフトは LibreOffice Calc (以下 Calc)である。プルダウンメニューには、データ→統計→分散分析(ANOVA)があるので、使えるかもしれない。やってみた。
次のような表を Calc で作ってみた。p.7 にある表の一部である。
売上高 | あり | なし |
---|---|---|
なし | 5.0 | 5.8 |
通常のチラシ | 5.2 | 5.9 |
超目玉のチラシ | 5.4 | 6.2 |
この表を Excel で分析するときは上記の表全体を選択するが、Calc の場合は数字の枠のみを選択する。 この状態で、プルダウンメニューの「データ→統計→分散分析(ANOVA)」を選ぶ。すると次のダイアログウィンドウが出てくる。
入力範囲は最初の選択状態にあった範囲だ。結果貼り付け先は、同じシートの空白部分の左上を指定すればいい。種類は二元配置を選ぶ。 そうすると、データ方向を選ぶ必要はなくなる。また標本当たりの行数を指定する必要もない。ここで OK をクリックすると、次の表が結果貼り付け先に表示される。
ANOVA | 2要因 |
---|---|
Alpha | 0.5 |
グループ | 回数 | 合計 | 平均 | 分散 |
---|---|---|---|---|
列1 | 3 | 15.6 | 5.2 | 0.04 |
列2 | 3 | 17.9 | 5.9667 | 0.04333 |
行1 | 2 | 10.8 | 5.4 | 0.32 |
行2 | 2 | 11.9 | 5.55 | 0.245 |
行3 | 2 | 11.6 | 5.8 | 0.32 |
変動要因 | 平方和 | 自由度 | 平均平方 | F | P 値 | F 境界値 |
---|---|---|---|---|---|---|
Rows | 0.163333 | 2 | 0.081667 | 49 | 0.02 | 19 |
Columns | 0.881667 | 1 | 0.881667 | 529 | 0.00188501581368199 | 18.5128205128205 |
Error | 0.003333 | 2 | 0.001667 | |||
Total | 1.048333 | 5 |
本書の Excel で表示された分散分析や分散分析表と比べると、情報は同等である。ただし、要因ごとの水準名を出すことが可能だ。 つまり「チラシ」要因にたいする3水準「なし」「通常のチラシ」「超目玉のチラシ」の情報や、 「電話による告知有無」要因にたいする2水準「なし」「あり」の情報が Excel では表示されているが、 Calc では「列1」や「行1」などとなって、表示に出すことができない。しかしこれは、手作業でできる範囲だ。
Excel では分散分析(繰り返しのない二元配置)の結果が表形式で得られる。これについて本書で説明されている pp.8-9 から引用する。
表示された結果の下側の「分散分析表」が、求めるべき解析結果となります。(中略)まず注目すべきところは分散分析表の「P値」です。
統計的な解析において、要因として効果があるかどうかは「確率」で判断されます。そのためにはまず、その要因の効果がまったくない状態を仮定します。(中略) そして、この要因による影響が「要因の影響がないとした状態」では何%の確率で現れるかを計算します。 もし、この確率が小さい場合、(中略)「要因による影響があった」と判断します。この確率が表中にP-値として示された数値です。
(中略)「P-値」が0.02 となっているのは、「行」で示された要因「チラシ」によって売上高が受けた影響が、「チラシ」の影響がない状態では、 たった 2% の確率でしか起きないことを示しています。これは統計的に十分小さい確率です。
一般に営業・企画・マーケティングの分野では、この確率が「15%以下」であれば、それは偶然に起きたことではない=要因によって結果が左右された、と判断できます。
驚いたのは最後の段落である。確率が 15 % 以下であれば、要因によって結果が左右された、つまり有意であるという結論が出せるわけだ。 私の中では仮設検定はいつも 5 % か 1 % だった。それが本書に書いてある分野では 15 % でいいとは初めて聞いた。もっとも、5 % にしたって 1 % にしたって恣意的な基準だから、 まあ 15 % でいいことにしましょう、と決めてもいいのだけれど、その根拠を知りたいと思う。
本章で使われている数値は、複数人にアンケートやインタビューをした結果の平均値である。このようなデータを分散分析で本書のように使っていいのかどうか、私は疑問に思っている。 例を挙げよう。第 1 章 p.12 にある 1.4 の練習問題だ。以下引用する。
食事をしながら夜景を見るなら神戸・長崎・函館のいずれがよいのか、 食事は和風・洋風どちらがよいのかを 10 人の女性に 10 点満点で回答いただいたところ、平均点は次のようになりました。
表 1.7 夜景と食事の組み合わせの満足度
食事 和風 洋風 夜景 神戸 8.5 9.2 長崎 7.4 8.1 函館 7.2 7.8
(後略)
以下の設問では要因の効果について考察を求めているが、本当に効果がわかるのだろうか。というのは上記の点数が 10 人の女性によるものの平均値だからだ。 かりに 10 人の女性の誰もが上記と似た点を付けていればばらつきがなくて本書の結論が得られるが、 各人の点数がばらついていたら、結論は違ったものになるだろう。ばらつきが大きい場合は、独立性が否定できるとは限らないからだ。
図で説明しよう。下の図は 0.5 を平均とする分布(青)と、-0.5 を平均とする分布(赤)である。これは平均が違うといっていい。
ところが、同じ 0.5 が平均とする分布と -0.5 を平均とする分布を比べた結果次のようであったとする。どちらも分布が裾広がりである。 この状態では平均が違うとはいいきれないだろう。
p.62 本文末尾、回帰分析を実行する手法が数量化理論。類です。
とあるが、正しくは、
《回帰分析を実行する手法が数量化理論Ⅰ類です。》だろう。同様の誤植が p.63 の本文最後にもある。
書名 | Excel で学ぶ営業・企画・マーケティングのための実験計画法 |
監修者 | 上田太一郎 |
著者 | 渕上美喜・上田和明・近藤宏・高橋玲子 |
発行日 | 平成 18 年(2006年) 5 月 25 日 第1版第 1 刷発行 |
発行元 | オーム社 |
定価 | 2800 円(本体) |
サイズ | A5 判変形 ページ |
ISBN | 4-274-06651-7 |
備考 | 越谷市立図書館で借りて読む |
まりんきょ学問所 > 統計活用術 > 統計・時系列の本 > 渕上美喜ほか: Excel で学ぶ営業・企画・マーケティングのための実験計画法