分散分析:多元配置モデル

作成日 : 2009-02-22
最終更新日 :

分散分析の中で、多元配置モデルを取り上げる。 2元配置では、要因(因子、特徴)が2つある場合を取り上げた。 ここで多元配置とは、要因が2つ以上ある場合を指す。

例題:Mくんの WEB ページA,B,Cについて、日曜日のアクセス数と月曜日のアクセス数を測定した。 これらのアクセスは、referer があるアクセスと、ないアクセスに分けられる (注:referer とは、ページのクリック元。referer がないアクセスは、ブックマークに登録しているなど)。 これらの、 WEB ページ種類、曜日、referer の有無についての関連はあるか?

27302932
23223134
30313235

答:前回の二元配置表モデルの考え方を拡張して、モデルを8種類考える。 ここで、○は関係あること、×は関係ないことを表す。

モデルホームページ曜日referer
MODEL(`∅`)×××
MODEL(1)××
MODEL(2)××
MODEL(3)××
MODEL(1,2)×
MODEL(1,3)×
MODEL(2,3)×
MODEL(1,2,3)

ホームページによる区分けを因子1、 曜日による区分けを因子2、referer の有無による区分けを因子3とする。

今回は、因子数が3以上の場合でも適用できるように、入力データの形式を変更した。 データはすべての行で m 列あるものとする。最初の m - 1 列はそれぞれの因子1, 2, ...を表し、 最後の m 列めは測定結果を表す。 また因子内の水準は、0, 1, ... のように 0 から始まる。

サンプルのデータをデータ入力欄に落とすには、「コピー」ボタンをクリックすればよい。 「計算」ボタンをクリックすると、モデルと対応する AIC が出力される。 結果は、Model(1,2,3)の AIC が最も低い。よって、ホームページ種類、曜日、 referer 有無による差はすべてある、という結論になる。 しかし、次に AIC が小さいモデルは Model(1,2) であり、この AIC は、Model(1,2,3)のAIC と1.0 未満の違いでしかない。したがって、referer による違いはないという可能性もあり、 グレーな領域である。なお、現在は JavaScript の見直し中のため、ボタンを隠している。

なお、本稿の計算法で AIC を求めるには、2つの条件を同時に満たす必要がある。 同時に満たさない場合は、エラーメッセージを表示して処理を中断する。

第一の条件は、どの因子に対しても、その水準に含まれるデータの数は等しいことである。 上記では、ホームページに関しては、どの水準もデータ数は4である。 同様に、曜日に対しては水準あたりのデータ数はすべて6、 referer の有無に対しては水準あたりのデータ数はすべて6である。 以上から、この条件は満たしている。

第二の条件は、任意の二つの因子を固定したとき、そのどの水準の組み合わせに対しても、 データの数が等しいことである。 上記では、ホームページと曜日を固定すると、データ数は水準によらず2、 ホームページと referer 有無を固定すると、データ数は水準によらず2、 曜日と referer 有無を固定すると、データ数は水準によらず3、 となり、この条件も満たす。

統計情報の欄には、これらの条件の判断結果が表示される。 最初の段落は第一の条件を示す。第1行は、4,4,4 などのように表示される。これは、 因子1に対する水準1,2,3のデータ数がそれぞれ4, 4, 4であることを表す。 同じように、第n行の数字は、因子nに対する各水準のデータ数を表す。 次の段落は、第2の条件を表す。最初の2組の数字は、2つの因子a,bを表す (この場合に限り、因子は0から始まる)。 次のi,j:kは、因子aの水準iと因子bの水準jをとるデータがk個あることを示す。

データ入力 モデル AIC σ 統計情報

まりんきょ学問所統計活用術 ≫ 分散分析:多元配置表モデル


MARUYAMA Satosi