統計的手法とは

作成日 : 2002-06-03
最終更新日 :

統計ことはじめ

情報技術のところでも統計とは何かということを少し説明したかもしれない。 どういう場合にホームページを見に来る人が集まるか、 その場合の多い少ないを知りたいと思ったとしよう。 幸い、いつ、どこ(の代理サーバー)から来たかの情報はあるとする。そうすれば、 この情報から数字を取り出して、にらめっこしたり、グラフを書いてみたりすることができる。

このようにデータをいろいろ加工したり集約したりして、数字にいったん表すと、 いろいろなことが見えてくる。これが統計だろう。

統計を扱う立場としては、「何かを見ようと思って見る」場合と、「データを見たら知ることができた」 という場合がある。前者は、何か予想して見るのである。たとえば、 「私のホームページはくだらないことしか書いていないから昼休みに見に来る率が多いだろう」 と予想してみる。これが実は普通なのではないかと思う。後者のように、 「データが勝手に事実を示してくれる」というのは、そう多くない。 最近取り上げられた有名な例では「紙おむつを大量に買う客は缶ビールを多く買う」という傾向が あった、というものである。これはできすぎている。できすぎているから、 デ−タマイニングという名前をつけたのではないかと思う。

ともかく、ぼちぼちとブラウザの力を借りながら、統計と親しんでみたい。 このシリーズでは、表計算ソフトは使わない。これがいい意味でも悪い意味でも特徴である。

記述統計と推測統計

統計の本には、平均というよく聞くことば、 標準偏差というたまに聞くことば、χ2検定(カイ2乗検定)という、 耳慣れないことばなど、さまざまなことばが出てくる。 本当は、それらのことばの前に、大事なことがある。それは、 データをまとめるために、どのような観点に着目するか、ということだ。

収集されたデータの中には、特定の傾向(トレンド)を内在している場合が多いと思われる。 また、本来あるはずのない特異なデータが観察される場合もある。 従って収集されたデータから、これらのクセ、問題点、疑問点をつかまえることがまず必要で、 それについての説明や解釈を考えなければいけない。この作業内容を一般に記述統計という。

そして、記述統計で考え出された説明が、 一般的にいわれている特定の条件に適合しているか、 その条件のもとで正しいといえるかどうかを検証する必要がある。 この検証過程を推測統計という。

記述統計は一般に図的な解法を伴うことが特徴である。一方、推測統計では、 複雑な数式が駆使される傾向にある。本来、記述統計と推測統計は、 両方合わせて初めて効果を得ることができる。しかし、中には推測統計ばかりにこだわっているために、 逆に本質を見失う例もあるようだ。

この統計のページで、双方の統計手法を説明できればいいと思っている。

まりんきょ学問所統計活用術 > 統計的手法とは


MARUYAMA Satosi