五数要約

作成日 : 2002-05-16
最終更新日 :

統計データを扱う際の基礎は、分布の概要を適切に表示することである。 一般的な表示方法にはヒストグラムが良く知られている。 表計算ソフトを利用すれば、比較的楽にヒストグラムがかける。 しかし、表計算ソフトがすぐに使えない場合、わざわざソフトを使うまでもない場合は、 ヒストグラムの代わりに幹葉表示(ステム・アンド・リーフ)と呼ばれる処理がある。 幹葉表示は後の回に触れる。

今回は分布を特徴的な数値によって要約する手法として、五数要約という方法を述べる。 これは、分布をあらわす典型値として、最大値、最小値、中央値、上ヒンジ値、下ヒンジ値という、 計5種類の値で代表する方法である。最大値、最小値は自明である。 中央値は、その名のとおり、データを小さいものから大きなものへと順に(昇順に)並べたとき、 ちょうど真ん中に来るデータをいう。データの数が奇数ならば真ん中が存在するが、 偶数ならば、真ん中の順位がないので、その前後のデータの平均をとって中央値とする。 上ヒンジ値とは、中央値と最大値の中間の順位の数、 下ヒンジ値とは、最小値と中央値の中間の順位の数である。この場合も、 順位がちょうどとならないときは、適当な補間をする。

下は JavaScript による五数要約を行うツールである。空白、タブ、改行で区切られる数値を複数記入し、 「計算」ボタンをクリックすると、上記の定義に従って計算した五数要約の値が得られる。 「サンプル」ボタンをクリックすると、文献1)のサンプルからとった値が表示される。 ここで「計算」ボタンをクリックすると、最小値、下ヒンジ値、中央値、上ヒンジ値、最大値が、 それぞれ 26, 31, 39, 48, 69 と表示される。

個数

最小
下ヒンジ
中央値
上ヒンジ
最大

文献1)渡部ほか「探索的データ解析入門」朝倉書店 20ページ 表 2.1

まりんきょ学問所統計活用術 > 五数要約


MARUYAMA Satosi