竹村彰通・谷口正信:統計学の基礎Ⅰ

作成日 : 2025-02-08
最終更新日 :

概要

副題は線形モデルからの出発

感想

要再読である。

第Ⅰ部は多変量解析入門(竹村彰通)、第2部は時系列解析入門(谷口正信)である。

第Ⅰ部をちょっとだけ見てみた。

「1 多変量解析の考え方」では、p.3 で多変量解析といっても,その中には,回帰分析,分散分析,主成分分析,判別分析,因子分析,分割表,グラフィカルモデル, などの手法があり となっている。グラフィカルモデルというのは初めて聞く名前だ。調べてみる。

老眼が進み、バー `bar x` とティルデ `tilde x` の区別が付きにくくなっているのを嘆きながら「2 多変量解析の記法」を読んでいる。 「2.2 標本平均ベクトルと標本分散行列」の p.9 から引用する。なお、引用にあたって、斜体太文字のかわりに立体太文字を使う。

数値データからなるデータ行列が与えられたときに,まずは平均,分散,および相関係数を求めることが基本である. `p` 個の変数のそれぞれの標本平均を要素とする標本平均ベクトル

`bar bb x = ((bar x_1),(vdots),(bar x_p)) = 1/n sum_(t=1)^n bbx_t = 1/n bbX' bb1_n`
である.ただし `bb1_n = (1, cdots, 1)' ` は1 のみからなる `n` 次元ベクトルを表す.
`tilde bbX = bbX - bb1_n bar bbx' = (x_(ti) - bar x_i)_(1 le t le n, 1 le i le p)`
は各観測値を平均偏差 `x_(ti) - bar x_i` に変換した値からなる行列であり,平均偏差行列とよぶ.

この「平均偏差行列」を読んで気になったことがあった。なぜ「平均」をつけるのか、ということだ。 岡太彬訓:分析のためのデータ線形代数では、この行列のことを単に偏差行列を呼んでいるからだ。 「平均」がついている意味は結局わからなかったが、ついていると定義を思い浮かべやすいという利点はあると思う。

かなり飛ばして「7 分割表のモデルとグラフ表現」を見る。最初に「グラフィカルモデル」が気になっていたが、p.85 ではグラフィカルモデルは生成集合が, あるグラフ `G` のクリークの集合として表されるような階層モデルである.と定義される。では階層モデルとは何かということになるが、 これは多元分割表のモデルとしてもっとも一般的なモデル、ということしかわからない。これを学ぶには、もっと修行しないといけない。 もちろん、グラフィカルとあるのでグラフ理論の用語も理解しないといけない。

第Ⅱ部をちょっとだけ見てみた。

「1 さまざまな時系列」では、時系列構造に基づいた地震波のデータの判別・分類の一例が述べられていて、 それを受けて p.132 では次のように書かれている。 以上のような解析は何も地震波のデータに限ることではない。(中略)また近年,金融工学の重要な問題の1つに, いくつかの会社の財務データからそれらの会社を信用クラスに分類する話がある. この分野の多くの解析は独立標本を想定した通常の判別手法を用いているが,上述した時系列構造に基づいた判別,分類が可能になるだろう. わたしも勤務先で真似事をしていたが、だいたい非上場の取引先は財務データを後悔しないので困ってしまい、その先に進めないのだった。

「4 ノンパラメトリック手法」ではノンパラメトリックなスペクトル推定について述べられている。この場合はスペクトル・ウィンドウを使うのがほぼ必須であり、 pp.186-187 で各種ウィンドウが紹介されている。p.187 では Hanning ウィンドウの例があるが、この窓は Hann によって考案されたので、 本来ならば Hann ウィンドウと呼ぶべきだという主張もある。

書誌情報

書名 統計学の基礎Ⅰ
著者 竹村彰通・谷口正信
発行日 2004 年 2 月 5 日 第 2 刷
発行元 岩波書店
ISBN 4-00-006841-5
定価 3400 円(本体)
備考 川口市立図書館で借りて読む

まりんきょ学問所コンピュータの部屋統計活用術統計・時系列の本 > 竹村彰通・谷口正信:統計学の基礎Ⅰ


MARUYAMA Satosi