「まえがき」から著者のことばを引用する。
本書はベクトルや行列についての,すなわち,線形代数の入門書である. しかし,本書は,一般的なあるいは線形代数の全般的な範囲を扱っている訳ではない. 表題にあるように,データ分析を意識した線形代数,すなわち,データ分析や統計学を理解するために必要な線形代数の入門書である.(中略) 本書では,線形代数の概念や操作を,直観的にも理解できるように,できるだけ幾何学的に説明することを心がけ,多くの図を用いて説明した.
章末には問題があり、巻末には略解がある。
図を数多く用いて視覚的な直観に訴えているので見ごたえがある。また、データ分析や統計学を意識していることもあって、 偏差行列や相関行列、分散共分散行列とその処理を早くから扱っていることは、本書の趣旨に沿っていると思う。 ただ、せっかくデータ分析や統計学を意識しているのであれば、 主成分分析や因子分析について、p.188 で用語だけを出すのではなく、実際に本書の方法を使った応用例として説明があってもよかったのではないかと思える。 ただ、おそらく著者の思いは、それなら著者自身による他の著書を買ってもらいたい、 ということなのだろう。
統計と言うことであれば、他にもグラム・シュミットの直交化法とか、ハウスホルダー変換による QR 分解とか、ギブンズ回転などの話題を出してもよかったのではないかと思う。
本書では偏差行列が早くから導入されているが、あまり他の文献では見ないことばだと思った。ところが、統計学の基礎Ⅰ所収の 「多変量解析の基礎」では、「平均偏差行列」として定義されていることがわかった。恥ずかしい。 本書 pp.93-94 から引用する。
(前略)個体 `i` の変数 `x_j` の値 `x_(ij)` から変数 `x_j` の平均値 `bar x_j` を引けば, (中略)
個体 `i` の変数 `x_j` の偏差 `= x_(ij) - bar x_j`が得られる.個体 `i` の変数 `x_j` の偏差を第 `(i, j)` 要素とする行列を,偏差行列という.個体数を `N` とし,変数の個数を `n` とすれば, 偏差行列は,`X = [x_(ij)]` から,各列に対応する変数の平均値を要素とする行列を引くことで得られる.偏差行列 = `[[x_(11), x_(12), cdots, x_(1j), cdots, x_(1n)], [x_(21), x_(22), cdots, x_(2j), cdots, x_(2n)], [vdots, vdots, vdots, vdots, vdots, vdots], [x_(i1), x_(i2), cdots, x_(ij), cdots, x_(i n)], [vdots, vdots, vdots, vdots, vdots, vdots], [x_(N1), x_(N2), cdots, x_(N,j), cdots, x_(Nn)]] - [[bar x_1, bar x_2, cdots, bar x_j, cdots, bar x_n], [bar x_1 , bar x_2, cdots, bar x_j, cdots, bar x_n], [vdots, vdots, vdots, vdots, vdots, vdots], [bar x_1, bar x_2, cdots, bar x_j, cdots, bar x_n], [vdots, vdots, vdots, vdots, vdots, vdots], [bar x_1, bar x_2, cdots, bar x_j, cdots, bar x_n] ] = [[x_(11) - bar x_1, x_(12) - bar x_2, cdots, x_(1j) - bar x_j, cdots, x_(1n) - bar x_n], [x_(21) - bar x_1, x_(22) - bar x_2, cdots, x_(2j) - bar x_j, cdots, x_(2n) - bar x_n], [vdots, vdots, vdots, vdots, vdots, vdots], [x_(i1) - bar x_1, x_(i2) - bar x_2, cdots, x_(ij) - bar x_j, cdots, x_(i n) - bar x_n], [vdots, vdots, vdots, vdots, vdots, vdots], [x_(N1) - bar x_1, x_(N2) - bar x_2, cdots, x_(N,j) - bar x_j, cdots, x_(Nn) - bar x_n]] `
この偏差行列から分散共分散行列が求められる。pp.106-107 から引用する。
(前略)したがって,偏差行列にスカラー `1//sqrt(N)` を掛けた行列
`1/sqrt(N)` 偏差行列 = `1/sqrt(N) [[x_(11) - bar x_1, x_(12) - bar x_2, cdots, x_(1j) - bar x_j, cdots, x_(1n) - bar x_n], [x_(21) - bar x_1, x_(22) - bar x_2, cdots, x_(2j) - bar x_j, cdots, x_(2n) - bar x_n], [vdots, vdots, vdots, vdots, vdots, vdots], [x_(i1) - bar x_1, x_(i2) - bar x_2, cdots, x_(ij) - bar x_j, cdots, x_(i n) - bar x_n], [vdots, vdots, vdots, vdots, vdots, vdots], [x_(N1) - bar x_1, x_(N2) - bar x_2, cdots, x_(N,j) - bar x_j, cdots, x_(Nn) - bar x_n]]`を考え,この行列の転置行列ともとの [`(1//sqrt(N))` 偏差行列] の積を求めれば,分散共分散行列分散共分散行列 = `1/sqrt(N)` [偏差行列]`' 1/sqrt(N)` 偏差行列が得られる。
偏差行列から相関行列も求めることができる。pp.107-108 から引用する。
偏差行列の各列を対応する変数の標準偏差の `sqrt(N)` 倍で割った行列
`[ [(x_(11) - bar x_1)/sqrt(sum_(i=1)^N (x_(i1)-bar x_1)^2), (x_(12) - bar x_2)/sqrt(sum_(i=1)^N (x_(i2)-bar x_2)^2), cdots, (x_(1n) - bar x_n)/sqrt(sum_(i=1)^N (x_(i n)-bar x_n)^2)], [(x_(21) - bar x_1)/sqrt(sum_(i=1)^N (x_(i1)-bar x_1)^2), (x_(22) - bar x_2)/sqrt(sum_(i=1)^N (x_(i2)-bar x_2)^2), cdots, (x_(2j) - bar x_j)/sqrt(sum_(i=1)^N (x_(i n)-bar x_n)^2)], [vdots, vdots, ddots, vdots], [(x_(N1) - bar x_1)/sqrt(sum_(i=1)^N (x_(i1)-bar x_1)^2), (x_(N2) - bar x_2)/sqrt(sum_(i=1)^N (x_(i2)-bar x_2)^2), cdots, (x_(Nn) - bar x_n)/sqrt(sum_(i=1)^N (x_(i n)-bar x_n)^2)] ]`を考えれば,この行列の転置行列とこの行列の積は,相関行列である(式(1.24)を参照).
式(1.24) は p.17 によれば次のとおりである。
相関係数は,基準化した変数の対応する個体の値の積和を,個体数 `N` で割ったものである.変数 `x_j` と `x_k` の間の相関係数は
`r_(jk) = (sum_(i=1)^N(x_(ij)- bar x_j)(x_(ik) - bar x_k))/sqrt(sum_(i=1)^N(x_(ij) - bar x _j)^2 sum_(i=1)^N (x_(ik) - bar x_k)^2)`である.(後略)
数式表現は ASCIIMathML を、数式表現はMathJax を用いている。
| 書名 | データ分析のための線形代数 |
| 著者 | 岡太彬訓 |
| 発行日 | 2008 年 4 月 10 日 初版 1 刷 |
| 発行元 | 共立出版 |
| 定価 | 2500 円(本体) |
| サイズ | |
| ISBN | 978-4-320-01859-4 |
| NDC |
まりんきょ学問所 > 数学の部屋 > 数学の本 > 岡太彬訓:データ分析のための線形代数