「まえがき」から引用する。
(前略)樹木構造接近法の研究と開発が目覚ましく発展していくなかにあって、それらの方法を包括して解説した著作は出版されていない(中略).そのため本書では, 樹木構造接近法に関する著者らの総合報告(中略)に基づいて,個々の手法に関する具体的な内容を取り扱う.(後略)
要再読である。まだまだ読み込むまでには至っていない。
第1章は CART 法およびその拡張系の解説である。CART とは、Classification And Regression Trees の略で、 分類回帰樹木と訳されることがある。本書ではこの CART 法を実装した rpart と mvpart の2種類のパッケージについて解説されているが、現在 mvpart は CRAN から削除されている。 rpart だけで間に合わせないといけないので覚悟しないといけない。
第2章は条件付き推測樹木の概要について述べられている。
p.37 の「回帰樹木の例示:体脂肪データ」では、体脂肪データを表すデータ集合 bodyfat はパッケージ mboost に含まれている
とあるが、実行すると次の結果となる。
> data(bodyfat, package="mboost") 警告メッセージ: data(bodyfat, package = "mboost") で: データセット ‘bodyfat’ がありません
となる。where to find bodyfat dataset in R?(stackoverflow.com) の次の回答
The tutorial https://cran.r-project.org/web/packages/mboost/vignettes/mboost_tutorial.pdf suggests it is here: data("bodyfat", package = "TH.data")
によれば、TH.data を使えばいいようだ。これで無事体脂肪データが読み込めた。ただ、p.40 でエラーが出た。
> plot(bodyfat$DEXfat, pred_value, xlab="Observation", + ylab="Predicted Value", xlim=xlim, ylim=xlim) エラー: オブジェクト 'xlim' がありません
この理由はよくわからない。
p.41 では緑内障データを用いて分類樹木を例示している。本書では、緑内障データ GlaucomaM はパッケージ ipred の中にあると書かれているが、現在(2025-02-24)はない。 そのかわり、TH.data にはあるので、次のようにすればいい。
> data("GlaucomaM", package = "TH.data")
なお、現在の ipred には GlaucomaM ではなく GlaucomaMVF という、変数が GlaucomaM に比べて拡大されたデータがある。
「第3章 多変量適応型回帰スプライン法とその周辺」のデータを私も操作してみた。結果が違う(私の環境は R 4.4.2、Windows 64)。
書籍の結果
> summary(res_mars, digits=5) Call: earth(x=X, y=Y) coefficients (Intercept) 4.21338 h(8000-mmin) -0.00067 h(mmin-8000) -0.00009 h(mmax-6000) 0.00003 h(6000-mmax) -0.00012 h(cach-0) 0.00763 h(0-cachx) 0.01649 h(350-syct) -0.01909 Selected 8 of 13 terms, and 5 of 6 predictors Importance: syct, mmin, mmax, cach, chmin-unused, chmax Number of terms at each degree of interaction: 1 7 (additive model) GCV 0.19216 RSS 34.603 GRSq 0.82599 RSq 0.84863
私の結果
> summary(res_mars, digits=5) Call: earth(x=X, y=Y) coefficients (Intercept) 5.58455 h(syct-220) -0.00035 h(5240-mmin) -0.00010 h(10480-mmax) -0.00007 h(mmax-10480) 0.00003 h(96-cach) -0.01296 h(14-chmax) -0.03227 Selected 7 of 14 terms, and 5 of 6 predictors Termination condition: Unknown Importance: object has no prune.terms, call update() on the model to fix that Number of terms at each degree of interaction: 1 6 (additive model) GCV 0.17541 RSS 32.242 GRSq 0.84115 RSq 0.85895
なぜ違うのかはまったくわからない。そのため、3章を読み進めるのは諦めた。
1. カテゴリカルデータ解析 2. 多次元データ解析法 3. ベイズ統計データ解析 4. ブートストラップ入門 5. パターン認識 6. マシンラーニング 7. 地理空間データ分析 8. ネットワーク分析 9. 樹木構造接近法 10. 一般化線形モデル 11. デジタル画像処理 12. 統計データの視覚化 13. マーケティングモデル 14. 計量政治分析 15.経済データ分析(続刊) 16.金融時系列解析(続刊) 17. 社会調査データ解析 18.生物資源解析(仮)(続刊) 19. 経営と信用リスクのデータ科学 20. シミュレーションで理解する回帰分析
書名 | R で学ぶデータサイエンス 9 樹木構造接近法 |
著者 | 下川敏雄・杉本知之・後藤昌司 |
発行日 | 2013 年 10 月 10 日(初版 1 刷) |
発行元 | 共立出版 |
定価 | 3500 円(税別) |
サイズ | B5 判 |
ISBN | 978-4-320-11056-4 |
備考 | 越谷市立図書館で借りて読む |
NDC |
まりんきょ学問所 > コンピュータの部屋 > 統計活用術 > 統計、時系列の本 > 下川敏雄・杉本知之・後藤昌司:R で学ぶデータサイエンス 9 樹木構造接近法