Jake VanderPlas :Python データサイエンスハンドブック

作成日 : 2025-03-01
最終更新日 :

概要

副題は「Jupyter、NumPy、pandas、Matplotlib、scikit-learn を使ったデータ分析、機械学習」。

感想

要再読である。

Ⅰ部 Jupyter: Python より優れた Python

この書き方を見て、「ビーボより美味いのはビーボだけ!」を思い出した。それはともかく、ここでは Jupyter というより Ipython の使い方が解説されていると思う。

コマンドラインの Ipython を使うのなら、すぐに応答を知りたければ普通に Enter を押下するが、応答は不要で単なる行送りなら ctrl-o とする(p.36 の1行めから 2行めに移るときなど)。一方、Jupyter lab の Notebook を使うのなら、入力後すぐに応答を知りたければ Shitf-Enterで、応答不要で枠内だけの行送りなら Enter。

Ⅱ部 NumPy の基礎

事例: k 近傍法が p.93 以降に述べられている。私は昔勤務先でデジタル画像処理に携わっていて、k 近傍法を使った画像平滑化処理の論文を読んで輪講で発表したところ、年配の研究員から「k 近傍法はよくあるよね」と言われ己の不明を恥じたことをずっと覚えている。

Ⅲ部 pandas によるデータ操作

p.105 以降米国のデータが出てくる。これをみると米国 50 州で人口の多い順 5 州は順にカリフォルニア、テキサス、フロリダ、ニューヨーク、ペンシルバニアである(2020 年米国国勢調査による)。わたしはてっきりニューヨークが1位ではないかと思っていた。知らないことは恐ろしい。ちなみに日本の都道府県では多い順に東京、神奈川、大阪、愛知、埼玉である(2020 年日本国国勢調査による)。

Ⅳ部 Matplotlib による可視化

グラフや等高線を描く Matplotlib の使い方が解説されている。私は Windows11の Jupyter Lab Notebook を使って本書のとおりグラフを書こうとしたのだが、どういうわけかグラフが表示されない。仕方なくplt.showを実行したら表示されたのが、私のシステムがおかしいのか。それとも私の理解がなっていないのか。

Ⅴ部 機械学習

定番のIris分類のほかに Labeled Faces in the Wild データセットの画像が出て来る。pp.434-435 では、コリン・パウエル、ジョージ・W・ブッシュ、ヒウゴ・チャベス、小泉純一郎、トニー・ブレア、アリエル・シャロン、ドナルド・ラムズフェルド、ゲアハルト・シュレーダーなどの顔が確認できる。シャロンの名前がアリエルということを初めて知った。それから、ベネズエラのチャベス大統領やドイツのシュレーダー首相のことはすっかり忘れていた。

書誌情報

書名 Python データサイエンスハンドブック 第2版
著者 Jake VanderPlas
訳者 菊池彰
発行日 2024 年 2 月 15 日 第2版第1刷
発行所 オライリー・ジャパン
発売元 オーム社
定価 4400 円(税別)
サイズ A5 変形版
ISBN 978-4-8144-0063-8
その他 越谷市立図書館で借りて読む
NDC

まりんきょ学問所コンピュータの部屋コンピュータの本Python > Jake VanderPlas:Python データサイエンスハンドブック


MARUYAMA Satosi