副題は「強化学習編」
https://github.com/oreilly-japan/deep-learning-from-scratch-4
バンディット問題は、昔数学の本で聞いていた。 昔読んだこの数学の本では One-armed Bandit Problem だったが、 本書では多腕バンディット問題(Multi-armed Bandit Problem)が扱われている。 いずれにせよ、バンディット問題に人工知能の本でお目にかかるとは知らなかった。 こう書いていたら、ウェブ最適化ではじめる機械学習や、 将棋 AI で学ぶディープラーニングなど、 昔読んだ人工知能の本にバンディット問題があることを忘れていた。物忘れのひどさには困ったものだ。
数値最適化を少しかじったことのある人なら、動的計画法とベルマンのなまえは切っても切り離せないことがわかるだろう。 本書でも第3章でベルマン方程式が、第4章で動的計画法が述べられている。こうやって数値最適化の話題が人工知能で出てくることは、 当然のことなのだろうが、私はなぜか不思議な気分だ。
TD 法は本書で初めて知った。
書 名 | ゼロから始める Deep Learning 4 |
著 者 | 斎藤 康毅 |
発行日 | 2022 年 4 月 4 日(初版第1刷) |
発行所 | オライリー・ジャパン |
発売元 | オーム社 |
定 価 | 3600 円(本体) |
サイズ | A5 判 |
ISBN | 978-4-87311-975-5 |
その他 | 越谷市立図書館で借りて読む |
まりんきょ学問所 > コンピュータの部屋 > コンピュータの本 > ニューロコンピューティング・人工知能 > 斎藤 康毅:ゼロから始める Deep Learning 4