資料科學的建模基礎:別急著coding!你知道模型的陷阱嗎? | 做自己 - 2024年10月
資料科學的建模基礎:別急著coding!你知道模型的陷阱嗎?
會coding並不代表會建模!
你是否曾經有以下問題:
「如何評估模型的適用性?」
「有人說模型參數越多越不好?」
「各種模型的差異以及特色是什麼?」
「有人說模型好壞不能只看預測精確率?」
「要選哪一種模型比較適合手上的資料?」
這本書,將帶你釐清以上所有疑惑,以及你心中更多問不出來的問題!
市面上有很多優質的書籍,可以將建模工具(如:TensorFlow、Keras、PyTorch 等框架)鉅細靡遺地操作一遍;或是涵蓋許多數學、統計學的學理面,完美展現漂亮的數學式。但仍舊會讓人有隔靴搔癢、似懂非懂的感覺。再加上資料科學應用在不同領域,如工程學、物理學、化學、生物學、生態學、哲學、或是經濟學,產生大量令人混淆的知識、名詞。因此,過去那種單點突破式的學習歷程,已經不足以應付當代資料科學家的養成。
想要在這混亂的資料科學領域裡脫穎而出,關鍵就在於你需要有見樹也見林的通盤觀念:以「模型」為中心,將相關的數學、統計知識環繞在這個中心,做一個通盤的介紹;接著,以俯視的角度,來抓住各領域常用模型之間的關聯,並說明許多技術本質上是殊途同歸;最後,我們即可探討現實中不同問題的分析方式,以及實務上建模需要注意的事情。
本書將會講解與模型相關的機率、統計、微分方程、自我迴歸、狀態空間、馬可夫鏈等觀念;並且比較隨機森林、支援向量機(SVM)、神經網路、深度學習、自編碼器、強化式學習、多體系統等各種不同模型的優劣;最後討論貝氏推論、最大後驗估計、費雪三原則、訊息準則、概似比檢驗等如何應用在實際建模的過程。
中文版提供免費Python程式下載,讓讀者可以實際演練書中的範例,加深對知識的理解。
本書用宏觀的角度,來解述資料分析數學模型,讓你徹底了解資料分析過程中,不可或缺的「數學模型」。有了這本書,你將會掌握當代數學模型的基本精神,讓你在未來的研究或工作上,可以更順利。
本書特色
● 改變傳統一直寫程式的教學,帶你回到資料科學最根本的觀念
● 俯視資料科學的各種技術,掌握模型的特性跟陷阱
● 底線標示重要觀念,粗體標示重要名詞,註解提供讀者延伸資訊
● 滿滿全彩圖說,每章結束附有重點整理,中文版附贈範例程式
好評推薦 (依姓名筆劃順序排列)
東京大學教授 西成活裕 推薦
國立高雄科技大學副教授 連志原 推薦
教育部國家講座教授/臺大講座教授/曾任臺大教務長 郭鴻基 推薦
國立臺灣大學名譽教授 謝南瑞 推薦
作者簡介
江崎貴裕
東京大學先端科學技術研究中心特任講師。
2011 年畢業於東京大學工學部航空太空工程學系。2015 年取得同系所課程博士學位(因表現優異而縮短修業年限 1 年)與論文博士學位(工程學)。曾任日本學術振興會特別研究員、日本國立情報學研究所專案計畫研究員、日本國立研究開發法人科學技術振興機構 PRESTO 研究員與史丹佛大學訪問學者,自 2020 年起擔任現職。曾獲東京大學校長獎及井上研究獎勵獎等。致力於憑藉數學分析技術,解決統計力學、腦科學、行為經濟學、生物化學、運輸工程與物流科學等多重領域之問題。
序言
第一篇 何謂數學模型
第1章 資料分析與數學模型
1.1 資料分析
1.2 數學模型的作用
第2章 數學模型的組成元素與類型
2.1 變數、數學結構、參數
2.2 數學模型與自然科學的基礎理論
2.3 理解導向建模與應用導向建模
2.4 理解導向建模
2.5 應用導向建模
2.6 數學模型的限制與適用範圍
第二篇 基礎數學模型
第3章 由簡單方程式建構而成之模型
3.1 線性模型(Linear Model)
3.2 實驗公式與曲線擬合
3.3 最佳化問題(Optimization Problem)
第4章 由基本微分方程式建構而成之模型
4.1 可求解的微分方程式模型
4.2 非線性微分方程式模型
4.3 可求解之模型和不可求解之模型
4.4 控制理論(Control Theory)
第5章 機率模型
5.1 隨機過程(Stochastic Process)
5.2 馬可夫過程(Markov Process)
5.3 排隊理論
第6章 統計模型
6.1 常態分佈
6.2 統計檢定
6.3 迴歸分析
第三篇 進階數學模型
第7章 時間序列模型
7.1 時間序列資料之結構
7.2 使用可觀測變數之模型
7.3 狀態空間模型(State Space Model)
7.4 他種類的時間序列分析法
第8章 機器學習(Machine Learning)模型
8.1 機器學習使用的模型與處理的問題特徵
8.2 分類(Classifification)、迴歸問題(Regression)
8.3 分群
8.4 降維(Dimensionality Reduction)
8.5 深度學習(Deep Learning)
第9章 強化式學習(Reinforcement Learning)模型
9.1 以強化式學習做為行為模型
92 以強化式學習進行機器學習
第10章 多體系統模型(Many-body System) 模型
10.1 從微觀到宏觀
10.2 各種集體現象模型
10.3 交互作用的網路
第四篇 建立數學模型
第11章 決定模型的因素
11.1 數學模型的性質
11.2 理解導向建模的要點
11.3 應用導向建模的要點
第12章 設計模型
12.1 變數的選擇
12.2 資料取得與實驗設計
12.3 數學結構與參數的選擇
12.4 避免建模錯誤
第13章 參數估計
13.1 根據目的進行參數估計
13.2 參數估計中目標函數的最小化
13.3 貝氏推論(Bayesian Inference)與貝氏建模(Bayesian Modeling)
第14章 評估模型
14.1 什麼是「好的模型」?
14.2 分類準確率之指標
14.3 訊息準則(Information Criterion)
14.4 與虛無模型(Null Model)的比較與概似比檢驗(Likelihood Ratio Test)
14.5 交叉驗證(Cross-Validation)
後記