2015年3月30日

前往資料科學之道 - Practical Machine Learning

參與Coursera的課程:Practical Machine Learning些許心得:

課程內容

此課程和其他Data Science課程相比,絕大部份都是介紹幾個常見的模型建立法,和相對應的R程式碼為主,幾乎沒有提到數學運算的部份。

Machine Learning 領域廣大,不同的學者提出不同的技術,就有不同的R package。這些package預設使用的方式有時並不一致,所以產生了caret 這個套件。讓我們有一個統一的介面使用這些不同的演算法。本課程主要使用caret建立各種模型。

 

評分方式

評分由每週的問題集(Quiz)和一個課程專案(Course Project)組成。

課程專案會提供一份受試者運動時身上佩帶裝置所測得的資料,類似Nike的FuelBand 那種透過加速度計和陀螺儀收集的資料,屬於Quantified Self的領域。參與課程的人需要使用這份資料建立預測模型,以便用此模型辨別使用者的動作。

此課程專案分為兩個部份:
  • Writeup部份:要求提供R markdown和網頁(參考Reproducible Research課程),內容包括程式碼與文字說明為何使用特定的運算法,還有驗證的方式。以同儕審查方式算分。
  • Submission部份:網站提供另外20個樣本,使用自己建立的模型將這20個樣本歸類,並將結果回傳。以預測結果是否和實際結果一致算分。

 

在有限的硬體下建立預測模型

建立預測模型時,需特別注意記憶體的狀態,例如先把不用的物件從記憶體清掉,或儘量不要在「編」(knitr)文件時同時建立模型。

有些模型算法比較複雜,例如Random Forest,使用時要考慮耗費等待的時間與是否值得其所提供的預測準度。可先使用小樣本測試不同的模型建法,決定後再進行正式的建模。

另外和其他Data Science課程比較不一樣的是電腦硬體需求,因為需要使用電腦運算建立預測模型,建議參與本課程時,電腦記憶體至少要有3GB。CPU如果慢還是可以跑,只是等待時間長短的問題。但是記憶體不足時,R會直接停住而無法完成課程專案。

必需預備的知識:R programming
建議預備的知識:The Data Scientist's Toolbox, Reproducible Research, Exploratory Data Analysis, Getting and Cleaning Data

沒有留言:

張貼留言

為避免垃圾訊息,留言需檢視後會才會顯示,請見諒。