2015年8月22日

前往資料科學之道 - The Analytics Edge

參與edX的課程:The Analytics Edge 些許心得

Practical Machine Learning一樣,本課程以機器學習為主。

內容

課程包含:
  • Linear Regression
  • Logistic Regression
  • Tree and Random Forest
  • Clustering: Hierarchical Clustering, K-Means Clustering
  • Visualization (ggplot2, ggmap, igraph)
  • Text Analysis
  • Linear and Integer Optimization (Libre Office Calc or R)

流程

每單元的流程大致如下:
  1. 概念教學:使用兩個不同的案例,概念教學,與相對應的R程式碼。每小段影片後大都會有問題,測驗學習者對於概念或是相關的R程式能力。
  2. 朗誦(Recitation):使用一個案例,針對R程式部份講解,解說一些概念教學時忽略的部份或是R程式技巧。
  3. 案例練習:採一問一答方式,逐步引導學習者進行資料分析。讓學習者從中可以了解如何對資料提出問題。
課程另外提供Kaggle排名戰,讓學習者可以與一同參與課程的同儕互相比較、討論觀念與技術,不過此競賽只有參與課程的人才能參加。

其他

每個單元兩個概念案例,一個Recitation時使用的案例,三到四個練習案例 (含不計分的練習案例),所以整個課程提供約45個案例與其R程式的範例或練習。雖然有部份案例會重複,但是在不同的單元會以不同的觀念處理。

雖然是初級課程,但規劃地非常嚴謹,紮實的感覺與Data Analysis and Statistical Inference很像。不過此課程專注在資料分析,原始資料幾乎都是已處理好的csv檔,所以沒有練習清理、整理資料的機會。

本課程需要的時間較長,共12週,每週需要的負荷量也較大,課程建議10到15小時,個人則花約15小時。

先備知識

  • 數學:基本的高中數學:最大的障礙應該是logistic function:
    • P(y = 1) = 1 / (1 + e-(β0 + β1x1 + β2x2 + ... + βkxk))
  • 統計學:基本的統計學概念像是標準差、scatterplots等
  • R:如果有基本概念最好,可以降低學習時的負荷,沒有也可以,課程會提供。

沒有留言:

張貼留言

為避免垃圾訊息,留言需檢視後會才會顯示,請見諒。