2015年6月1日

前往資料科學之道 - 資料分析與R

參與Udacity的課程:Data Analysis with R 些許心得

課程以Exploratory Data Analysis (EDA) 為主,我們可以透過這種方式觀察變數之間的關係,提供後續分析時一個大概的方向。例如將原本的非線性關係轉為 (transform) 線性關係,這樣在下一步的建立預測模型時,只要使用線性模型即可。DEA 大部份觀察的方式以視覺為主。

流程

課堂以一個個小單位構成,順序如下:
  1. 短片(約1分鐘),
  2. 簡單問題(Quiz)、有時提供給說明文件或提示,通常是其他網站的文章。
  3. 影片解釋。
  4. 回到第一步。

內容

圖型系統:ggplot2
使用資料集:ggplot2內建的diamonds、模擬的Facebook 資料
會用到的套件:ggplot2、dplyr、GGally、gridExtra、Knitr

其他

本課是隨選課程,所以沒有時間限制。以下以是否付費來討論。
免費(本人實際經驗):
  • 有一般討論區,討論區相較於Coursera較不活躍,但也有可能是因為才剛開始。另外因為是隨選課程,所以討論主題會出現不同的進度。
  • 可以觀看影片和練習題(絕大多數都有影片解答),但由於沒有像Coursera的同儕審查 (peer review),一些系統無法自動評分的作業交由教練評分與指導,然而免費無此人工功能。
  • 課程專案:有題目與資料集,但沒有人評分與回饋。
付費(網站說明):
  • 除了普通討論區之外,可以在特別的討論版提出問題,有指導員專責回應。
  • 有人負責評分、指導部份無法自動評分的題目。
  • 課程專案:有指導員評分、引導、指導。
  • 有課程參與證明。
探索性資料分析內容類似,最大的差別為本課只討論一種圖形系統:ggplot。另外,Udacity有關於資料分析的一連串課程,以python為主要語言。
必備知識:基本R功能

建議知識:了解平均值、histogram 和 scatter plot

沒有留言:

張貼留言

為避免垃圾訊息,留言需檢視後會才會顯示,請見諒。