2015年5月22日

前往資料科學之道 - 資料分析與統計推論

參與Coursera的課程:Data Analysis and Statistical Inference些許心得

本課程著重於一些基本的統計推論,和John Hopkins University 提供的課程部份重疊,以下列出異同點。

和John Hopkins重疊的課程(括號內列出佔本課程比重):
由前述可知,本課著重於統計與線性回歸, 所以只提供網頁連結教導如何安裝與設定R,雖然課程或是練習會提到一些使用方式,但都只有稍微帶過。所以建議先安裝好R和 RStudio,並可以先利用一些資源了解R的概念。

教學內容

  • 影片:本課簡報比較多圖形解釋,介紹概念後,影片中會穿插問題,測試是否了解概念。
  • 數學: 公式推導的部份比John Hopkins還少。
  • 專有名詞:極少數習慣使用的術語不同。像是 depend variable and independent variable vs. respond variable and explanatory variable。本課程相較於John Hopkins,更集中於基礎概念解釋,不必須的專有名詞便不會提到,以免學習者迷失在統計專有名詞之海中。而是對於基礎概念集中火火力攻擊。
  • 繪圖套件:John Hopkins主要使用的是 ggplot2 ,本課使用R的基本繪圖系統。

練習內容

本課指定非常多的課題:Lab、每週問題集、期中與期末測驗、課程專案。
  • Lab:John Hopkins 提供 swirl為練習操作R的方式,本課程則使用另外兩種:
    • DataCamp:使用網頁提供互動式的環境,像TryR,不用安裝R再自己的電腦,成績會回傳至Coursera的網站。
    • OpenIntro:課程提供一張網頁,文字敘述題目,學習者再到指定的Coursera頁面回答問題(選擇題)。回答方式和每週問題集一樣。
  • 每週問題集:會指出錯誤答案的原因、且提供該題目所屬的課程範圍,方便事後複習。且題庫數量較多,每次作答時,答案不一樣、或是答案的順序不一樣、題目也不會完全一樣。提供較多的練習機會。有三次機會。
  • 期中與期末測驗:限時90分鐘,各分A、B部份,各只能挑戰一次。
  • 課程專案:在R中使用knitr製作資料分析報告並上傳。

課程週期

John Hopkins的課程以4週為一期,一個月重複一次;本課則以10週為一期,一年開課約二到三次。

結論

如果已有統計背景,想要知道如何使用R於相對應的統計方法,可以選擇John Hopkins的課程。如果已經了解R,想要了解統計概念,可以選擇此課程為入門。

但是如果對兩者都沒有經驗,參與本課程會是一個非常大的挑戰。主要因為本課程強制要求的練習內容較多,如果無法抽出一定程度的空閒時間的話,可能回無法完成此課程。官方建議每週需要6~8小時,個人估計平均每週可能會花上10個小時。

另外,本課程重點在於統計概念,製作課程專案會用到的資料集都是已經清理、整理好的資料(除非自己想要用別的資料)。連統計會用到的R指令部份,課程也有提供客製的Function可以下載使用。但其他像是資料清理等在處理資料時也很重要的技巧,就需要自己去挖掘。本課不會提供相關的練習機會。

沒有留言:

張貼留言

為避免垃圾訊息,留言需檢視後會才會顯示,請見諒。