2015年5月10日

前往資料科學之道 - Developing Data Products

參與Coursera的課程:Developing Data Products些許心得

資料分析的最後一個步驟就是將結果呈現。

呈現的方式很多,包括文字報告、圖像、簡報、互動式網頁、或是R package。由於不同的呈現方式需要不同的技術,例如互動式網頁,會用到java script和html5等語法,R提供了很多套件,讓只會用R的人也可以很快速地做出成果。但是如果本身就會相關的技術,則不需用到這些懶人包。


課程內容

RStutdo 的 Manipulate:

如果想要馬上將數據簡單地圖像化,並加入一些基本的互動功能,而對方也有安裝R Studio,只要把資料和程式碼給對方就可以在R Studio直接執行。

Slidify和RStudio的 R Presentations:

在R 中做出網頁簡報,像knitr一樣也可以於簡報中插入R 程式。尤其是當簡報的內容包含大量的數據分析,而資料隨時都會更新時,只要套用程式碼就可以更新內容,不用再剪剪貼貼。R Presentation 內建於Rstudio中,功能類似Slidify,但是與RStudio介面整合在一起,使用起來較為簡單。

Shiny:

寫成一個互動式網頁,也可以同時透過rCharts, Google Vis進一步將增強圖像互動性。可以放在自己的伺服器,或上傳至Shinyapps.io,別人只要有網址便可以進到該網頁使用。例如這個

R package:

由於R的設計概念是讓人從使用者入門,使用R分析數據,隨著逐漸熟悉R這套互動環境,且開始有額外的需求的時候,便會開始自己開發新的功能,此時R的使用者便會逐漸變成開發者。我們可以將資料和新的演算法打包成一個R package讓別人可以輕鬆地下載使用,就如同我們之前使用其他R套件一樣。


評分方式

  • 每週問題集(Quizzes, 約5題)
  • 課程專案(Course Project):製作一個Shiny app和一份網頁簡報

將Shiny app放上shinyapps.io:由於shinyapps.io提供的免費帳號會限制每月25個小時的運算時間,超過就會停止服務,需等到下個月才可以繼續。所以建議:
  • 上傳專案後先別急著在社群分享自己的作品,否則負責評分的同儕可能因為使用率超過免費上限,結果無法看到該作品而給零分。
  • 付月費降低這個情況發生的機率。
  • 或是提高程式的效率,避免無用的運算。

必需預備的知識:The Data Scientist's ToolboxR programming

沒有留言:

張貼留言

為避免垃圾訊息,留言需檢視後會才會顯示,請見諒。