2016年4月22日

前往資料科學之道 - Enabling Technologies for Data Science and Analytics: The Internet of Things

參與edX的課程:
Enabling Technologies for Data Science and Analytics: The Internet of Things 些許心得

IoT應用逐漸成熟主要由於製造物品(Thing)的成本下降、體積縮小,耗能減少以及網路技術成熟等。建置IoT也會遇到一些問題,例如傳統的無線技術像是wifi或是手機訊號,其設計與IoT之目的不一定相同,所以在每單位傳輸量、延遲時間、錯誤率等需求也會不同,所以有了許多不同的通訊協定,像是Zigbee、Bluetooth Low Energy等等。

2016年4月16日

前往資料科學之道 - Machine Learning for Data Science and Analytics

參與edX的課程: Machine Learning for Data Science and Analytics 些許心得

本課屬於Data Science and Analytics in Context 系列課程之一,著重於理論入門,但部份題目所需要的相關知識並不會在課程中提到,需要學習者自行上網尋找相關資料才能回答,對於沒有接觸過的人而言比較辛苦。

課程前三週介紹演算法(algorithms),像是分治法(divide and conquer)、運行時間 (running time)、調度(scheduling)、圖論(graph theory)等。最後兩週才會提到機器學習,例如分類問題(classification)、交叉驗證(cross validation)和主題模型(topic modeling)等等。

從課程內容和時間(共五週)的安排可以看出每項概念都只點到為止。而想要動手做的學習者可以選擇其他課程,像是The Analytics Edge

另外建議先有基本的統計概念,尤其某些題目需要卡方檢定(Chi-squared test)的相關知識,但如果有先修本系列第一堂課:Statistical Thinking for Data Science and Analytics 就比較沒有這方面的問題。

2016年4月2日

前往資料科學之道 - Statistical Thinking for Data Science and Analytics

參與edX的課程:Statistical Thinking for Data Science and Analytics 些許心得
  • Data Science and Analytics in Context 系列課程之一
  • 本課程屬於入門程度,絕大部分都是理論,只有非常少的R程式部份,想要動手做的人可能會失望。
  • 內容包含統計學、資料視覺化和 Bayesian statistics。
  • 由於3個部份各由不同的講師負責,所以教學風格也會不一樣。
  • 建議選修Data Analysis and Statistical Inference以取代本課統計學概論部份。
  • Bayesian statistics部份的講師是Andrew Gelman。

2015年10月16日

前往資料科學之道 - Introduction to Big Data

參與Coursera的課程:Introduction to Big Data 些許心得

內容 

  • Big data = Old + New Tech
  • Hadoop的由來、特色、組成
  • Apache Hadoop Ecosystem
  • MapReduce概念
  • 安裝虛擬機

軟體

虛擬環境使用cloudera已建立好的64位元虛擬機(以CentOS 6.4為基礎),所以建議主作業系統也是64位元。如果熟悉虛擬機(VMware、Virtualbox或KVM)基本操作的話就不會有什麼大問題。

硬體

因為要使用虛擬機模擬分散處理環境,對於硬體要求比較高,虛擬機需要的記憶體至少要4GB,建議6GB才有可能比較順,加上2GB留給實體作業系統,所以建議電腦最好有8GB以上記憶體。