2015年10月16日

前往資料科學之道 - Introduction to Big Data

參與Coursera的課程:Introduction to Big Data 些許心得

內容 

  • Big data = Old + New Tech
  • Hadoop的由來、特色、組成
  • Apache Hadoop Ecosystem
  • MapReduce概念
  • 安裝虛擬機

軟體

虛擬環境使用cloudera已建立好的64位元虛擬機(以CentOS 6.4為基礎),所以建議主作業系統也是64位元。如果熟悉虛擬機(VMware、Virtualbox或KVM)基本操作的話就不會有什麼大問題。

硬體

因為要使用虛擬機模擬分散處理環境,對於硬體要求比較高,虛擬機需要的記憶體至少要4GB,建議6GB才有可能比較順,加上2GB留給實體作業系統,所以建議電腦最好有8GB以上記憶體。

2015年9月19日

前往資料科學之道 - Sabermetrics 101: Introduction to Baseball Analytics

參與edX的課程:Sabermetrics 101: Introduction to Baseball Analytics 些許心得
"Sabermetrics is the study of the game of baseball through observation and experimentation (when applicable)."
原本一些對棒球充滿興趣的人希望可以使用數據紀錄比賽情況,當人無法觀看現場或是轉播時,可以透過這些數據重建比賽的狀況。後來逐漸對數據分析愈來愈重視,所以開始探討數據能否儘可能地代表球員、球隊的能力,而不是結果。因為結果會受到外在各種因素影響:天候、場地,甚至運氣。

近年資料儲存以及收集技術的改進讓球團也開始注重其應用:像是要不要交易某個球員,球員的薪水是否過高或過低,或根據各球員守備能力範圍,安排其站點等議題。

2015年8月22日

前往資料科學之道 - The Analytics Edge

參與edX的課程:The Analytics Edge 些許心得

Practical Machine Learning一樣,本課程以機器學習為主。

內容

課程包含:
  • Linear Regression
  • Logistic Regression
  • Tree and Random Forest
  • Clustering: Hierarchical Clustering, K-Means Clustering
  • Visualization (ggplot2, ggmap, igraph)
  • Text Analysis
  • Linear and Integer Optimization (Libre Office Calc or R)

2015年6月1日

前往資料科學之道 - 資料分析與R

參與Udacity的課程:Data Analysis with R 些許心得

課程以Exploratory Data Analysis (EDA) 為主,我們可以透過這種方式觀察變數之間的關係,提供後續分析時一個大概的方向。例如將原本的非線性關係轉為 (transform) 線性關係,這樣在下一步的建立預測模型時,只要使用線性模型即可。DEA 大部份觀察的方式以視覺為主。