Baroque Blender

前往資料科學之道 - Enabling Technologies for Data Science and Analytics: The Internet of Things

2016-04-22T05:15:00.001+08:00

參與edX的課程：
Enabling Technologies for Data Science and Analytics: The Internet of Things 些許心得

IoT應用逐漸成熟主要由於製造物品(Thing)的成本下降、體積縮小，耗能減少以及網路技術成熟等。建置IoT也會遇到一些問題，例如傳統的無線技術像是wifi或是手機訊號，其設計與IoT之目的不一定相同，所以在每單位傳輸量、延遲時間、錯誤率等需求也會不同，所以有了許多不同的通訊協定，像是Zigbee、Bluetooth Low Energy等等。

而大量建置也會帶來一些新的問題，例如:

管理：如何管理成千上萬的物品，例如軔體更新、設定變更、物品的命名方式等。
安全：如何防止大量物品受到感染，並成為攻擊跳板。
能源：在某些情形下每個物品無法直接連接電源線，而電池容量也不夠時，物品可能就需要自行蒐集能源，例如太陽能。

另外物聯網所形成的平台經濟(Platform Economics)也是值得探討之處。

本課程並不只包含物聯網，例如第四週的自然語言處理(Natural language processing) 討論如何從一篇文章中擷取出摘要，和機器翻譯(Machine Translation)──使用電腦自動翻譯成不同的語言。

而第五週則是聲音與影像辨識：介紹如何從一個人的陳述時的聲音資料判斷該者是否撒謊。其他像是利用影像協助統計街道車流量。或是針對某個公眾人物，自動彙整各個新聞網站的影像資訊以便閱讀等。

這一系列的課程都著重於基礎理論，其所涵蓋的範圍既廣且雜，讓初次接觸的人可能會覺得無所適從。建議把這三堂課當成補充教材，可以了解資料科學於各個領域應用狀況。

前往資料科學之道 - Machine Learning for Data Science and Analytics

2016-04-16T01:41:00.001+08:00

參與edX的課程： Machine Learning for Data Science and Analytics 些許心得

本課屬於Data Science and Analytics in Context 系列課程之一，著重於理論入門，但部份題目所需要的相關知識並不會在課程中提到，需要學習者自行上網尋找相關資料才能回答，對於沒有接觸過的人而言比較辛苦。

課程前三週介紹演算法(algorithms)，像是分治法(divide and conquer)、運行時間 (running time)、調度(scheduling)、圖論(graph theory)等。最後兩週才會提到機器學習，例如分類問題(classification)、交叉驗證(cross validation)和主題模型(topic modeling)等等。

從課程內容和時間(共五週)的安排可以看出每項概念都只點到為止。而想要動手做的學習者可以選擇其他課程，像是The Analytics Edge。

另外建議先有基本的統計概念，尤其某些題目需要卡方檢定(Chi-squared test)的相關知識，但如果有先修本系列第一堂課：Statistical Thinking for Data Science and Analytics 就比較沒有這方面的問題。

前往資料科學之道 - Statistical Thinking for Data Science and Analytics

2016-04-02T13:23:00.000+08:00

參與edX的課程：Statistical Thinking for Data Science and Analytics 些許心得

Data Science and Analytics in Context 系列課程之一
本課程屬於入門程度，絕大部分都是理論，只有非常少的R程式部份，想要動手做的人可能會失望。
內容包含統計學、資料視覺化和 Bayesian statistics。
由於3個部份各由不同的講師負責，所以教學風格也會不一樣。
建議選修Data Analysis and Statistical Inference以取代本課統計學概論部份。
Bayesian statistics部份的講師是Andrew Gelman。

前往資料科學之道 - Hadoop Platform and Application Framework

2016-01-19T23:59:00.000+08:00

參與Coursera的課程：Hadoop Platform and Application Framework 些許心得

本課程接續前課 Introduction to Big Data，重點開始逐漸轉移至於虛擬機操作部份。

第1週仍在簡介架構與一些在Hadoop中常用到的模組。實際練習則照著cloudera虛擬機內附的教學文件(tutorial)。

第2週介紹Pig、Hive和 HBase。少許一兩行程式碼的練習量。

第3週介紹HDFS (Hadoop Distributed File System)，少許的練習，像是如何把資料放進HDFS，檔案建立、搬移等等，其實很類似Linux bash的指令。

第4週的實戰量明顯地增多。介紹Map/Reduce、key-value的特性。要求使用Python寫好Map/Reduce腳本讓Hadoop執行。課題則要求結合兩組以上的資料 (data join)，並計算某些字出現的次數。如果沒有接觸過python，本週的負擔會比較重，因為課程對於指令碼的指導非常少，只給兩個有註解的原始碼參考。

第5週介紹Spark。課題方面則是要求使用PySpark執行類似第四週的工作，如果已經跨過第四週的門檻，本週則相對簡單。

建議先備知識

GNU/Linux 檔案概念和bash的操作，像是ls、mkdir等等。
Python基本概念

其他

本課程有些部份令人較為難以消化，例如第四週對於python教學部份幾乎沒有，對新手而言非常地不友善，這種教法實在不適用於簡介(introduction)等級的課程。反而是討論區的某篇熱心的教學文，幫助不少人跨過這個難關。

但是這一系列的課程都幾乎以一個月開一次的周期進行，而每次都會有少許的修改，例如這次和上次相比，就有多了簡報檔可供下載，在練習部份也有了對於某些錯誤訊息要如何處理的指示，相信之後的課程會更符合入門的等級。

前往資料科學之道 - Introduction to Big Data

2015-10-16T00:46:00.000+08:00

參與Coursera的課程：Introduction to Big Data 些許心得

內容

Big data = Old + New Tech
Hadoop的由來、特色、組成
Apache Hadoop Ecosystem
MapReduce概念
安裝虛擬機

軟體

虛擬環境使用cloudera已建立好的64位元虛擬機(以CentOS 6.4為基礎)，所以建議主作業系統也是64位元。如果熟悉虛擬機(VMware、Virtualbox或KVM)基本操作的話就不會有什麼大問題。

硬體

因為要使用虛擬機模擬分散處理環境，對於硬體要求比較高，虛擬機需要的記憶體至少要4GB，建議6GB才有可能比較順，加上2GB留給實體作業系統,所以建議電腦最好有8GB以上記憶體。

前往資料科學之道 - Sabermetrics 101: Introduction to Baseball Analytics

2015-09-19T22:11:00.001+08:00

參與edX的課程：Sabermetrics 101: Introduction to Baseball Analytics 些許心得

"Sabermetrics is the study of the game of baseball through observation and experimentation (when applicable)."

原本一些對棒球充滿興趣的人希望可以使用數據紀錄比賽情況，當人無法觀看現場或是轉播時，可以透過這些數據重建比賽的狀況。後來逐漸對數據分析愈來愈重視，所以開始探討數據能否儘可能地代表球員、球隊的能力，而不是結果。因為結果會受到外在各種因素影響：天候、場地，甚至運氣。

近年資料儲存以及收集技術的改進讓球團也開始注重其應用：像是要不要交易某個球員，球員的薪水是否過高或過低，或根據各球員守備能力範圍，安排其站點等議題。

課程內容：

課程分為四大方向：

Sabermetrics
Statistic
Tech (SQL and R)
History of Sabermetrics

主要部份為Sabermetrics的原理、公式和發展史，R部份很少、統計觀念也很少，都只提到課程會用到的部份。本課程另外一個重點是SQL，學習者可以透過網頁介面練習sql指令，操縱實際運行的關聯式資料庫(Lahman database, Retrosheet Database).

課程也討論了某些數據的意義，這邊舉兩個例子：

有時我們仍以舊的方式看這些數據，卻沒發現時空背景的變化，同樣的數據所代表的意義已經大為不同。

例如Wins/ Losses (勝投數)，這個數據在1945年以前可能比較有用，因為當時救援投手的每場使用率並不高，而一個投手撐完9局的情況比現在多，Wins/ Losses這個數據的確可以代表著投手的能力。然而1945年後，每一場比賽中參與的投手愈來愈多，現在則幾乎看不到完全比賽。

另外，投手沒有辦法控制他們可以得到的後援(run support)，像是守備球員的能力：一個能力差的投手但卻有強勁的守備球員，與能力強的投手和差勁守備的組合相比較，前者的紀錄可能會比後者優良。

所以Wins/ Losses所代表的意義已逐漸從單一投手的能力，逐漸轉化成整個球隊的能力。

一個能力在平均值的大聯盟球員，其價值高不高？

如果我們可以找到世界上所有玩棒球的人，將他們的能力測量後用一張圖表現，理論上會成為常態分佈。

但是美國職棒大聯盟選手能力分佈情形很有趣，透過人為選擇將原本處於上圖右側的人(前5%)選進大聯盟，這些人所構成的分佈圖會變成這樣。

那一個能力在平均值的大聯盟球員，其價值對於球團而言會有多高？

在理解這個問題之間，我們必須先了解大聯盟球員能力的分佈圖屬於right skewed，也就是說平均值(58.07785)會大於中位數(57.67149)，所以一個在大聯盟中「能力中等」的球員，一般來說不會有被踢掉的危險，因為他至少比一半的大聯盟球員還要強。

但是如果球員能力位於 replacement level (可被替代的水平)，例如上圖左側，那麼他在大聯盟的地位就會很危險，因為跟他有一樣能力的人很多。對於球團來說，重要的是爭取位在極右處球員加入球隊。而剩下來尚未填補的空位，對球團而言則是原本就要花的錢，不論是誰都可以。所以那些能力處於可被替代水準的球員，常常會上上下下，甚至被小聯盟的球員代替，就算被選上，薪資也不高。

所以一個能力在平均值的大聯盟球員，其價值其實比我們一般對於「平均」的印象還要高出許多。

結論

本課程非常適合本來就對棒球有興趣，想要瞭解各項數據意義的人。但對於一個不了解棒球的人來說，除了許多縮寫之外，還有許多棒球專門術語，教材有時並不會用平白的英語描述，所以難度相對較高。

不過可以查詢並下載一個真實的資料庫則是一個不錯的賣點，其蒐集了1871年到 2014年大聯盟球員比賽的資料，但要注意的是本課程並不會教導透過R對資料庫下SQL指令，而是將查詢結果下載成為csv檔，再開啟R讀取。

前往資料科學之道 - The Analytics Edge

2015-08-22T13:18:00.000+08:00

參與edX的課程：The Analytics Edge 些許心得

和Practical Machine Learning一樣，本課程以機器學習為主。

內容

課程包含：

Linear Regression
Logistic Regression
Tree and Random Forest
Clustering: Hierarchical Clustering, K-Means Clustering
Visualization (ggplot2, ggmap, igraph)
Text Analysis
Linear and Integer Optimization (Libre Office Calc or R)

流程

每單元的流程大致如下：

概念教學：使用兩個不同的案例，概念教學，與相對應的R程式碼。每小段影片後大都會有問題，測驗學習者對於概念或是相關的R程式能力。
朗誦(Recitation)：使用一個案例，針對R程式部份講解，解說一些概念教學時忽略的部份或是R程式技巧。
案例練習：採一問一答方式，逐步引導學習者進行資料分析。讓學習者從中可以了解如何對資料提出問題。

課程另外提供Kaggle排名戰，讓學習者可以與一同參與課程的同儕互相比較、討論觀念與技術，不過此競賽只有參與課程的人才能參加。

其他

每個單元兩個概念案例，一個Recitation時使用的案例，三到四個練習案例 (含不計分的練習案例)，所以整個課程提供約45個案例與其R程式的範例或練習。雖然有部份案例會重複，但是在不同的單元會以不同的觀念處理。

雖然是初級課程，但規劃地非常嚴謹，紮實的感覺與Data Analysis and Statistical Inference很像。不過此課程專注在資料分析，原始資料幾乎都是已處理好的csv檔，所以沒有練習清理、整理資料的機會。

本課程需要的時間較長，共12週，每週需要的負荷量也較大，課程建議10到15小時，個人則花約15小時。

先備知識

數學：基本的高中數學：最大的障礙應該是logistic function:

P(y = 1) = 1 / (1 + e^{-(β₀ + β₁x₁ + β₂x₂ + ... + β_kx_k)})

統計學：基本的統計學概念像是標準差、scatterplots等
R：如果有基本概念最好，可以降低學習時的負荷，沒有也可以，課程會提供。

前往資料科學之道 - 資料分析與R

2015-06-01T13:41:00.000+08:00

參與Udacity的課程：Data Analysis with R 些許心得

課程以Exploratory Data Analysis (EDA) 為主，我們可以透過這種方式觀察變數之間的關係，提供後續分析時一個大概的方向。例如將原本的非線性關係轉為 (transform) 線性關係，這樣在下一步的建立預測模型時，只要使用線性模型即可。DEA 大部份觀察的方式以視覺為主。

流程

課堂以一個個小單位構成，順序如下：

短片(約1分鐘)，
簡單問題(Quiz)、有時提供給說明文件或提示，通常是其他網站的文章。
影片解釋。
回到第一步。

內容

圖型系統：ggplot2
使用資料集：ggplot2內建的diamonds、模擬的Facebook 資料
會用到的套件：ggplot2、dplyr、GGally、gridExtra、Knitr

其他

本課是隨選課程，所以沒有時間限制。以下以是否付費來討論。
免費(本人實際經驗)：

有一般討論區，討論區相較於Coursera較不活躍，但也有可能是因為才剛開始。另外因為是隨選課程，所以討論主題會出現不同的進度。
可以觀看影片和練習題(絕大多數都有影片解答)，但由於沒有像Coursera的同儕審查 (peer review)，一些系統無法自動評分的作業交由教練評分與指導，然而免費無此人工功能。
課程專案：有題目與資料集，但沒有人評分與回饋。

付費(網站說明)：

除了普通討論區之外，可以在特別的討論版提出問題，有指導員專責回應。
有人負責評分、指導部份無法自動評分的題目。
課程專案：有指導員評分、引導、指導。
有課程參與證明。

與 Johns Hopkins的探索性資料分析內容類似，最大的差別為本課只討論一種圖形系統：ggplot。另外，Udacity有關於資料分析的一連串課程，以python為主要語言。

必備知識：基本R功能

建議知識：了解平均值、histogram 和 scatter plot

前往資料科學之道 - 資料分析與統計推論

2015-05-22T13:36:00.000+08:00

參與Coursera的課程：Data Analysis and Statistical Inference些許心得

本課程著重於一些基本的統計推論，和John Hopkins University 提供的課程部份重疊，以下列出異同點。

和John Hopkins重疊的課程(括號內列出佔本課程比重)：

由前述可知，本課著重於統計與線性回歸，所以只提供網頁連結教導如何安裝與設定R，雖然課程或是練習會提到一些使用方式，但都只有稍微帶過。所以建議先安裝好R和 RStudio，並可以先利用一些資源了解R的概念。

教學內容

影片：本課簡報比較多圖形解釋，介紹概念後，影片中會穿插問題，測試是否了解概念。
數學：公式推導的部份比John Hopkins還少。
專有名詞：極少數習慣使用的術語不同。像是 depend variable and independent variable vs. respond variable and explanatory variable。本課程相較於John Hopkins，更集中於基礎概念解釋，不必須的專有名詞便不會提到，以免學習者迷失在統計專有名詞之海中。而是對於基礎概念集中火火力攻擊。
繪圖套件：John Hopkins主要使用的是 ggplot2 ，本課使用R的基本繪圖系統。

練習內容

本課指定非常多的課題：Lab、每週問題集、期中與期末測驗、課程專案。

Lab：John Hopkins 提供 swirl為練習操作R的方式，本課程則使用另外兩種:

DataCamp：使用網頁提供互動式的環境，像TryR，不用安裝R再自己的電腦，成績會回傳至Coursera的網站。
OpenIntro：課程提供一張網頁，文字敘述題目，學習者再到指定的Coursera頁面回答問題(選擇題)。回答方式和每週問題集一樣。

每週問題集：會指出錯誤答案的原因、且提供該題目所屬的課程範圍，方便事後複習。且題庫數量較多，每次作答時，答案不一樣、或是答案的順序不一樣、題目也不會完全一樣。提供較多的練習機會。有三次機會。
期中與期末測驗：限時90分鐘，各分A、B部份，各只能挑戰一次。
課程專案：在R中使用knitr製作資料分析報告並上傳。

課程週期

John Hopkins的課程以4週為一期，一個月重複一次；本課則以10週為一期，一年開課約二到三次。

結論

如果已有統計背景，想要知道如何使用R於相對應的統計方法，可以選擇John Hopkins的課程。如果已經了解R，想要了解統計概念，可以選擇此課程為入門。

但是如果對兩者都沒有經驗，參與本課程會是一個非常大的挑戰。主要因為本課程強制要求的練習內容較多，如果無法抽出一定程度的空閒時間的話，可能回無法完成此課程。官方建議每週需要6~8小時，個人估計平均每週可能會花上10個小時。

另外，本課程重點在於統計概念，製作課程專案會用到的資料集都是已經清理、整理好的資料(除非自己想要用別的資料)。連統計會用到的R指令部份，課程也有提供客製的Function可以下載使用。但其他像是資料清理等在處理資料時也很重要的技巧，就需要自己去挖掘。本課不會提供相關的練習機會。

前往資料科學之道 - Developing Data Products

2015-05-10T17:33:00.000+08:00

參與Coursera的課程：Developing Data Products些許心得

資料分析的最後一個步驟就是將結果呈現。

呈現的方式很多，包括文字報告、圖像、簡報、互動式網頁、或是R package。由於不同的呈現方式需要不同的技術，例如互動式網頁，會用到java script和html5等語法，R提供了很多套件，讓只會用R的人也可以很快速地做出成果。但是如果本身就會相關的技術，則不需用到這些懶人包。

課程內容

RStutdo 的 Manipulate:

如果想要馬上將數據簡單地圖像化，並加入一些基本的互動功能，而對方也有安裝R Studio，只要把資料和程式碼給對方就可以在R Studio直接執行。

Slidify和RStudio的 R Presentations:

在R 中做出網頁簡報，像knitr一樣也可以於簡報中插入R 程式。尤其是當簡報的內容包含大量的數據分析，而資料隨時都會更新時，只要套用程式碼就可以更新內容，不用再剪剪貼貼。R Presentation 內建於Rstudio中，功能類似Slidify，但是與RStudio介面整合在一起，使用起來較為簡單。

Shiny:

寫成一個互動式網頁,也可以同時透過rCharts, Google Vis進一步將增強圖像互動性。可以放在自己的伺服器，或上傳至Shinyapps.io，別人只要有網址便可以進到該網頁使用。例如這個。

R package:

由於R的設計概念是讓人從使用者入門，使用R分析數據，隨著逐漸熟悉R這套互動環境，且開始有額外的需求的時候，便會開始自己開發新的功能，此時R的使用者便會逐漸變成開發者。我們可以將資料和新的演算法打包成一個R package讓別人可以輕鬆地下載使用，就如同我們之前使用其他R套件一樣。

ŷhat:

Yhat 為一種網路服務，我們可以將R或是python建立的演算法或是預測模型上傳至該網站，Yhat會產生一組API，讓其他，尤其是負責開發前端的人，只要透過API連上，就可以套用我們撰寫的演算法，應用於其他環境中。y-hat這個名詞，相信對於線性回歸或是預測模型有接觸的人都可以了解其意思。

評分方式

每週問題集(Quizzes, 約5題)
課程專案(Course Project)：製作一個Shiny app和一份網頁簡報

將Shiny app放上shinyapps.io：由於shinyapps.io提供的免費帳號會限制每月25個小時的運算時間，超過就會停止服務，需等到下個月才可以繼續。所以建議：

上傳專案後先別急著在社群分享自己的作品，否則負責評分的同儕可能因為使用率超過免費上限，結果無法看到該作品而給零分。
付月費降低這個情況發生的機率。
或是提高程式的效率，避免無用的運算。

必需預備的知識：The Data Scientist's Toolbox、 R programming

前往資料科學之道 - Practical Machine Learning

2015-03-30T00:34:00.000+08:00

參與Coursera的課程：Practical Machine Learning些許心得：

課程內容

此課程和其他Johns Hopkins University的Data Science課程相比，絕大部份都是介紹幾個常見的模型建立法，和相對應的R程式碼為主，幾乎沒有提到數學運算的部份。

Machine Learning 領域廣大，不同的學者提出不同的技術，就有不同的R package。這些package預設使用的方式有時並不一致，所以產生了caret 這個套件。讓我們有一個統一的介面使用這些不同的演算法。本課程主要使用caret建立各種模型。

評分方式

評分由每週的問題集(Quiz)和一個課程專案(Course Project)組成。

課程專案會提供一份受試者運動時身上佩帶裝置所測得的資料，類似Nike的FuelBand 那種透過加速度計和陀螺儀收集的資料，屬於Quantified Self的領域。參與課程的人需要使用這份資料建立預測模型，以便用此模型辨別使用者的動作。

此課程專案分為兩個部份：

Writeup部份：要求提供R markdown和網頁(參考Reproducible Research課程)，內容包括程式碼與文字說明為何使用特定的運算法，還有驗證的方式。以同儕審查方式算分。
Submission部份：網站提供另外20個樣本，使用自己建立的模型將這20個樣本歸類，並將結果回傳。以預測結果是否和實際結果一致算分。

在有限的硬體下建立預測模型

建立預測模型時，需特別注意記憶體的狀態，例如先把不用的物件從記憶體清掉，或儘量不要在「編」(knitr)文件時同時建立模型。

有些模型算法比較複雜，例如Random Forest，使用時要考慮耗費等待的時間與是否值得其所提供的預測準度。可先使用小樣本測試不同的模型建法，決定後再進行正式的建模。

另外和其他Data Science課程比較不一樣的是電腦硬體需求，因為需要使用電腦運算建立預測模型，建議參與本課程時，電腦記憶體至少要有3GB。CPU如果慢還是可以跑，只是等待時間長短的問題。但是記憶體不足時，R會直接停住而無法完成課程專案。

必需預備的知識：R programming
建議預備的知識：The Data Scientist's Toolbox, Reproducible Research, Exploratory Data Analysis, Getting and Cleaning Data

前往資料科學之道 - Regression Models

2015-03-02T22:00:00.000+08:00

參與Coursera的課程：Regression Models些許心得：

課程所涵蓋的概念：

simple linear regression

residual variation

multi variable regression

variance inflation

logistic regression

必需預備的知識：

建議預備的知識：Exploratory Data Analysis

其他幫助了解概念的資源：

評分方式：

主要：

每週需回答問題集(Quiz)，約7~10題
製作一個小專案。

額外加分部份(可不參與)：

swirl

如果不習慣影片的講解方式，可以先做完swirl課程再看相對應的影片。回答問題集(Quiz)時如遇到不懂的地方可到討論區查詢，通常都會已經有人提出問題和提示。另外數學方面最好能習慣看Σ和y=a+bx。

註：
必需預備的知識：沒有此類知識的話將無法理解教學內容，或是無法製作專案(course project)時。
建議預備的知識：沒有此類知識仍可以成課程要求，只是會花較多精神。

前往資料科學之道 - 統計推論

2015-02-02T19:47:00.002+08:00

參與Coursera的課程：Statistical Inference些許心得：

統計學基礎，像是：

Probability and Conditional Probability

Mean and Variance
Central Limit Theorem
Normal Distribution, Poisson Distribution
Confidence Intervals
Power

使用Swirl對於沒接觸過統計的人是一大幫助。

幫助了解概念的資源：

Khan Academy
Statistic 101 by Brandon Foltz

必須預備的知識(沒有的話無法完成作業)：

建議預備的知識(課堂中極少部份會要求此類知識)

數學能力要求：

不需要超過高中的數學能力，起碼要看的懂Σ。
課程出現數學方程式的機會不多，主要以符號邏輯為主。

前往資料科學之道 - 可重製之研究

2015-02-02T19:20:00.001+08:00

參與Coursera的課程：Reproducible Research 些許心得：

所有對資料進行的步驟都應該紀錄。

是紀錄我們對資料的動作，而不是我們認為應該做的動作。
一般圖形介面軟體很難達到這種要求，R等以文字描述執行動作的軟體則相對適合。

如果文章內容不龐雜，將內容、資料處理步驟、結果放在同一個文件不失為一個好辦法。

R提供許多套件可以達成，knitr為其中之一。
一個例子放在Rpubs.

必須預備的知識(沒有的話無法完成作業)：

建議預備的知識(課堂中極少部份會要求此類知識)

探索性資料分析

政府宣傳政績管道逐漸增加

2015-01-01T19:54:00.001+08:00

紙本時代(~1960)：印一堆宣傳單、手冊、年日曆等，告訴公民做了什麼事或是即將要做什麼事。

電視媒體時代(約1960~1990)：一堆電視廣告，告訴公民做了什麼事或是即將要做什麼事。

網路宣傳時代(約1990~？)：透過政府網站、臉書等社群渠道告訴公民做了什麼事或是即將要做什麼事。

開放政府(資料)時代(？~？？)：政府把自己相關活動的所有資料透過實體或虛擬方式讓公民自由取用與研究，由公民決定資料呈現的方式，了解政府的成果，並可以在政府執行新政策前即給予回饋。

?是否有可能成為2015？

前往資料科學之道 - 探索性資料分析

2014-12-12T23:46:00.000+08:00

參與Coursera的課程：Exploratory Data Analysis些許心得：

快速、簡單地用圖形顯示資料，用圖像方式看看有沒有什麼有趣的現象，如果發現有，再進一步處理。
要和什麼比較？因為只有比較才能看出差異存在。
別讓分析圖形的視角，侷限我們分析事物的視角。
資料的屬性(數字、文字、還是日期)會影響R顯示圖形的預設方式
R至少有3種圖形系統(就以本課涵蓋範圍來說)

Base
lattice
ggplot2

在這個環節中，以最快能讓我們看出數據中趨勢的圖形系統為先

前往資料科學之道 - 取得與清理資料

2014-12-11T17:46:00.000+08:00

參與Coursera的課程： Getting and Cleaning Data些許心得：

一般來說，我們在處理資料的時會經過下列流程：原始的資料 -> 整齊的資料 -> 溝通的資料

原始的資料 -> 整齊的資料：由於原始的資料種類繁多，上自MariaDB, JSON, XML等等，下達csv、txt等。必須要先整理格式，才能使用進行分析。
整齊的資料 -> 溝通的資料：資料進行分析後，依據使用環境，成為文字、表格、圖像、互動程式等等，將成果散布出去。

這應該會是花最多時間的環節。
dplyr package 在這環節的實用性非常高。在執行這堂課的練習專案時可以明顯地感受到其效果。

前往資料科學之道 - R語言設計

2014-12-10T00:21:00.000+08:00

參與Coursera的課程：R Programming些許心得

一開始接觸R時，我們應該先把R當成一個互動式的資料分析環境，而不是一種程式語言。(we should think R as an interactive data analysis environment, not a programing language.)
stackoverflow是找答案，問問題的好地方。
使用swirl學習是一個有趣的經驗，在R中直接學習部份課程，並且回傳學習結果到Coursera網站。建議先使用這個功能，從中學習到的技巧可以應用於該課程的練習專案。
這個課程其實可以和資料科學家的工具盒一起服用，因為後者只是安裝軟體。

其他參考資料：

JJ Alaire – Interview by DataScience.LA at useR 2014

大的數據(Big Data)與正確的數據(Right Data)

2014-12-07T23:44:00.001+08:00

「總經理的鼻子有多長？」

小全推開門時突然這樣問我。

看了他一眼，我才剛從背後那令人昏昏欲睡的在職講座爬出來，但顯然小全非常興奮今天講座的內容── Big Data，整個人躍躍欲試想要找些問題，用大數據這個新玩意兒來解決看看。

他繼續說著：
「我們收集全公司的人對於總經理鼻子長度的估計值，平均一下，應該會很貼近總經理鼻子的長度吧。全公司的人約100人，這樣數據夠不夠大？」

「那收集全台兩千萬人的估計值，這樣會不會更準？」我給了他更大的樣本數。

「恩~，這樣應該就算是大數據了吧？」

小全很滿足地點點頭。

-------------小故事結束線---------------

真的嗎？

以這個問題來說，其所需的資料其實只要一筆──走向總經理辦公室，敲敲門說：「總經理，我可以拿把尺量一下您的鼻子嗎？」量一下就解決了。一筆真實正確的資料，比兩千萬筆估計值準多了。

其實很多人應該在看到故事的一半時就知道本文想要說什麼，因為這個例子非常的簡單，甚至滑稽。但有時在真實世界中，我們常常困在這種滑稽的狀況而不自知。(而且情況不見得比較複雜)

有時解決方案出人意料之外的簡單，我們只需要多一點點的勇氣去量總經理的鼻子罷了。

您覺得呢？

在GNU/Linux中安裝R的套件swirl

2014-11-30T21:24:00.000+08:00

先介紹一下swirl是R的套件之一，可以讓使用者在R中學習R。就像一個會跟你互動的文字編輯器。自學R或是參與線上課程都有可能用到。

環境：作業系統VirtualBox(4.3.18)中的Lubuntu(14.04)

swirl需要RCurl下載互動課程，所以安裝swirl時，R偵測不到RCurl時，系統也會自動一起下載、編譯、安裝，但這時候如果Lubuntu沒有裝curl的相關套件時，在編譯這一步便會出現問題。

解決：先安裝作業系統的libcurl4-openssl-dev，然後再進入R繼續安裝swirl。這邊注意的是不能安裝libcurl4-nss-dev，因為這樣一來會無法下載swirl的課程內容，而出現類似這樣的錯誤訊息：

Error in function (type, msg, asError = TRUE) : <not set>
Could not resolve host: github.com

前往資料科學之道 - 第1.5課

2014-11-13T21:50:00.002+08:00

接續第一堂課

在還沒有進入第二堂課之前，想先了解R的人可以參考R Studio提供的連結

如果還沒有裝R，想直接線上了解R語言:

Code School的TryR
DataCamp :

Introduction to R
Data Analysis and Statistical Inference (這其實是Coursera另一課程的一部份，比較偏重關於統計方面的概念，像是：
- confidence intervals
- ANOVA
- linear regression

已經裝了R(和R Studio)，可以試試：

swirl

在R Programming：可以直接使用或是等待Coursera的同名課程開始後一起進行，為課程中加分的部份。
Getting and Cleaning Data：可以直接使用或是等待Coursera的同名課程開始後一起進行，為課程中加分的部份。
Data Analysis：簡單介紹統計概念，R程式部份很少。目前只有3章(2015-01-05)，可能還會增加。
Open Intro：超過85%以上內容與Data Analysis一樣。

前往資料科學之道 - 第一課：資料科學家的工具盒

2014-11-10T22:29:00.000+08:00

第一課：The Data Scientist’s Toolbox

大慨介紹整個課程，及安裝設定處理數據的軟體。
會用到的軟體：

R：

資料處理軟體
程式語言
運行環境
開源碼計劃
社群

R Studio：一種開發環境，協助撰寫R指令時更加方便。
Git：版本管理系統，安裝在本機
GitHub：一個網路服務，提供線上版本管理，可以將本機的R腳本上傳與他人分享。

一些比較重要的句子：

最重要的是問對問題，資料只是其次。
我們要的是適合的資料，而非大資料抑或是小資料。

本機上的git與網路服務GitHub:

先在本機建立個資料夾(git 已設定好global user and email, GitHub已經申請好帳號)
初始化：git init
設定要公佈在GitHub上的位置，相對應於本機上的名字為origin：git remote add origin https://github.com/.......git
把GitHub上面的抓下來成為本機上的版本主幹(master)：git pull origin master
可以寫東西了！用Vim建立一個腳本
git add進行track的動作
git commit 進入本機的版本主幹
git push 到GitHub上面

參考資料：

影片：

Crafting an Effective Writer: Tools of the Trade (Coursera紀錄)

2014-03-27T18:13:00.000+08:00

Coursera為一個系統平台，提供各個學校建立、管理巨型開放式線上課程內容，同時提供學生使用、紀錄學習歷程並給予認証。本文試圖介紹該學習課程內容，同時紀錄各個課程的指導者如何建構、管理巨型開放式線上課程。

課程名稱：Crafting an Effective Writer: Tools of the Trade
課程提供學校：Mt. San Jacinto College

課程使用語言：英文

影片有英文與中文字幕，所以聽力不會造成問題。

適合的學習背景：不限

課程部份內容專注於文法，所以有完整的國中英文文法觀念就可以輕鬆了解課程內容。個人建議至少有良好的國中英文程度或是中等的高中英文程度。沒有當然也可以，只是可能學習上會比較慢。本課程主要目的為練習使用形容詞、副詞、連結詞等，增添詞句的多樣性，讓語句跳脫出枯燥、乏味的窠臼。尤其對於基本英文寫作有興趣的人可以考慮參加。

線上課程使用經驗：不需要

這個課程非常適合新手參加，不論是開放式線上課程的新手還是使用Coursera的新手，因為此課程內容包括教導您如何成為一個良好的線上學習者。並且有詳細的指示與步驟，引導如何使用Coursera的系統。

教材內容：課程影片、影片中問題(不計分)、每週問題、寫作練習與同儕審查。

每週都會有寫作練習，從基本的兩句話，隨著每週逐漸增加，最後完成一整個段落。透過同儕審查由同學間互相評分，評分時有標準與範例可供參考。每週需評五位同學的作品，同時收到五份對自己的作品的意見。有時會閱覽到遠超過自己能力的作品，也會讀到連文書處理軟體都會發現的基礎文法、拼寫錯誤。這都是很正常的情況。

課程總時程：五週左右(2/7~3/17)

如果英文程度不到建議的範圍，會覺得時間非常趕。

其他

另外，課程本身為了增加互動性，使用了很多社群助教，大多是經過挑選後的前期的學員，常駐在論壇與學員互動，提供較有權威性的答案與文章範例。教學者也會因應情況針對本次課程錄製新的短片。

2014 全球城市開放資料普查

2014-03-19T23:07:00.001+08:00

之前有提過，時間過真快。今年開始新的統計調查活動，而且不再侷限於國家，而且增加詳細程度到城市級。

台灣的資料填寫網址：
http://tw-city.census.okfn.org/

台灣相關討論：
https://groups.google.com/forum/#!topic/codefortomorrow/929xmHoQSeU

您可以於這裡找到其他已開始進行的國家：
http://meta.census.okfn.org/local/

開放知識基金會的原始文章：
http://blog.okfn.org/2014/02/04/announcing-the-local-open-data-census/

建議大家輸入前先稍微了解一下評分標準。

如果點進縣市，會出現該縣市在各種資料集的狀況，此時會於項目名稱旁看見一個小寫字母(i)。

如果可以的話，建議點一下，會出現一個小對話框大約解釋這個項目是什麼，填什麼資料。例如我點Expenditure (detailed)會出現下列說明：

Records of actual (past) municipal spending at a detailed transactional level, for example, at the level of month to month expenditure on specific items (usually this means individual records of spending amounts at a fairly granular level - e.g. $5-50k rather than at the $1m+ level). (Note: a database of contracts awarded or similar is *not* considered sufficient. This data category refers to detailed ongoing data on *actual* expenditure)

大概的意思如下：
「此項目描述市政府詳細的花費紀錄，例如每個月對於某特定物件上的耗費金額，通常這表示非常細微的程度，像是5-5萬元美元，而非一百萬美元這種程度」

說明不夠清楚？我們看一下實際例子：倫敦市
下面擷取其中一筆資料：

Vender ID: 15050001
Vendor Name: JOELLE TAYLOR
Cost Element: 540110
Expenditure Account Code Description: Marketing Exhibitions & Events
Document No: 1900019129
Amount: 250.00
Clearing Date: 03 Feb 2014

資料格式：CSV, PDF
更新頻率：每月

這種品質的資料，可以得到幾分？ Rufus Pollock (一個國外的登錄人員)只給70%。

恩……。

對開放資料的誤解(一)

2013-12-14T21:38:00.000+08:00

疑慮一：犯罪地圖、災害地圖等資訊開放後會傷害房價

「傷害」，不一定；「影響」，倒是有可能。

一棟房屋的大約價值，住在該區域的人可能是知道最清楚的，因為一些事件除非長時間居住，否則便遇不上。這種透過經驗、耳語傳遞的資訊，因為沒有公開、正式的管道，一般外來者很難得知，就算知道，其資訊的真實性也令人質疑。

以「災害潛勢地圖」為例，大家都想知道自己財產是否處於危險區域。如果一棟房子在下雨就可能崩塌的地區，卻很「好運」地沒有被畫入危險區域，下次大雨，這棟房子垮掉的機率難道就會大幅減少？當然不是！危險地區就是危險，不論我們是否相信，只要條件滿足，它照樣會垮。

一筆資料如果受到社會壓力而遭到「妥善處理」、「妥協」，這樣畫成的潛勢地圖也只是自欺欺人罷了。唯一的好處就是不會擋到某些人的財路，倒楣的是下一個買房的人、其他不知道真實情形的人。透過這種因資訊不對稱，而堆積起來的「好價錢」，大家都在玩「看誰是最後一個」的投機遊戲。

開放資料真的會造成衝擊？讓我們試著往前回推一步，在資料開放前，該筆資料處於什麼狀態？

該筆資料處於不透明的狀態。

那麼，資訊不透明是否才是造成價格波動的主要原因呢？當人云亦云，不確定的資訊造成市場恐慌，不是大漲就是大跌，不論哪一項都只是讓價格距離真實價值愈來愈遙遠，唯一受益的可能只有投機客和操縱資訊的人。如果幸運地，一大漲，再一大跌，或許剛好可以回歸到正常水平，但是當資料未公開前，我們怎麼知道「正常」的水平在哪裡？這時的「正常」如何決定？

如果開放資料真的造成價格波動，也只是因為我們試圖讓物件的價格回歸、貼近於真實的價值。只不過當開放前的價格泡沫愈大，開放後爆炸的效果愈強。但這樣的結果並不能完全歸罪於「開放」這個動作。

相對地，開放前被低估的商品，開放後也有可能會回升，然而卻鮮少有人提到這種情況？

在沒有資料可供參考的情況下，開放資料到底會不會傷害標的物之價格，往往是各說各話，沒有定見。更何況，我們連會不會影響都不清楚。但我們卻認為會影響，而且還是負面的影響。

為什麼？

一個致命的物體，不會因為我們的感知不同而變得安全。然而我們是否太常憑感覺、情緒衡量事物？而非透過根據事實收集的資料判斷？當政府沒有釋出相對應的資料之前，公民對公共事務的評估，將很難抽身於直覺和情感所形成的迷霧與漩渦。

------------
2014/01/29 更新內容