Baroque Blender: 前往資料科學之道 - Hadoop Platform and Application Framework

參與Coursera的課程：Hadoop Platform and Application Framework 些許心得

本課程接續前課 Introduction to Big Data，重點開始逐漸轉移至於虛擬機操作部份。

第1週仍在簡介架構與一些在Hadoop中常用到的模組。實際練習則照著cloudera虛擬機內附的教學文件(tutorial)。

第2週介紹Pig、Hive和 HBase。少許一兩行程式碼的練習量。

第3週介紹HDFS (Hadoop Distributed File System)，少許的練習，像是如何把資料放進HDFS，檔案建立、搬移等等，其實很類似Linux bash的指令。

第4週的實戰量明顯地增多。介紹Map/Reduce、key-value的特性。要求使用Python寫好Map/Reduce腳本讓Hadoop執行。課題則要求結合兩組以上的資料 (data join)，並計算某些字出現的次數。如果沒有接觸過python，本週的負擔會比較重，因為課程對於指令碼的指導非常少，只給兩個有註解的原始碼參考。

第5週介紹Spark。課題方面則是要求使用PySpark執行類似第四週的工作，如果已經跨過第四週的門檻，本週則相對簡單。

建議先備知識

GNU/Linux 檔案概念和bash的操作，像是ls、mkdir等等。
Python基本概念

其他

本課程有些部份令人較為難以消化，例如第四週對於python教學部份幾乎沒有，對新手而言非常地不友善，這種教法實在不適用於簡介(introduction)等級的課程。反而是討論區的某篇熱心的教學文，幫助不少人跨過這個難關。

但是這一系列的課程都幾乎以一個月開一次的周期進行，而每次都會有少許的修改，例如這次和上次相比，就有多了簡報檔可供下載，在練習部份也有了對於某些錯誤訊息要如何處理的指示，相信之後的課程會更符合入門的等級。

Baroque Blender

2016年1月19日

前往資料科學之道 - Hadoop Platform and Application Framework

建議先備知識

其他

沒有留言:

張貼留言