2016年1月19日

前往資料科學之道 - Hadoop Platform and Application Framework

參與Coursera的課程:Hadoop Platform and Application Framework 些許心得

本課程接續前課 Introduction to Big Data,重點開始逐漸轉移至於虛擬機操作部份。

第1週仍在簡介架構與一些在Hadoop中常用到的模組。實際練習則照著cloudera虛擬機內附的教學文件(tutorial)。

第2週介紹Pig、Hive和 HBase。少許一兩行程式碼的練習量。

第3週介紹HDFS (Hadoop Distributed File System),少許的練習,像是如何把資料放進HDFS,檔案建立、搬移等等,其實很類似Linux bash的指令。

第4週的實戰量明顯地增多。介紹Map/Reduce、key-value的特性。要求使用Python寫好Map/Reduce腳本讓Hadoop執行。課題則要求結合兩組以上的資料 (data join),並計算某些字出現的次數。如果沒有接觸過python,本週的負擔會比較重,因為課程對於指令碼的指導非常少,只給兩個有註解的原始碼參考。

第5週介紹Spark。課題方面則是要求使用PySpark執行類似第四週的工作,如果已經跨過第四週的門檻,本週則相對簡單。

建議先備知識

  • GNU/Linux 檔案概念和bash的操作,像是ls、mkdir等等。
  • Python基本概念

其他

本課程有些部份令人較為難以消化,例如第四週對於python教學部份幾乎沒有,對新手而言非常地不友善,這種教法實在不適用於簡介(introduction)等級的課程。反而是討論區的某篇熱心的教學文,幫助不少人跨過這個難關。

但是這一系列的課程都幾乎以一個月開一次的周期進行,而每次都會有少許的修改,例如這次和上次相比,就有多了簡報檔可供下載,在練習部份也有了對於某些錯誤訊息要如何處理的指示,相信之後的課程會更符合入門的等級。

沒有留言:

張貼留言

為避免垃圾訊息,留言需檢視後會才會顯示,請見諒。