Baroque Blender
開放的不只是科技
2014年12月11日
前往資料科學之道 - 取得與清理資料
參與Coursera的課程:
Getting and Cleaning Data
些許心得:
一般來說,我們在處理資料的時會經過下列流程:原始的資料 -> 整齊的資料 -> 溝通的資料
原始的資料 -> 整齊的資料:由於原始的資料種類繁多,上自MariaDB, JSON, XML等等,下達csv、txt等。必須要先整理格式,才能使用進行分析。
整齊的資料 -> 溝通的資料:資料進行分析後,依據使用環境,成為文字、表格、圖像、互動程式等等,將成果散布出去。
這應該會是花最多時間的環節。
dplyr package 在這環節的實用性非常高。在執行這堂課的練習專案時可以明顯地感受到其效果。
沒有留言:
張貼留言
為避免垃圾訊息,留言需檢視後會才會顯示,請見諒。
較新的文章
較舊的文章
首頁
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言
為避免垃圾訊息,留言需檢視後會才會顯示,請見諒。