2009年7月8日 星期三

Hadoop 初體驗

一週過了,心情還沒調適回來,參加這次雲端計算比賽,雖然沒並沒很明確的做出什麼,甚至最後僅花了兩天開始衝 Hadoop Streaming 與簡單 Web 介面實作,也感到樂趣無窮。


至於為啥會只有兩天實作?實在是一開始太鬆散,最初一兩天先裝裝機器,接著我開始用 Java 來實作,用這三年沒寫過的語言,事實證明,儘管還沒忘光卻也不夠好。在倒數三天時,有不少突碰性的討論與設計,最重要的是設計資料格式,我覺得這是最有成就感的部分,無論最後有沒被欣賞,都夠囉。


談談 Hadoop 的架構,分成 Map 與 Reduce 架構,前者主要處理 Partition 的部分,後者則是 Merge 動作,而 Hadoop 另一個特色是能提供 Sorting 功能,完全符合碩班老師的教導,面對大資料不外乎三件事:Partition、Sort 和 Merge 。


另外,Map 和 Reduce 接收統一格式的設計,以至於推導出此架構,真是很變化無窮,感覺得出來設計此架構的人是非常有實力與經歷的。回想起周遭的生活,倒比較少有這樣的感覺,很多事都是為 Special Case 處理,顯少有 General Purpose 的設計。慶幸的,經過這幾天的腦力激盪,完成一個小小的 General Purpose 架構的雛型,挺爽快的。


差不多該調整步調了。


沒有留言:

張貼留言