2010年8月24日 星期二

騰雲駕霧








不知不覺又過了一年了!今年實驗室的學弟妹很可惜沒有進入決賽,不能享受到免費的投籃機、泡麵、飲料還有其他吃喝拉撒的活動!


總覺得去年好像真的運氣很好,趨勢很費勁地邀請學生參加比賽,大手筆補助學生到台北上課,甚至車錢還住宿都有補助,當時初賽前好像在師大那邊聽了一場,不過很快就遺忘,畢竟實驗室沒再用 open source,喜歡自己刻東西,因此,入決賽還滿意外的,因為絕大部分的團隊都早已對 Hadoop 熟的很,甚至實驗室早都在用了。


回想起來還滿搞笑的,初賽是七月一號,那天對我們 team 來說是正式開始使用 Hadoop 的第一天,把趨勢附的 CentOS VM 環境弄一弄,開始試試傳說中的 word count!然後自己想要複習一下 Java ,想要設計一個非常 General 的 sorting 還 couting,可以吃任何格式,結果就這樣過了幾天,過了一個週末後,真正有用的產出是零,最後在星期一時下定決心,還是回歸到 C 語言!果然是多 C 多健康。而其實 C 語言就是以字串來處理 data type ,換句話說也達到我想玩的東西。


隨後開始正式去討論要做甚麼,就突發奇想設計一個不錯的 indexing + sorting 機制,只要跑兩次 MapReduce 就可以建立一個 sorted data + indexed meta data,於是跟同隊的越聊越黑皮,搞得好像很厲害似的,接著開始刻一個簡單的 Web 整合介面,用 PHP 語言呼叫 MapReduce Job ,並且提供 Web 觀看執行的過程跟成果,用表格輸出結果。最後,則是 paper work ,隊長帶領著大家把報告生出來並進入決賽啦!


至始至終都只用到 C 跟 Hadoop,天殺地認為用 C 最快啦。但直到工作後我才知道,那個 HBase 才是真正可以做 Real time query 的服務,HBase 會把常用的資料存在記憶體中,不像 Hadoop 每次執行都是從 Disk 讀出來處理!難怪當初決賽時,別人用 HBase 三兩下就跑完測資,我弄的部分要跑超久,連 QA 都不耐煩了 :P 雖然最後沒拿到預聘書,但大家的出路也都還不錯囉,忘了一提,那年是碩二下參賽,七月底還要口試!咱們是七月初弄完比賽就趕著寫論文,接著口試完過沒多久就公布決賽名單。好險那時還沒接著參加通訊大賽,不然一定兩頭空啊。


這幾天跟同事閒聊一些程式效率,頗有一點點以前實驗室大家一起寫程式的快感。隨著工作環境,現在都一股腦兒地使用 Open Source ,雖然時間很珍貴,但我覺得真正的樂趣卻是建立那些 framework 才會體會到的啦。


沒有留言:

張貼留言