第二十四個夏天後: [Linux] 從 MongoDB Standalone (Single-Noe) 到 MongoDB HA (Replica Set) 的線上轉移方式(without shutdown/offline) @ Ubuntu 12.04

2014年2月25日星期二

[Linux] 從 MongoDB Standalone (Single-Noe) 到 MongoDB HA (Replica Set) 的線上轉移方式(without shutdown/offline) @ Ubuntu 12.04

不關機的轉換原理應該都差不多？例如把水管從 A 處改接到到 B 處，只是情境跟操作手法適不適用是需要考慮的重要因素，在此先敘述使用情境：

一隻 PHP 定期收到資料後，把資料存在 /tmp 區，再透過 popen 在背景發動一隻 pymongo 程式讀取 /tmp 資料，由 pymongo client 連到 mongodb server 塞資料，塞完後就斷線的模式。所以 CGI 有自己的 PID，而 pymongo 寫的 tool 也有自己的 PID。
資料的單純作 insert 為主，還沒有負責處理 query 的需求，故 mongodb 只要能確保資料有被記錄起來，沒有損失即可，但無法保證讓 Replica Set 的資料馬上就跟 Standalone 一致。

線上轉換原理：

架設 MongoDB Replica Set
將更改 pymongo 程式，將 mongodb server 位置改到 Replica Set 即可
將 Standalone MongoDB 用 mongoexport 匯出資料 table.json, table2.json, ...
將資料用 mongoimport 方式匯入到 Replica Set 之 PRIMARY node 即可

在上述的使用情境下，資料的收集就不會間斷，至於官方介紹的方式也可以參考一下，屬於把 mongod 關掉後重開：Convert a Standalone to a Replica Set。

此外，一些心得：

原先資料就使用系統 _id 管理，不覆蓋 _id ，而 _id 有時間資訊，匯入新的機器(Replica Set) 沒有問題
匯入資料若碰到 _id 一樣時，會 skip 掉，所以不必擔心重複匯入的問題
如果匯錯資料時，例如預計到 table 1，結果不小心匯到 table 2 時，假設兩種資料格式有關鍵的差異點，例如在 table 1 的 record 才有 {"helloworld":0} 的屬性，那就好辦，把這類 record 找出來刪掉即可


# 找尋 table2 中，record 裡 hellworld 屬性的資料筆數

firstset:PRIMARY> db.table2.find({helloworld: { $ne : null } }).count()

firstset:PRIMARY> db.table2.remove({helloworld: { $ne : null } })

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)