首頁>>>技術>>>計費  計費產品

云南聯通容災實施案例

中國聯通云南分公司計費信息系統(tǒng)部 李衛(wèi)民 2004/05/24

項目概述

  本次的容災工程涉及到云南聯通的綜合營帳系統(tǒng)、短消息計費系統(tǒng),分別運行在不同的操作系統(tǒng)平臺上,其數據也分布在不同的存儲設備上。業(yè)務系統(tǒng)已投入生產使用,所以,在整個工程實施過程中減小對運行業(yè)務的影響是重中之重。同時,由于各個系統(tǒng)數據分別存儲在不同的中檔磁盤陣列上,若實現磁盤陣列級容災,必須采用更高端磁盤陣列,因此,實現容災業(yè)務系統(tǒng)的數據需要遷移到高端的磁盤陣列。

  本期工程采用了HP高端磁盤陣列XP512進行遠程數據容災,在云南聯通業(yè)務中心本地新增一臺HP XP512。同時,在異地備份中心新增一臺XP512存儲服務器,作為主生產中心XP512的異地容災備份。本次容災的建設目標是對綜合營帳系統(tǒng)、專業(yè)計費、短消息計費系統(tǒng)進行同城異地數據級容災的綜合數據容災系統(tǒng),業(yè)務系統(tǒng)的數據將可以通過基于XP磁盤陣列的Continuous Access XP軟件實時同步復制到備份數據中心的XP512中,從而實現數據的遠程保護

下圖是方案規(guī)劃的容災系統(tǒng)示意圖(見圖1)。


  硬件環(huán)境的搭建在此就不贅述,下面主要從整個工程的重點和難點:系統(tǒng)遷移進行著重介紹。

系統(tǒng)遷移需求分析


在本次案例實施中,選取營業(yè)系統(tǒng)的遷移做簡要說明。

一、系統(tǒng)現狀

  綜合營賬系統(tǒng)應用目前運行在兩臺主機superdome組成的群集上,其中一臺運行營業(yè)的應用,另一臺運行賬務的應用。數據存儲在一臺MA8000磁盤陣列中,由于系統(tǒng)數據量較大,營業(yè)和賬務的數據遷移工作必須分開進行,所以在一個系統(tǒng)數據遷移完畢后,MA8000磁盤陣列仍然需要在線,以保證其他系統(tǒng)遷移前的正常工作。

二、系統(tǒng)數據遷移要求

  由于需遷移系統(tǒng)均為在線運行,因此,要盡量減少業(yè)務的影響。為此,整個遷移過程必須按以下步驟進行:

  1.營業(yè)系統(tǒng)負責全省所有業(yè)務受理及客服系統(tǒng)的查詢,如發(fā)生長時間中斷,會對業(yè)務及公司形象帶來非常不利影響。因此,業(yè)務中斷必須在夜間或業(yè)務量較少時進行。
  2.遷移前必須制定詳細的時間計劃表,每一步驟必須有專人負責。
  3.系統(tǒng)要求:在遷移過程中系統(tǒng)設備具有可恢復性(事先做好備份和回退計劃),遷移后系統(tǒng)能夠運行正常。
  4.數據要求:保證數據的完整性和可恢復性。

三、風險分析
  由于目前營業(yè)系統(tǒng)屬于實時生產系統(tǒng),保證系統(tǒng)應用在停機遷移后仍能正常啟動服務和系統(tǒng)數據在遷移過程中不受損壞是本次遷移的重點。因此本次系統(tǒng)遷移責任非常重大,如果沒有周密的計劃、精心的組織,一旦出現問題,必將導致重大的責任事故。為了保證遷移的順利實施,根據系統(tǒng)現狀進行了風險分析。

實施原則
  完成項目的總原則是:按照方案的要求完成系統(tǒng)遷移工作,盡可能減少對營業(yè)業(yè)務的影響。
  由于責任重大,當在實施中發(fā)生便捷與風險的矛盾時,要永遠將規(guī)避風險放在首位。

實施重點

  實施的重點在于系統(tǒng)遷移的前期準備、遷移后數據一致性檢查及應用的測試驗證工作。
  系統(tǒng)遷移的切換發(fā)生在一個時間段,怎樣把這個時間段縮短,進而保證對整個系統(tǒng)的影響最小、風險最小,這就需要我們把前期準備做好、做足。

實施難點

  實施的難點在于系統(tǒng)遷移過程中應急情況下系統(tǒng)和數據的可恢復性。
  通過與相關人員的討論,確定了系統(tǒng)和數據的備份方案并論證了操作的可恢復性。

存在風險

  項目中的風險貫穿于整個實施過程,在項目實施前應充分考慮到所有可能存在的風險,考慮出現風險時的應急措施,采取相應的手段規(guī)避風險。可能存在的風險有:

  1.系統(tǒng)遷移的數據量較大,需要計劃足夠的時間;
  2.設備在遷移中損壞,需要原廠及時響應;
  3.系統(tǒng)結構比較復雜,營業(yè)系統(tǒng)的遷移可能對客服系統(tǒng)產生影響。

營業(yè)系統(tǒng)遷移計劃

  根據以上分析,總體計劃分為前期準備階段、系統(tǒng)遷移實施階段和遷移后系統(tǒng)試運行階段三個階段。

一、 前期準備階段

  前期準備階段是整個系統(tǒng)遷移成功的關鍵,該階段需要完成的工作有:

  1.掌握系統(tǒng)的現狀、分布、IP地址、用途等,制定詳細遷移任務清單;
  2.通過實驗確定系統(tǒng)遷移的操作并估算數據遷移需要的時間;
  3.論證系統(tǒng)和數據備份的方式;
  4.在XP512磁盤陣列上劃分數據移植所需的磁盤空間;
  5.確立實施時間表及人員配備與分工;
  6.制定可行的應急方案,論證操作的可恢復性;
  7.了解需求的基礎上,分析項目實施重點和難點,對遷移的實施進行深層次的討論,并就各方負責的實施部分的責任和實施細節(jié)進行細化,確立各方面負責人。最終產生一份科學可行、安全穩(wěn)妥、組織嚴謹、符合要求的系統(tǒng)遷移實施方案。

二、 系統(tǒng)遷移實施階段

  為了系統(tǒng)的可靠性、數據的完整性和可恢復性,應對現有系統(tǒng)進行軟硬件方面的檢測,并對系統(tǒng)和數據進行備份,一旦在遷移過程中發(fā)生問題,可以馬上恢復原有系統(tǒng),保證系統(tǒng)運行。在此階段需要完成的工作有:

  1.遷移前的設備檢測,系統(tǒng)、數據備份(如數據庫未打開歸檔,需在實施遷移前打開);
  2.完成營業(yè)系統(tǒng)數據遷移,包括數據庫、文件系統(tǒng)、系統(tǒng)參數調整等;
  3.系統(tǒng)遷移后的數據一致性檢測。

  其中系統(tǒng)備份前最好對設備硬件和軟件分別進行檢查,確認遷移前系統(tǒng)處于正常狀態(tài)。遷移的每個步驟都要按事先的規(guī)劃進行,并確保操作的可逆性,一旦出現問題系統(tǒng)可以回退到遷移前狀態(tài)。

營業(yè)系統(tǒng)遷移應急措施

一、系統(tǒng)遷移前的異常
  如果在規(guī)劃的時間點之前沒有完成系統(tǒng)遷移準備階段的任務,系統(tǒng)遷移時間順延,在確保準備工作就緒的前提下才進行系統(tǒng)遷移。在系統(tǒng)開始遷移前請相關人員進行系統(tǒng)健康性檢查,確保在遷移前系統(tǒng)完好。

二、系統(tǒng)遷移過程中的異常
  本次營業(yè)系統(tǒng)遷移的原則是確保系統(tǒng)在規(guī)劃的遷移時間段之外可以正常運行。由于營業(yè)系統(tǒng)遷移安排在夜間進行,為確保系統(tǒng)在發(fā)生硬件或軟件故障時能夠及時得到技術響應,需要協(xié)調各相關人員(包括原廠商技術人員)到位。在執(zhí)行遷移的過程中操作步驟具有可逆性,確保以外發(fā)生的時候可將系統(tǒng)迅速回退到最初狀態(tài)。系統(tǒng)和數據在遷移前都做最新的備份。如果遷移工作在凌晨6:00前沒有完成,也要將系統(tǒng)回退到遷移前狀態(tài),保障系統(tǒng)在8:00前正常運行。

三、 系統(tǒng)遷移后的異常
  營業(yè)系統(tǒng)在數據遷移到XP512后,原有MA8000磁盤陣列中的數據繼續(xù)保留一段時間,以觀察新系統(tǒng)的穩(wěn)定性。如果在試運行期新系統(tǒng)發(fā)生故障,仍可以讓營業(yè)系統(tǒng)回退到遷移前狀態(tài)。

數據庫遷移

一、數據庫信息調查

  數據庫的遷移主要是所有數據文件、重做日志、控制文件的遷移,在準備階段需調查清楚所有在用的數據文件、重做日志、控制文件所在裸盤的詳細情況。同時建議數據庫管理員在遷移前盡量不要添加新的數據文件,如遇特殊情況需增加新的數據文件,則必須通知工程項目組對已調查的數據進行更新。

二、在XP512上創(chuàng)建物理卷組和對應的邏輯卷
  根據收集的信息,在XP512上為營業(yè)系統(tǒng)劃分的物理空間上創(chuàng)建新卷組,然后在新卷組上創(chuàng)建邏輯卷,最后給主機數據庫用戶分配權限。

三、數據庫備份與遷移
  營業(yè)數據庫采用的是ORACLE。推薦采用物理備份,該方法實現數據庫的完整恢復,但數據庫必須運行在歸檔模式下,且需要足夠的外部存儲設備,例如磁帶庫、硬盤空間等。物理級的備份主要是備份數據文件、控制文件、聯機重做日志文件、歸擋日志文件、回退段等。

1. Oracle數據庫物理備份準備。
A 打開數據庫歸檔;
B 數據庫移植前幾天做一次全備,移植當天晚上做增量備份;
2. 數據庫物理備份。

  A 使用dd拷貝和在sqlplus下用"alter database backup controlfile to trace"分別備份數據庫控制文件;
  B 數據庫做增量備份。

  3.修改inityy.ora文件,指定新的controlfile name(在XP512上),確保數據庫可以啟動,確保歸檔備份目錄有足夠空間。

  4.停主機上所有應用程序,正常宕數據庫,完后重啟數據庫(不啟監(jiān)聽),根據業(yè)務情況編寫SQL提取一致性數據,將結果用spool輸出至一文本文件中保存。此外建議使用"alter system switch logfile"將所有日志組均做一次切換。

  5.再次檢查數據庫數據文件是否與調查結果一致。

  6.正常宕數據庫,用dd物理移植數據文件、控制文件、日志文件到XP512上,實際可生成多個shell并行執(zhí)行。

  7.在XP512上啟動數據庫到mount狀態(tài),將數據文件指向XP512。
  8.將數據庫open,在XP512上給tempspace增加新的數據文件,然后刪除原來MA8000上的數據文件。
  9.運行遷移前的同一SQL提取一致性數據,將新生成的文本文件與遷移前生成的文本文件比較是否一致。

  10.在測試環(huán)境中進行應用程序的驗證。

四、 異常情況處理


  原存儲設備MA8000的邏輯卷不會立即刪除, 這樣原來數據庫數文件,日志文件不會丟失,即便有控制文件更改,也可用控制文件恢復, 如遷移有問題或時間過長,要留出恢復時間,用原來數據文件、日志文件、控制文件啟動原數據庫。要求在測試階段,只能對數據庫的內容進行可控的增加、刪除、修改。只有多方確認無問題情況下,才能啟動應用。同時做好歸檔的保存,如聯機重做日志少,可考慮增加幾組聯機重做日志。

工程試運行及演習

  系統(tǒng)遷移工作成功后,工程即進入試運行階段,在此期間相關人員需定時觀察主機運行狀態(tài)、主備兩個中心XP512的同步狀態(tài)及數據庫運行狀態(tài)并記錄。系統(tǒng)穩(wěn)定運行后,應制定定期進行主備中心切換的容災演習制度,發(fā)現問題立即解決,確保在發(fā)生災難時系統(tǒng)的可恢復性。

中國計費網(www.billingchina.com)


相關鏈接:
容災項目需要注意的幾大問題 2004-05-24
固話計費 帳務優(yōu)惠 2004-05-24
電信核心業(yè)務系統(tǒng)容災解決方案 2004-05-24
容災—讓BOSS更美好 2004-05-24
應用集成:最大化電信OSS效能 2004-04-26

分類信息:  電信_與_計費     文摘   行業(yè)_電信_解決方案   技術_計費_文摘