中國移動江蘇公司(以下簡稱“江蘇移動”)網(wǎng)絡(luò)支撐系統(tǒng)自2000年開始建設(shè)了話務(wù)網(wǎng)管、數(shù)據(jù)網(wǎng)管、傳輸網(wǎng)管、電子運維、綜合資源管理、7號信令監(jiān)測、數(shù)據(jù)業(yè)務(wù)監(jiān)測、網(wǎng)間信令監(jiān)測、自動撥測、動力環(huán)境監(jiān)控、綜合監(jiān)控、綜合分析、網(wǎng)優(yōu)平臺、網(wǎng)絡(luò)投訴處理平臺、IT網(wǎng)管、安全管控平臺等近20套專業(yè)網(wǎng)管支撐系統(tǒng)。這些支撐系統(tǒng)所管理的數(shù)據(jù)從方方面面監(jiān)控了移動通信網(wǎng)絡(luò)的運行信息,從而支撐各項運維工作的順利開展。
江蘇移動的網(wǎng)絡(luò)支撐系統(tǒng)已形成一定規(guī)模,業(yè)務(wù)支撐系統(tǒng)遇到的問題在網(wǎng)管中都會遇到,并且有著自身的特點:單一系統(tǒng)的規(guī)模較小、種類繁多,調(diào)整頻繁、主機資源利用不均衡。基于系統(tǒng)現(xiàn)狀和對發(fā)展的思考,江蘇移動引入IBM動態(tài)基礎(chǔ)架構(gòu)理念,嘗試部署主機動態(tài)資源池,有效解決了網(wǎng)管系統(tǒng)“演進”過程中遇到的一些難題。
網(wǎng)管系統(tǒng)IT架構(gòu)的 諸多挑戰(zhàn)
江蘇移動的用戶規(guī)模已突破5000萬,其網(wǎng)管支撐系統(tǒng)的規(guī)模也經(jīng)歷了一個從量變到質(zhì)變的過程,從管理著幾個分散的網(wǎng)管系統(tǒng)到運營著一個大型的數(shù)據(jù)中心。在演變中,不僅遇到了其他數(shù)據(jù)中心從小到大時所必經(jīng)的一般性問題,還存在自身沿革過程中產(chǎn)生的特殊性問題。
“煙囪式”基礎(chǔ)架構(gòu)—每個系統(tǒng)的建設(shè)都需要采購?fù)暾姆?wù)器設(shè)備,如WEB服務(wù)器、應(yīng)用服務(wù)器、數(shù)據(jù)庫服務(wù)器、存儲交換機、存儲磁盤等。這種傳統(tǒng)建設(shè)方式導(dǎo)致了諸如服務(wù)器物理臺數(shù)的快速增長、采購成本高昂、各系統(tǒng)之間計算資源不可綜合調(diào)度利用以及IT運維人員工作負荷過高等不盡合理的諸多弊端。
IT基礎(chǔ)設(shè)施缺乏彈性—話務(wù)網(wǎng)管系統(tǒng)的正常運行直接影響一系列重要運維KPI指標(biāo),其對安全性與穩(wěn)定性有著極高的要。峰值負載時需要至少18顆CPU的一臺服務(wù)器來滿足處理的要求,而平均負載僅需要2~4顆CPU。由于采用獨立物理服務(wù)器或靜態(tài)分區(qū)技術(shù),網(wǎng)管系統(tǒng)的部分服務(wù)器計算能力未能充分利用。
容量規(guī)劃困難—容量估算涉及因素很多,如未來業(yè)務(wù)總量、用戶數(shù)、性能要求、應(yīng)用程序開發(fā)水平、各系統(tǒng)間交互等。但上述信息通常并不完整或根本沒有,只能參照類似系統(tǒng)或猜測系統(tǒng)生命周期中工作負載的增長。如此,業(yè)務(wù)部門難以對需求估算精確,有時會導(dǎo)致設(shè)備超量抑或上線不久因負荷過高而緊急擴容。
建設(shè)維護缺乏規(guī)范性—江蘇移動網(wǎng)絡(luò)支撐網(wǎng)各個系統(tǒng)的維護管理雖按應(yīng)用和平臺進行了區(qū)分,但平臺管理員仍需了解主機硬件、操作系統(tǒng)、數(shù)據(jù)庫、中間件甚至備份的各方面知識。但現(xiàn)實中由于管理員精力和時間有限,加上各層面的管理工具、方法也有諸多差異,管理員難以全面精通或掌控各個層面的管理。
應(yīng)用平臺整合初見成效
以前按項目買設(shè)備,設(shè)備只是被某項目獨占,而非共享,因此某些設(shè)備上的資源是多余的,但是另外的項目卻不能夠利用它。所以一定程度上造成資源的浪費。利用服務(wù)器虛擬化技術(shù),打破應(yīng)用和 IT 資源之間的綁定關(guān)系,把應(yīng)用和硬件解耦合,多個應(yīng)用能共享 IT 資源。
同平臺應(yīng)用整合
同平臺應(yīng)用整合從技術(shù)容易實現(xiàn),成本和風(fēng)險都比較小。要整合服務(wù)器資源,非常重要的前提是梳理各個網(wǎng)管系統(tǒng)的運行特點,也就是說,需要非常明確的知道各系統(tǒng)的峰值負載、節(jié)假日突發(fā)高峰、批處理時間、響應(yīng)要求、業(yè)務(wù)等級等等。在明確了這些信息之后,制定資源整合計劃。通過評估,有些業(yè)務(wù)是可以通過分區(qū)整合到一臺服務(wù)器上的,可以獲得明顯的利益,較少甚至沒有負面影響。而有些業(yè)務(wù)不合適整合,遇到類似情況,我們也不會為了整合而整合。在整合服務(wù)器資源中,我們也注重探索集成多種環(huán)境,獲得理想的技術(shù)組合,以實現(xiàn)服務(wù)目標(biāo)。如圖 1,對于壓力較大,且重要級別較高的系統(tǒng)如話務(wù)網(wǎng)管、資源管理等被部署到獨占 CPU 的動態(tài)邏輯分區(qū)上,并配置獨立的物理板卡,以保證性能。對于壓力較小的 PBOSS 系統(tǒng),我們通過微分區(qū)來部署,且由于其 I/O 流量很小,因此可以通過虛擬 I/O 服務(wù)器(VIOS)來共享以太網(wǎng)卡和存儲卡,在不影響業(yè)務(wù)效率的前提下,減少了物理設(shè)備,提高了靈活性。

控制臺集中管理
通過 IBM Systems Director 集中控制臺,實現(xiàn)跨機房、多網(wǎng)段的服務(wù)器的自動發(fā)現(xiàn)(通過 IP 地址),系統(tǒng)同時能自動更新已發(fā)現(xiàn)服務(wù)器的信息。管理員能借助這套系統(tǒng)快速的了解每臺服務(wù)器,如物理、邏輯、或虛擬硬件,操作系統(tǒng)類型及版本,硬件固件及 BIOS 信息,所安裝的軟件信息等等。
通過制定系統(tǒng)一致性策略,管理員可以實時監(jiān)控受管系統(tǒng)更新狀態(tài)和自動接收更新提醒,這包括了受管操作系統(tǒng)和服務(wù)器固件更新管理。
Director 同時整合了多個硬件管理控制臺(HMC),提供了層次化的資源關(guān)系表以及圖形視圖。管理員可以利用這些關(guān)系表和視圖方便查看服務(wù)器拓撲結(jié)構(gòu)和虛擬化層次。
問題定位和瓶頸識別
管理員可以自定義一個 Systems Director 集中受管系統(tǒng)健康狀況視圖,所有受管系統(tǒng)硬件層面告警都將集中在該視圖展現(xiàn)。通過設(shè)置過濾,管理員可以快速檢查重要告警信息,比如CPU 利用率、內(nèi)存利用率、I/O 吞吐量、頁交換等等。監(jiān)控結(jié)果可以觸發(fā)自動化響應(yīng)策略。
對劃分了分區(qū)的服務(wù)器來說,Director 分別顯示每個分區(qū)的資源利用率,同時也顯示整臺服務(wù)器的資源利用率。這對于采用了超用 CPU 模式(uncapped)的微分區(qū)來說,是非常關(guān)鍵的。管理員根據(jù)這些信息來動態(tài)評估服務(wù)器的分區(qū)規(guī)劃是否合理。這些歷史性能信息也為管理員進行服務(wù)器容量規(guī)劃提供依據(jù)。
主機CPU、內(nèi)存自動化彈性調(diào)整
通過分區(qū)虛擬化實現(xiàn)同平臺應(yīng)用整合,仍然處于靜態(tài)方式。業(yè)務(wù)是動態(tài)發(fā)展的,網(wǎng)管中心的支持要能對此作出快速響應(yīng)。服務(wù)器 CPU 池化的技術(shù)很好的解決這一問題。
基于 Power 服務(wù)器微分區(qū),我們設(shè)置兩種策略來確保分區(qū)能自動實現(xiàn)彈性化調(diào)整:首先多個業(yè)務(wù)分區(qū)共享多個物理 CPU,每個分區(qū)設(shè)定適量初始授權(quán) CPU 用量以及適量的虛擬 CPU 個數(shù),這非常關(guān)鍵。業(yè)務(wù)分區(qū)在壓力很小時,虛擬 CPU 基本不占用或只用很少量的物理 CPU 處理能力。當(dāng)某個分區(qū)業(yè)務(wù)突發(fā)增大時,該分區(qū)的虛擬 CPU 可實時動態(tài)的調(diào)用更多物理 CPU,在超過初始授權(quán)值時,只要 CPU 池中還有空閑物理 CPU,那么該分區(qū)可以超用 CPU。第二,我們在必要的情況下可以對各個分區(qū)設(shè)定合適的權(quán)重。如果有多個分區(qū)都超用 CPU,權(quán)重較大的分區(qū)在超用 CPU 時可以占用較多的資源。這種調(diào)整都是可以動態(tài)實現(xiàn)。
構(gòu)建資源池與映像庫
業(yè)務(wù)部門需要基礎(chǔ)平臺,傳統(tǒng)上的流程較復(fù)雜,首先用戶提出要求,然后 IT 部門新購(或利舊)設(shè)備,物理設(shè)備連接,安裝操作系統(tǒng)、打補丁,安裝應(yīng)用軟件、打補丁等,最后測試再提交使用。流程長,牽扯較多人力,各個系統(tǒng)之間的軟件版本也較難保持一致性,導(dǎo)致維護復(fù)雜。
在實現(xiàn)統(tǒng)一服務(wù)器管理的前提下,再結(jié)合服務(wù)器虛擬化技術(shù),使得我們有能力構(gòu)建“統(tǒng)一管理,優(yōu)化標(biāo)準(zhǔn),快速部署”的 IT 基礎(chǔ)環(huán)境。
首先是服務(wù)器被統(tǒng)一管理,納入計算資源池中。然后,我們通過 Director 對常用的軟件版本組合(操作系統(tǒng)、數(shù)據(jù)庫、中間件等)進行捕捉,創(chuàng)建標(biāo)準(zhǔn)化映像,保存在統(tǒng)一映像庫中。在需要新基礎(chǔ)平臺時,管理員通過 Director 在計算資源池中查找合適的受管服務(wù)器,然后從映像庫中選擇合適的映像。之后 Director 能自動創(chuàng)建分區(qū),并把映像部署到指定的受管服務(wù)器上。整個部署過程都通過網(wǎng)絡(luò)進行,管理員不再需要到現(xiàn)場。 交付使用的系統(tǒng),也被納入統(tǒng)一監(jiān)控系統(tǒng)中,結(jié)合用戶的反饋意見等,管理員可以優(yōu)化、創(chuàng)建新的系統(tǒng)映像保存在映像庫中。
