如何做(zuò)好(hǎo)(hǎo)大型數(shù)據中心的(de)運維
作者:晨光  來源:網絡  發表時間:2016-1-29  點擊:3380

       什麼叫數(shù)據中心?維基百科(kē)給出的(de)定義是“數(shù)據中心是一整套複雜的(de)設施。它不(bù)僅僅包括計(jì)算機系統和其它與之配套的(de)設備(例如通信和存儲系統),還包含冗餘的(de) 數(shù)據通信連接、環境控制設備、監控設備以及各種安全裝置”。在(zài)雲大行(xíng)其道(dào)的(de)今天,随著(zhe)數(shù)據中心建設規模的(de)不(bù)斷擴大,新(xīn)技術的(de)層出不(bù)窮,數(shù)據中心變得越來越 複雜。大型數(shù)據中心往往是由很多規模龐大的(de)集群系統組成,其運維工作需要具備方方面面的(de)知識,包括硬件(jiàn)、網絡、服(fú)務(wù)器(qì)、存儲、安全以及業務(wù)上的(de)東西,需要 上下打通地(dì)去做(zuò)運維工作。

      當一個(gè)數(shù)據中心的(de)規模非常大,面臨的(de)挑戰和問題也比較超前,很多在(zài)小環境小體系下不(bù)是問題的(de)問題在(zài)這(zhè)樣的(de)規模下也就凸顯出來了,所以要做(zuò)好(hǎo)(hǎo)大型數(shù)據中心的(de) 運維工作,對整個(gè)數(shù)據中心技術體系的(de)系統學(xué)習就要花(huā)費比較長(cháng)的(de)時間,隻有對這(zhè)個(gè)數(shù)據中心整體非常了解,才能有針對性地(dì)制定一些運維方案,甚至可以二次開發 一些監控運維軟件(jiàn),對整個(gè)數(shù)據中心進行(xíng)有效管理(lǐ)與監控,提升整個(gè)數(shù)據中心的(de)運行(xíng)效率、減少故障的(de)發生,從而将運維工作推向新(xīn)的(de)高(gāo)度。一個(gè)大型的(de)數(shù)據中心內(nèi) 部往往都包含了很多小系統,運維工作都是圍繞著(zhe)這(zhè)些具體的(de)應用(yòng)系統展開的(de),具體的(de)可以分為(wèi)基礎運維管理(lǐ)、日常業務(wù)運維、網絡、服(fú)務(wù)器(qì)、存儲、安全六大部 分,本文就來說(shuō)一說(shuō)一般大型的(de)數(shù)據中心應該具備的(de)哪些運維方法和能力。

       首先從數(shù)據中心的(de)基礎運維管理(lǐ)方面來說(shuō),則主要有硬件(jiàn)配置管理(lǐ)、可維護性優化(huà)(huà)、監控、報(bào)警處理(lǐ)、自動化(huà)(huà)運維、斷網,斷電、機房(fáng)容災等運維工作。硬件(jiàn)配置管 理(lǐ)包含機櫃裡(lǐ)每台服(fú)務(wù)器(qì)的(de)型号和硬件(jiàn)配置,并清楚是哪些業務(wù)系統在(zài)使用(yòng)這(zhè)些服(fú)務(wù)器(qì)。即便是虛拟化(huà)(huà)運行(xíng)環境,也需要知道(dào)這(zhè)些虛機都在(zài)哪些物(wù)理(lǐ)機組成的(de)資(zī)源池 中流動。數(shù)據中心物(wù)理(lǐ)機和虛機數(shù)量都很龐大,使用(yòng)自動化(huà)(huà)運維是非常有必要的(de)。自動化(huà)(huà)運維不(bù)僅能提升運維的(de)工作效率,還可以減少人為(wèi)的(de)參與,同時讓數(shù)據中心 自己管理(lǐ)自己,釋放人力。并對數(shù)據中心可能發生的(de)故障還做(zuò)好(hǎo)(hǎo)監控與報(bào)警處理(lǐ),以便能夠在(zài)故障發生的(de)第一時間知曉問題,往往一次大的(de)故障都是從開始的(de)一點小 故障逐漸擴展最終引發整個(gè)大系統的(de)崩潰的(de),所以在(zài)出現一些小的(de)異常時一定要及時消除,而這(zhè)些異常就要靠完善的(de)監控和報(bào)警系統來檢測。

       從數(shù)據中心的(de)日常業務(wù)運維方面考慮,則主要有資(zī)源、機器(qì)分配、資(zī)源使用(yòng)、網絡吞吐、故障恢複、備份應用(yòng),集群搭建、流量,壓力,遷移擴容,升級、上下級業 務(wù)關聯情況、資(zī)源利用(yòng)率、異常處理(lǐ)、應急預案等等。這(zhè)些日常運維工作實際上要花(huā)費大量的(de)人力和時間,是運維工作的(de)主體,也最煩瑣,但(dàn)卻最不(bù)能體現業績的(de)部 分。一個(gè)數(shù)據中心能夠長(cháng)久安全穩定運行(xíng),就是靠這(zhè)些日常的(de)工作積累,隻有平時注意這(zhè)些細微的(de)變化(huà)(huà),才能不(bù)斷優化(huà)(huà)。壓力測試、軟件(jiàn)升級、業務(wù)部署、異常處理(lǐ) 等幾乎成為(wèi)了運維工作的(de)日常必修課,隻有将這(zhè)些工作做(zuò)好(hǎo)(hǎo),才能避免出現大的(de)故障,并能夠快速部署新(xīn)的(de)業務(wù),根據資(zī)源使用(yòng)情況及時擴容設備。

       從數(shù)據中心網絡方面考慮,則主要有網絡硬件(jiàn)設備、ACL、OSPF、LACP、VIP、流量、負載均衡、二三四七層情況、網絡監控、萬兆闆卡、核心交換 等。網絡是數(shù)據中心的(de)重要組成部分,是一切工作運行(xíng)的(de)基本保證,沒有網絡數(shù)據中心就無法運轉起來,所以保證網絡穩定是數(shù)據中心運維工作中的(de)重中之重。這(zhè)裡(lǐ) 主要關注的(de)就是網絡的(de)硬件(jiàn)問題,ACL部署還有流量監控情況。網絡可以說(shuō)是包羅萬象,涉及太多的(de)設備和協議(yì)技術,所以也需要不(bù)斷地(dì)學(xué)習,加深對網絡技術 的(de)理(lǐ)解,這(zhè)樣才能做(zuò)好(hǎo)(hǎo)網絡運維工作。

掃描二維碼

關注昊雲訂閱号

服(fú)務(wù)項目

維保運維服(fú)務(wù)

信息系統集成服(fú)務(wù)

機房(fáng)搬遷服(fú)務(wù)

 
 
 
QQ 在(zài)線客服(fú)
QQ 在(zài)線客服(fú)
 
電話:
0531-88818533
客服(fú)QQ
2061058957
1905215487