運維好(hǎo)(hǎo)數(shù)據中心的(de)四大法寶
作者:晨光  來源: IT運維網   發表時間:2016-4-28  點擊:3178

對于數(shù)據中心,運維工作的(de)重要性不(bù)言而喻,在(zài)數(shù)據中心生命周期中運維管理(lǐ)是曆時時間最長(cháng)的(de)一個(gè)階段。數(shù)據中心運維的(de)工作主要是對數(shù)據中心各項管理(lǐ)對象進行(xíng)系統的(de)計(jì)劃、組織、協調與控制,是信息系統服(fú)務(wù)有關各項管理(lǐ)工作的(de)總稱,具體包括對機房(fáng)環境基礎設施部分的(de)維護,系統與數(shù)據維護,管理(lǐ)工具的(de)使用(yòng),人員的(de)管理(lǐ)等方面。投資(zī)巨大的(de)數(shù)據中心,為(wèi)了能夠盡快得到收益,就需要在(zài)運維的(de)工作上多下工夫,切勿進入“一流設備、二流設計(jì)、三流運維”的(de)不(bù)良運營之中,高(gāo)品質數(shù)據中心運維的(de)工作至關重要。那麼如何才能提升數(shù)據中心的(de)運維水(shuǐ)平,本文提出了數(shù)據中心運維工作制勝的(de)四大法寶,做(zuò)好(hǎo)(hǎo)這(zhè)四個(gè)方面的(de)工作将使數(shù)據中心一直運行(xíng)于最佳狀态,為(wèi)數(shù)據中心創造最大的(de)受益。

工程文檔


文檔對數(shù)據中心運維的(de)工作非常重要。包括數(shù)據中心的(de)安裝、配置、優化(huà)(huà)、組網、設備互連等方方面面,通過這(zhè)些文檔可以對數(shù)據中心的(de)運營了如指掌,在(zài)出現故障時迅速排查,找到故障點。文檔還有一個(gè)重要的(de)作用(yòng)就是工作的(de)傳承,當有人員離(lí)開時,他(tā)隻要留下工作的(de)文檔,其它人交接工作就很容易。還有就是工作經驗的(de)積累文檔。雖然各種數(shù)據中心大同小異,基本是靠服(fú)務(wù)器(qì)、網絡和存儲三大件(jiàn)打天下,但(dàn)每個(gè)數(shù)據中心又(yòu)都有自己的(de)風格,自己的(de)優勢與劣勢。通過對數(shù)據中心運維而輸出的(de)各種技術文檔,将為(wèi)後來人提供方便,并且可以提升數(shù)據中心整體的(de)運維能力。數(shù)據中心的(de)文檔五華八門(mén),你不(bù)知道(dào)什麼時候其中的(de)哪些文檔就會(huì)派上用(yòng)場。根據以往經驗,數(shù)據中心的(de)文檔主要集中于三類:一是數(shù)據中心內(nèi)部架構文檔,比如:組網介紹、設備互連關系、IP分配情況、空調系統、機電系統、布線系統等的(de)基本狀況;二是數(shù)據中心管理(lǐ)文檔,比如:機房(fáng)管理(lǐ)制度、機房(fáng)值班和交接制度、機房(fáng)巡檢制度、設備操作規範制度,安全防護制度等等。三是數(shù)據中心改造,優化(huà)(huà)工程文檔。比如:升級指導書(shū)、網絡變更計(jì)劃書(shū)、應急措施指導、軟件(jiàn)回退方案等等。四是數(shù)據中心運維的(de)經驗文檔。比如:網絡中斷問題分析、現有機房(fáng)環境評估、如果進行(xíng)業務(wù)不(bù)丢包切換等等。利用(yòng)這(zhè)些文檔,即使一個(gè)新(xīn)人來做(zuò)數(shù)據中心維護,也可以迅速上手。其實不(bù)僅對于數(shù)據中心這(zhè)個(gè)行(xíng)業,其它任何行(xíng)業,任何工作都是如此,養成輸出文檔的(de)好(hǎo)(hǎo)習慣,為(wèi)自己也為(wèi)别人提供方便,可以大大提升工作效率。

業務(wù)備份


數(shù)據中心的(de)業務(wù)要求全年24小時連續運行(xíng),然而數(shù)據中心一個(gè)故障都不(bù)出是不(bù)可能的(de),甚至一些數(shù)據中心幾乎天天都在(zài)上演各種故障。擁有數(shù)十萬台設備的(de)數(shù)據中心,每天壞一台服(fú)務(wù)器(qì)或一個(gè)端口都是在(zài)正常不(bù)過的(de)事情了,這(zhè)就要求我(wǒ)們對數(shù)據業務(wù)有備份。小到服(fú)務(wù)器(qì)、網絡到存儲,大到數(shù)據中心,都需要有備份,包含軟件(jiàn)的(de)備份和硬件(jiàn)的(de)備份。通過備份,可以在(zài)數(shù)據中心運行(xíng)出問題時,及時做(zuò)業務(wù)調整,确保業務(wù)無中斷或者短時中斷。如今的(de)數(shù)據中心可以做(zuò)到多數(shù)據中心互為(wèi)備份,就算其中一個(gè)數(shù)據中心癱掉,業務(wù)也可以順利由其它數(shù)據中心接管,繼續正常運行(xíng),所以隻要不(bù)是世界末日到來,在(zài)不(bù)同地(dì)方建設多個(gè)數(shù)據中心,就能保證數(shù)據中心業務(wù)的(de)長(cháng)期穩态運行(xíng)。業務(wù)備份是龐大的(de)系統工程,涉及到方方面面,任何一個(gè)環節都有一些備份技術,在(zài)數(shù)據中心裡(lǐ)不(bù)可能任何地(dì)方都部署備份技術,那将使得數(shù)據中心成本過高(gāo),設計(jì)過于複雜,但(dàn)是沒有備份肯定是不(bù)行(xíng)的(de),這(zhè)就需要在(zài)兩者之間找到一個(gè)平衡點。不(bù)管怎樣,業務(wù)備份在(zài)數(shù)據中心裡(lǐ)不(bù)可缺少。

在(zài)線監測


數(shù)據中心運行(xíng)是動态的(de),每時每刻都在(zài)變化(huà)(huà)。我(wǒ)們無法預知未來會(huì)發生哪些突發故障,就算是每個(gè)環節都有備份,也需要有監測的(de)手段,來保證業務(wù)切換到運行(xíng)正常的(de)設備上來。對于數(shù)據中心在(zài)線監測必不(bù)可少。在(zài)線監測包括網管的(de)監測,服(fú)務(wù)器(qì)運行(xíng)狀态的(de)監測,空調系統的(de)監測,機房(fáng)環境的(de)監測等等,當發現異常時,即使将告警通知運維人員,或者軟件(jiàn)自動啟用(yòng)備用(yòng)系統,确保數(shù)據中心繼續穩定運行(xíng)。在(zài)線監測是确保數(shù)據中心無故障運行(xíng)的(de)保證,有效的(de)在(zài)線監測可以減少數(shù)據中心故障發生時,對業務(wù)造成影響。

周期巡檢


俗話說(shuō)“防患于未然”,對于數(shù)據中心日常的(de)周期巡檢是不(bù)可缺少的(de)。通過周期巡檢,及時發現一些運行(xíng)隐患,然後排除,可以大大降低數(shù)據中心發生嚴重故障的(de)可能性。周期巡檢可以包括對各種設備的(de)檢查,環境的(de)檢查,電源、空調設備的(de)檢查,填寫日常巡檢記錄表,檢修記錄,作業操作表等等。通過以往記錄的(de)數(shù)據進行(xíng)綜合分析,一旦某些數(shù)據有波動或者異常,應該及時采取有效措施,避免隐患引發故障。通過周期巡檢也可以對整個(gè)數(shù)據中心有個(gè)全面的(de)了解,一旦要進行(xíng)系統改造或者擴容等工作,有了前期這(zhè)些巡檢數(shù)據參考,制定的(de)改造或擴容方案才更有針對性。千萬不(bù)要以為(wèi)周期巡檢隻是記錄一些設備運行(xíng)的(de)基本參數(shù),通過這(zhè)些參數(shù)可以看到整個(gè)數(shù)據中心的(de)運行(xíng)狀态。對于一個(gè)剛從事運維的(de)新(xīn)手來說(shuō),通過周期巡檢可以迅速了解到數(shù)據中心的(de)各個(gè)環節,獨立展開維護工作。

總結


工程文檔、業務(wù)備份、在(zài)線監測、周期巡檢是數(shù)據中心運維工作的(de)四個(gè)重要方面,隻有做(zuò)好(hǎo)(hǎo)這(zhè)四個(gè)方面的(de)工作,才能讓數(shù)據中心保持長(cháng)期穩定運行(xíng),并能産生良好(hǎo)(hǎo)的(de)效益,是數(shù)據中心運維水(shuǐ)平高(gāo)低的(de)主要體現,擁有這(zhè)四大法寶,将使數(shù)據中心終身(shēn)受益。

微信掃一掃

關注昊雲訂閱号

服(fú)務(wù)項目

維保運維服(fú)務(wù)

信息系統集成服(fú)務(wù)

機房(fáng)搬遷服(fú)務(wù)

 
 
 
QQ 在(zài)線客服(fú)
QQ 在(zài)線客服(fú)
 
電話:
0531-88818533
客服(fú)QQ
2061058957
1905215487