從數(shù)據(jù)中心的日常業(yè)務(wù)運(yùn)維方面考慮,則主要有日常檢查、應(yīng)用變更、軟硬件升級、突發(fā)故障等
1、日常檢查:
任何的故障在出現(xiàn)之前都可能會有所表現(xiàn),小的隱患不消除,可能導(dǎo)致重大的故障出現(xiàn),所以數(shù)據(jù)中心日常的例行檢查可以及時(shí)發(fā)現(xiàn)一些運(yùn)行中的隱患。根據(jù)數(shù)據(jù)中心承載業(yè)務(wù)重要性的不同,要對數(shù)據(jù)中心里的所有運(yùn)行的設(shè)備進(jìn)行例行檢查。檢查服務(wù)器應(yīng)用服務(wù)是否正常,CPU內(nèi)存等利用率是否正常。對應(yīng)用業(yè)務(wù)進(jìn)行檢查,看業(yè)務(wù)運(yùn)行是否正常。還有對數(shù)據(jù)中心的機(jī)房環(huán)境也要進(jìn)行檢查,環(huán)境的溫度、濕度、灰塵是否合乎要求??照{(diào)、供電系統(tǒng)進(jìn)行運(yùn)行良好,設(shè)備運(yùn)行是否過熱,地板、天窗、消防、監(jiān)控都是檢查的部分??照{(diào)漏水、設(shè)備漏電都會對數(shù)據(jù)中心正常穩(wěn)定運(yùn)行產(chǎn)生危害,既要人為定期檢查也需結(jié)合自動化運(yùn)維工作進(jìn)行提前事前預(yù)警。
2、應(yīng)用變更:
數(shù)據(jù)中心承載的業(yè)務(wù)不會是一成不變的,隨著業(yè)務(wù)的多樣化和不斷發(fā)展,經(jīng)常要對業(yè)務(wù)進(jìn)行調(diào)整,包括服務(wù)器和網(wǎng)絡(luò)的設(shè)置。對服務(wù)器和網(wǎng)絡(luò)設(shè)備操作進(jìn)行相應(yīng)的調(diào)整。根據(jù)應(yīng)用的需要,及時(shí)準(zhǔn)確做出變更。
3、軟硬件升級:
數(shù)據(jù)中心的設(shè)備一般運(yùn)行周期為3-5年,不斷地有設(shè)備需要逐漸淘汰進(jìn)行更換,也有一些設(shè)備因?yàn)榇嬖谲浖毕菪枰墸虼塑浻布壱彩蔷S護(hù)工作的一部分。軟硬件升級時(shí)需要做好回退機(jī)制,以防升級出現(xiàn)問題時(shí)無法回退,業(yè)務(wù)長時(shí)間無法恢復(fù)。
4、突發(fā)故障:
沒有任何一個(gè)數(shù)據(jù)中心是不出故障的,對于突發(fā)故障,我們將結(jié)合整體架構(gòu)分析故障的觸發(fā)原因,迅速找到解決的方法,如果在短時(shí)間內(nèi)找不到解決方法,也可以通過切換到備用設(shè)備上先恢復(fù)業(yè)務(wù),再進(jìn)行分析。數(shù)據(jù)中心日常維護(hù)工作實(shí)際上非常重要,關(guān)乎著整個(gè)數(shù)據(jù)中心業(yè)務(wù)的正常運(yùn)行。通過多種組合方式保障數(shù)據(jù)中心根據(jù)運(yùn)行情況,在事后及時(shí)調(diào)整架構(gòu)也方便進(jìn)行下一個(gè)階段的規(guī)劃。