應(yīng)急處理案例-某乳制品股份公司緊急搶修
應(yīng)急處理案例-某乳制品股份公司緊急搶修
事故情況:
由于建筑管道漏水,導(dǎo)致機房遭受大面積積水以及部分服務(wù)器和小部分存儲設(shè)備受到間接性進水的情況發(fā)生。相關(guān)業(yè)務(wù)系統(tǒng)及應(yīng)用暫停,情況緊急,屬重大事故。
事故發(fā)生時間為凌晨1:00。
應(yīng)對情況:
接到通知后,公司啟動應(yīng)急預(yù)案。
① 由于未簽署駐場服務(wù),派遣專業(yè)工程師前往事故現(xiàn)場,協(xié)助機房工作人員進行緊急處理工作,并負責(zé)統(tǒng)計機房受災(zāi)情況。
② 派遣專業(yè)工程師和庫房工作人員組成應(yīng)急工作小組,前往備件庫房檢查并測試相關(guān)備機,并保持最佳狀態(tài)。
③ 事故現(xiàn)場工程師統(tǒng)計機房受災(zāi)情況完畢后,立刻劃分受災(zāi)服務(wù)器故障等級,并制定簡略應(yīng)急維修方案。
④ 備件庫房應(yīng)急工作小組,根據(jù)現(xiàn)場工程師制定的應(yīng)急維修方案攜帶備件服務(wù)器以及相關(guān)維修設(shè)備前往事故現(xiàn)場。
⑤ 指揮并協(xié)助機房工作人員對事故現(xiàn)場進行適宜處理,使機房盡快恢復(fù)正常工作狀態(tài)。
⑥ 對故障等級低的受災(zāi)服務(wù)器由專業(yè)工程師進行快速維修,并恢復(fù)運行狀態(tài),從而恢復(fù)部分業(yè)務(wù)和應(yīng)用的正常使用。
⑦ 對故障等級高的受災(zāi)服務(wù)器由應(yīng)急工作小組進行簡單包裝后帶回維修中心,進行進一步檢測,并加急維修。
受災(zāi)統(tǒng)計及結(jié)果:
① 本次受災(zāi)情況屬重大事故,受災(zāi)服務(wù)器達到10余臺,其中情況嚴重的包含處理業(yè)務(wù)的小型機,公司存儲數(shù)據(jù)的存儲服務(wù)器以及作為臨時業(yè)務(wù)工作備份服務(wù)器的兩臺NAS網(wǎng)絡(luò)存儲和個別應(yīng)用服務(wù)器。
② 由于我公司搶救及時,使得部分應(yīng)用于事故發(fā)生后2個小時候恢復(fù)運行。對受災(zāi)嚴重的存儲服務(wù)器,進行加急數(shù)據(jù)恢復(fù)工作,并保證了數(shù)據(jù)的完整性,使企業(yè)避免遭受更大的經(jīng)濟損失。
③ 因為本次有效及時的應(yīng)對措施,和扎實的專業(yè)能力,使得我公司與該企業(yè)落實了長期合作關(guān)系。
附企業(yè)機房服務(wù)器故障應(yīng)急預(yù)案(簡版)
1 目的
為提高處理公司服務(wù)器故障的能力,形成科學(xué)、有效、反應(yīng)迅速的應(yīng)急工作機制,確保公司各系統(tǒng)的安全和高效,最大限度地減小服務(wù)器故障對生產(chǎn)的影響,保護公司利益,特制定本預(yù)案。
2 適用范圍
本預(yù)案適用于公司局域網(wǎng)中提供公共服務(wù)的服務(wù)器發(fā)生和可能發(fā)生的故障。
3 預(yù)防機制
服務(wù)器故障預(yù)防措施包括分析風(fēng)險,建立檢測體系,準(zhǔn)備應(yīng)急處理措施,控制影響擴大。
3.1 服務(wù)器故障分類
服務(wù)器硬件或軟件的故障;自然災(zāi)害(水、火、電等)造成的物理破壞;電腦病毒等惡意代碼危害等。
3.2 具體措施
(1)建立安全、可靠、穩(wěn)定運行的機房環(huán)境,防火、防雷電、防水、防靜電、防塵;建立備份電源系統(tǒng)。
(2)服務(wù)器采用可靠、穩(wěn)定硬件,落實數(shù)據(jù)備份機制,遵守安全操作規(guī)范;安裝有效的防病毒軟件,及時更新升級掃描引擎。
4 有關(guān)應(yīng)急預(yù)案
4.1 機房漏水應(yīng)急預(yù)案
(1)發(fā)生機房漏水時,第一目擊者應(yīng)立即通知相關(guān)人員,相關(guān)人員接報后應(yīng)立即前往事發(fā)地。
(2)若空調(diào)系統(tǒng)出現(xiàn)滲漏水,相關(guān)人員立即通知企管部進行處理,并及時清除機房積水。
(3)若墻體或窗戶滲漏水,相關(guān)人員立即采取有效措施確保機房安全,同時通知企管部,及時清除積水,維修墻體或窗戶,消除滲漏水隱患。
4.2 機房長時間停電應(yīng)急預(yù)案
接到長時間停電通知后,相關(guān)人員應(yīng)及時部署應(yīng)對具體措施,啟動備用電源,保證服務(wù)器正常運行。
4.3 服務(wù)器硬件故障應(yīng)急預(yù)案
(1)核心服務(wù)器雙機配置,配置好備用服務(wù)器,隨時待命。
(2)發(fā)生服務(wù)器硬件故障后,相關(guān)人員應(yīng)及時查找、確定故障原因,進行先期處置。若故障服務(wù)器在短時間內(nèi)無法修復(fù),相關(guān)人員應(yīng)啟動備用服務(wù)器,保持局域網(wǎng)系統(tǒng)的正常運行;將故障服務(wù)器脫離網(wǎng)絡(luò),進行故障排除工作。
(3)服務(wù)器硬件故障預(yù)防與排除參考附件1。
4.4 服務(wù)器軟件系統(tǒng)故障應(yīng)急預(yù)案
(1)做好服務(wù)器軟件系統(tǒng)的定時備份,系統(tǒng)崩潰后,能夠及時恢復(fù)系統(tǒng)。
(2)發(fā)生服務(wù)器軟件系統(tǒng)故障后,相關(guān)人員應(yīng)檢查出現(xiàn)故障的原因并盡快排除。
(3)如遇服務(wù)器系統(tǒng)崩潰,應(yīng)啟用備份系統(tǒng)進行恢復(fù)。
(4)服務(wù)器軟件故障預(yù)防與排除參考附件2。
附件1:
服務(wù)器硬件故障預(yù)防與排除
1 故障預(yù)防
公司主要應(yīng)用系統(tǒng)服務(wù)器進行雙機配置。公司主要系統(tǒng)服務(wù)器擔(dān)任了供應(yīng)系統(tǒng),銷售、生產(chǎn)系統(tǒng),OA系統(tǒng)等服務(wù)器角色,機器需要24小時運行,使用率極高,老化快。為了安全,建議配置相同硬件的服務(wù)器為備用控服務(wù)器。當(dāng)使用的服務(wù)器出現(xiàn)不可恢復(fù)的硬件故障時,馬上啟動備用服務(wù)器,從而減小服務(wù)器硬件故障風(fēng)險。
2 故障排除
當(dāng)服務(wù)器出現(xiàn)硬件故障,通過以下步驟排除:
(1)確定故障原因。依次查看電源、硬盤、內(nèi)存、主板、處理器等,如條件許可,可使用替換法檢測各硬件。
(2)恢復(fù)固件缺省配置。比如去除第三方廠商備件和非標(biāo)配備件;清除CMOS,恢復(fù)資源初始配置。
附件2:
服務(wù)器軟件故障預(yù)防與排除
1 故障預(yù)防
1.1 服務(wù)器初始狀態(tài)備份
安裝配置好服務(wù)器軟件系統(tǒng),經(jīng)測試能夠正常投入生產(chǎn)使用后,用GHOST軟件備份好服務(wù)器系統(tǒng)。備份文件本機一份,光盤或移動存儲一份。
1.2 服務(wù)器實時狀態(tài)備份
公司局域網(wǎng)中服務(wù)器的系統(tǒng)及相應(yīng)的數(shù)據(jù)庫會周期更新一次,備份文件本機一份,光盤或移動存儲一份。
2 故障排除
服務(wù)器軟件系統(tǒng)出現(xiàn)故障,先對服務(wù)器系統(tǒng)查毒,升級相關(guān)系統(tǒng)軟件,若故障依然存在,通過以下步驟排除:
(1)用備份系統(tǒng)還原服務(wù)器系統(tǒng)。GHOST文件還原服務(wù)器系統(tǒng)的初始狀態(tài),進入“目錄服務(wù)還原模式”還原系統(tǒng)實時狀態(tài)。
(2)重新安裝配置服務(wù)器。若備份系統(tǒng)還原系統(tǒng)失敗,必須重新安裝服務(wù)器系統(tǒng)。