時間:2022-07-29 04:07:26
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇機房應急演練總結范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
中國建筑技術集團有限公司、廈門科華恒盛股份有限公司、北京時代飛揚科技有限公司、北京嘉華時展有限公司,以及北京郵電大學、北京交通大學等技術和高校代表參加了此次沙龍活動。
北京交通大學信息中心主任賈卓生以《機房與數據安全應急演練》為題,展開演講。據他介紹,北京交通大學信息化辦公室于2016年期末組織了校首次信息系統及數據安全應急演練,旨在摸清學校信息系統數據日常備份情況、檢驗各單位信息系統數據備份的有效性。隨著學校網絡規模的不斷擴大、網絡承載信息的不斷增多,信息中心組織并開展了信息系統及數據安全應急演練。通過模擬機房突發火災,確保系統的異地備份數據可用,不斷增強信息系統數據的安全意識和應急處理能力。
信息化辦公室于2016年上半年向學校部處各級學院了《關于組織北京交通大學信息系統及數據安全應急演練的通知》,安排部署應急演練的相關事宜。演練假想服務器機房發生火災,導致服務器及其上的數據無法使用。學校通過購買新設備后,需要利用原有異地備份的數據在新設備上進行系統恢復重建。
在參與演練的信息系統中,數據容量為TB數量級的系統有多個,包括信息中心的郵件系統、教務處的課程平臺系統、物流VOC數據采集與監控系統、信息中心的日志系統。所有90多個系統總的數據量接近200TB。
在演練過程中,恢復系統所需時長最長的為教務處的教務系統、畢業論文系統、大創項目系統,因為操作系統出現問題,重新安裝系統花費了10多個小時,系統總恢復時長約為30小時。其他系統,如計財處的各系統大約需要12小時,招生就業處的招生資訊網需要3個小時,信息中心的OA系統約需9小時,一卡通相關各系統、郵件系統、Mis系統、科研系統等均需2至3個小時。
賈卓生總結,通過此次演練,摸清了各單位的情況,暴露出一些系統的數據備份機制存在比較大的問題:有些系統沒有或很少做數據備份;有些系統只有簡單的本機備份,沒有異地備份;有些系統有異地備份,但從未檢驗過備份數據的可用性等等。信息化辦公室通過此次演練了解各單位的備份需求,對于今后籌建規范化備份機制打下了工作基礎。
目前,北京交通大學已擴容了異地容災備份的存儲空間,同時開通NAS存儲,使所有系統管理員(包括部處和學院)都能夠自己備份數據到異地容災系統中;部署數據備份軟件,自動備份所有數據和系統;各類系統向云平臺遷移,利用云平臺本身的鏡像備份功能,可快速恢復系統。同時兩套云平臺互為備份,避免雞蛋放在一個籃子里的問題。
事實上,高校機房建設、規范、維護及數據安全的問題一直存在,各院校因其信息化水平和實際使用情況不同,表現出了不同的需求。
中國建筑技術集團有限公司高級售前經理趙凱介紹,數據中心基礎設施的范圍包括:門禁安防系統、消防滅火系統、機房環境監控系統、樓宇自控系統、裝飾裝修系統。而造成數據中心設施維護風險的原因包括:不當運行維護操作、設備產品自身的故障和不科學的維護管理制度。根據專業機構統計,數據中心設施運行風險中,約70%的基礎設施故障是人為失誤造成的;僅有30%是由于設備自身造成的。對于數據中心用戶而言,通過健康評估和項目整體維保的方式,能夠提前發現設施存在的風險,及時采取有針對性的措施加以預防和解決。
數據中心整體維保,是站在整體系統而非設備的層面考慮數據中心的安全運行,由優秀第三方提供7×24小時技術支持與維修,對設備和環境進行調整配合,設備定期維護保養,災變應急處理等。在整體維保服務中通過響應及時、管理規范、運行安全、資源可用的要求,實現“事前防范,風險前移;事中控制,快速響應;事后改進,持續評估”的持續改進原則。
廈門科華恒盛股份有限公司技術總監楊平以“提升數據機房全生命周期可靠性”為題,分享了國家開放大學、北京回龍觀中學、三峽大學智慧校園等案例。其中,科華恒盛微模塊數據機房為三峽大學智慧校園機房建設提供了一個集成配電系統、UPS系統、精密空調系統及冷通道系統等系統的整體解決方案,打造高效節能、智能簡捷和極具擴展性的綠色數據中心。
【關鍵詞】業務連續性管理體系;業務影響分析和風險評估;矩陣模型分析法
一、引言
2011年銀監會向全國商業銀行等金融機構下發《商業銀行業務連續性監管指引》(銀監發〔2011〕104號,以下簡稱:《指引》),從業務連續性組織架構、業務影響分析、業務連續性計劃與資源建設、業務連續性演練與持續改進、運營中斷事件應急處置等幾個方面指導國內金融機構建設業務連續性管理體系。自發文以來,國內銀行一直根據監管的要求建立符合自身發展的業務連續性管理體系,然而,業務連續性管理體系的建設涉及面廣、建設周期長,從“軟件”方面來看,涉及現狀調研、方案及計劃制定、業務影響分析和風險評估、重要業務范圍界定、制度建設、總體和專項應急預案建設、演練等內容,從“硬件”方面來看,涉及數據中心及災備中心建設,需要大量的資金及時間等資源的投入,雖然《指引》發文已5年有余,但極少數銀行可以完全按照監管的要求建立全面健全的業務連續性管理體系。本文以某銀行業務連續性管理體系建設為研究背景,總結業務連續管理體系建設過程中的重點及難點并提出解決思路,為國內銀行同業提供參考方法。
二、業務連續性管理體系建設重、難點解決措施
在業務連續性管理體系建設實踐中,組織架構、業務連續性計劃、業務連續性應急預案等工作實施難度較低,難點在于業務影響分析、總分行資源建設、業務連續性演練等工作,本文著重介紹上述難點的建設過程。
(一)業務影響分析
業務影響分析的主要目標是幫助銀行通過識別和評估業務運營中斷造成的影響,明確業務連續性管理重點,根據業務重要程度進行差異化管理,制定不同業務的恢復目標、恢復次序、確定支持重要業務對應的信息系統的恢復目標,其主要工作包括2個方面的內容,一方面是現狀調研,另一方面是業務影響分析和風險評估。在現狀調研階段,由于該項工作涉及全行所有業務以及大部份部門,可采取培訓、訪談、召開研討會、調查問卷等方式,逐步推進工作開展,初步梳理出重要業務清單。在業務影響分析和風險評估階段,結合國內外先進實踐經驗,采取財務影響和非財務影響兩個維度對初步梳理出來的各項業務進行風險評估。財務影響和非財務影響均采用評分制,其中,財務影響主要評估該項業務中斷一個工作日給銀行帶來的收入損失,可根據銀行自身業務收入水平設置分值,該項指標是較為客觀的估值;非財務影響則綜合評估該項業務中斷可能給銀行帶來的影響,如:監管負面影響、聲譽損失、客戶負面情緒、投資者信心/忠誠度降低、法律/訴訟風險、國家金融秩序穩定等,該項指標具有一定的主觀因素,為避免主觀因素影響程度過大,可采取兩種方式降低影響:一是擴大調查問卷的樣本量,二是對非財務影響的各個要素設置權重值,對財務影響及非財務影響設置綜合評分規則。特別地,對于后臺運營類、渠道類業務(比如:自助銀行業務),雖然不直接產生業務收入,但它是其他業務產生收入的必要條件之一,對于此類業務計算該渠道所承載的各業務種類收入之和作為該渠道的業務收入。在確定各項業務的財務影響和非財務影響指標基礎上,采取矩陣模型分析法進一步確定業務恢復的優先順序。在確定業務恢復的優先順序的基礎上,進一步確定該業務對應的信息系統恢復目標,以指導關鍵信息系統的資源建設。《指引》要求,“原則上重要業務的RTO不得大于4小時,重要業務的RPO不得大于半小時”,在信息系統資源建設中,關鍵信息系統的恢復能力應滿足重要業務RTO、RPO的時效要求。
(二)總、分行資源建設
業務連續性資源建設屬于“硬件”設施范疇,主要涉及總行同城、異地災備中心以及分行機房設備的建設。在總行層面,同城、異地災備中心應建立重要信息系統的備份,在日常工作中應加強對災備中心機房的巡檢,確保系統正常運行。在分行層面,應從供電、網絡、系統建設等方面實現全方位的應急措施,比如在供電環節,分行除配置雙線路供電外,還要配備不間斷電源(UPS)和應急發電機;在網絡連接環節,不僅要配置不同運營商的網絡線路,還要配置無線設備,確保在極端情況下仍能保障重要業務持續運營。
(三)業務連續性演練
雖然《指引》對國內商業銀行開展業務連續性演練的具體方式未作硬性要求,許多銀行在演練環節采用較為簡單的桌面演練以應付監管的要求,這種方式雖然成本較低,但效果不好,難于檢驗應急預案的可行性,在實踐中,某銀行根據業務重要程度有針對性地對重要信息系統開展實戰演練,在業務量較小的時間段將生產系統切換至災備中心系統上運行,平時不斷總結經驗,實踐證明,這種方式能夠較好地應對突發狀況。另外,許多銀行在開展應急演練時,未要求業務關聯方參與,《指引》明確規定,“商業銀行應當將外部供應商納入演練范圍并定期開展演練;同時,應當積極參加金融同業單位、外部金融市場、金融服務平臺和公共事業部門等組織的業務連續性計劃演練,確保應急和協調措施的有效性”,因此,在開展應急演練時應將關聯第三方納入演練范圍,注重演練的實質而非形式。
三、結束語
本文根據實踐經驗,對商業銀行業務連續性管理體系建設過程中的重點、難點提出建議和方法,在業務影響分析環節提出按照財務影響和非財務影響來區分重要業務的分析方法,為梳理出業務恢復優先順序提出矩陣模型分析法,實踐表明,可順利、高效地完成業務連續性管理體系的建設,有效降低重要業務中斷風險,提高業務風險應對能力,滿足《指引》對商業銀行建設業務連續性管理體系的要求,對國內銀行建設業務連續性管理體系具有參考意義。
參考文獻
[1]中國銀監會.商業銀行業務連續性監管指引[Z].
[2]劉杰.銀行業務連續性管理體系建設方法研究[J].時代金融,2014(2).
由于近日大范圍持續降雨,梅州也將迎來臺風、暴雨、洪水的多發季節,為確保汛期網絡通信工作的正常運行,無線優化中心領導對此高度重視,提前安排,多項措施并舉,加強防汛值班,明確防汛重點部位,制定防汛措施。
防患於未然,加強通信基站隱患、缺陷巡檢。配合各縣公司開展通信隱患排查工作,安排維護人員分組對轄區內的機房設備、線路、油機等,尤其是汛區周圍重要機房進行重點排查;通過巡查及時發現隱患問題,各縣公司把控跟進整改情況,限時對整改情況進行上報。開展油機維護、空調維護、二次下電整改等一系列專項行動,并制定了相應的考核辦法,確?;驹O備安全穩定運行。
未雨綢繆,做好應急準備。提前儲備防汛應急通訊工具,調配應急車輛,對已有物品進行檢修、維護、保養。汛期前要求一體化維護對所有油機進行了一次檢修保養,確保油機正常啟動發電。通過對全市基站進行梳理,重點基站進行重點保護;總結歷年經驗,完善防汛應急預案,并結合實際組織進行防汛應急預案演練,確實提高班組應急處置能力。遵循先搶通,再搶修的原則,采用備用器件、備用線路、備用配件等恢復通信功能,然后再對原故障點進行搶修。
關鍵詞 信息化;機房管理;維護
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2016)172-0180-05
現今,伴隨著信息技術的高速發展,特別是在“新醫改”的背景下,各地醫療機構正加速實施基于信息化平臺、HIS系統的整體建設,以提高醫院的服務水平與競爭力。通過信息化的建設,醫院不僅可以提高醫生的工作效率,使醫生有更多的時間為患者服務,從而提升患者的滿意度,同時樹立起醫院良好的現代化服務形象。
為了要實現醫療業務應用與基礎網絡平臺的逐步融合,實現醫院各部門之間乃至各醫院之間信息數據的存儲、處理和交換,并滿足所有授權用戶的功能需求,保證數據傳輸的高效性、穩定性以及數據的安全性,就必須建設一定規模的科學規范的機房,對數據的處理和存儲進行集中管理,安全災備,降低運維成本。
然而,隨著計算機技術的日新月異,網絡的蓬勃發展,機房也在不斷地迅速地變換著它的樣子。但是無管它最終形態如何,對機房的管理與維護是必不可少的。本文分析了機房的現狀與發展,闡述了機房管理與維護的重要性,對機房的管理與維護進行探討,提出一些淺見。
1 機房的發展與現狀
1.1 機房的定義
機房,通常是指在一個物理空間內實現信息的集中處理、存儲、傳輸、交換、管理等;它是由硬件、軟件以及網絡布線組成的一個核心體系。
硬件主要由服務器、磁盤存儲陣列、交換機、防火墻、網關、UPS、空調與加濕器、防雷等設備組成;軟件則根據各行業的不同而有所差別?,F行醫療行業主要包含有HIS、PACS、EMRS、RIS、LIS等。機房通過高速網絡與下行或并行的各個節點相連接,是整個網絡體系的中樞。
1.2 機房的發展
機房始于20世紀中期,伴隨著計算機的產生而應運而生,并與國家計算機和經濟的發展息息相關。我國機房的發展大致可分為4個時期。
1.2.1 前期機房(1960―1980)
前期的機房并沒有統一的標準,結構單一,完全是在摸索中建設的。由于這時期技術還不成熟,對機房環境要求非常高,入門需要換衣換鞋,風淋除塵,少量灰塵都會導致設備故障。因此,這時期的機房設備故障率很高。當然,早期的計算機性能也是因素之一。
1.2.2 中期機房(1980―1990)
中期機房已在逐步摸索中慢慢地建立起了標準,包括機房選址、面積等。機柜的應用也使得機房設備有了屬于自己的一片花園。此外,機房環境也有了大大的改善。不僅采用了防靜電地板,恒溫恒濕的專用空調機,還引進了UPS,在消防系統、除塵應用方面也引入了新的理念。
1.2.3 近代機房(1990―2000)
這時的計算機技術已經非常成熟,IT設備逐漸小型化,服務器逐步成為主體,多臺計算機、服務器互聯共享猶如雨后春筍。數據安全也隨著存儲介質水平的提高而得到進一步的保障。恒溫恒濕的專用空調、UPS的廣泛使用,防雷標準的完善,綜合的監控系統的出現,使得機房設備運行更加穩定、可靠。但與此同時,機房的理念也悄然發生了變化。
1.2.4 現代機房(2000年至今)
跨入了新世紀,IT技術及網絡通訊技術持續快速發展,不斷創新、革命,計算機在業務中的應用比計算機本身更受關注。機房技術在結構布局、供配電、制冷、監控管理等方面也產生了巨大的變化,特別是NCPI理念的引入,是第一次以系統性的思維方式、系統性的研究方法去看待IT基礎設施。受數據中心概念的引入,智能建筑和效能理念的影響,目前機房正向著模塊化、智能化、節能化等方向邁進。
2 機房管理與維護的重要性
不管是什么時期的機房,加強對機房的安全管理與維護都是十分重要的。
機房就像人的心臟一樣,必須時刻地、有條不紊地跳動著。一旦故障或停止,就會影響到整個網絡系統的運行,破壞醫院乃至數家醫院的數據傳輸、存儲,對數據安全構成威脅,甚至造成醫院運營癱瘓等不可估量的嚴重后果。
其一,機房是網絡主要設備和重要數據存儲的物理存放處,加強對機房的管理與維護是確保網絡功能和安全的基礎。如果機房的設備,如核心交換機、服務器等感染病毒或物理損壞,會導致數據丟失、無法存儲,甚至導致整個網絡的崩潰。因而,實予有效措施,管理好機房的每臺設備,確保每一條網絡線路暢通,保證良好的機房環境,才能保障機房發揮其主要的功能和作用。
其二,隨著遠程會診、移動醫療護理、App服務業務的興起,醫院的應用功能系統越來越多,且復雜,對機房進行管理與維護,可以有效區別網絡功能,使網絡能更好地發揮其預定的功能和價值。
其三,對機房進行科學、規范的管理與維護可以提高機房的利用率,延長機房設備的使用壽命,降低設備的更換率,進而節約機房的投資成本。
其四,對機房科學、有效的管理與維護還可以提高整個網絡的運作效率,從而減輕機房管理員與維護人員的工作負擔,降低工作難度,同時讓終端用戶的醫護人員更加得心應手,提升他們對信息工作人員的認可度與滿意度。
總之,在信息化程度越來越高的今天,醫院對于網絡、網絡應用以及信息安全具有較以往更高的要求,而機房作為整個信息網絡工程的核心,聯系著醫院生存的命脈。科學、規范、有效地管理、維護好機房就等于把握了醫院的未來。
3 機房的管理與維護
機房的管理與維護其實既是一個整體也有一定區分。它們的區別就好比宏觀和微觀的區別;管理是對大方向的掌控、分類,維護則是精細化、落到細處。
3.1.3 應急預案
無論是多么完善的管理,都難免因人為或不可抗力而發生“特殊情況”。所以,為了避免在出現問題的時候措手不及,在管理機房的同時,也應制定相應的應急預案,以保萬全。
目前有很多單位人員,包括院領導,都認為一旦機房出現問題,是信息中心的問題,所以制定與實施應急也是全部屬于信息中心。這種觀點大錯特錯。因此,制定與實施應急預案必須注意以下幾點:
1)預案制定。由于醫院的所有應用都是基于信息化,所以制定預案無疑必須以信息中心為中心,并由包含信息中心管理員在內的核心人員制定。
2)指揮中心。所謂“蛇無頭不行”,所以在預案中一定要明確總指揮小組與其責權范圍,為之后預案的實施做好有力的領導、協調作用以及權責分配。
3)涉及面。雖然機房確實是屬于信息中心,但出現問題后其波及面是非常廣的。所以,為了保證應急時各部門運作正常,不影響醫院的整體運營,應急預案的制定必須要包含事件所波及的各個科室,對各科室的應急工作做好統籌,制定流程與措施,為實施時能協調并進做好準備。
4)災后重建。在問題解決后,重建是非常重要的。所以,重建也應包含在預案當中。重建應包含兩部分。一是對數據的補全。對應急期間信息系統內缺失的病人信息、各類費用進行補入、補收。一是對應急的反思,總結經驗,完善預防措施。
3.2 機房的維護
在高效的管理背后,剩下的就是有效的機房維護了。機房的維護涉及很多細節方面,需要認真對待。
3.2.1 日志
日志是機房管理及維護的“監控者”。它讓機房管理員以及醫院管理者有跡可尋、有事可查、有據可依,總結工作經驗,有利于推進信息化建設深入開展,它是解開一切繁瑣的、未解的疑難雜癥的重要手段之一。此外,通過日志的分享,還有利于促進技術人員之間的相互學習與交流,推廣工作經驗。因此,必須養成記錄日志、瀏覽日志、查詢日志的良好習慣。
日志一般可分為以下幾類:
1)日常巡檢日志。日常巡檢日志主要是對機房進行日常巡查情況的記錄。它包含有:服務器等網絡設備的總體運行狀態、機房溫濕度、儀表盤清晰度、環境清潔度、照明、噪音、消防、供斷電情況等等。當然,還有故障排除和處理情況、演練情況也應記錄在此日志上。此日志由機房管理員每日進行巡查并手工記錄在案。雖然是人工的,但是這樣做有利于機房管理員切身感受機房環境,真實了解機房里的總體情況,為管理員積累寶貴經驗。
2)機房日常出入日志。門禁系統雖然也有記錄機房進出的時間,但是不夠完善。于是此日志就填補了該系統的不足。它手工詳細記錄了進出機房人員的姓名、出入時間、出入事由,并且由機房管理員和出人人員親筆簽名,以保證信息的準確無誤。
3)系統運行日志。系統運行日志主要是對各應用系統的日常運行情況的記錄。它是由系統自動生成的。瀏覽和查詢這些日志有利于機房管理員及時了解當前系統的運行狀態和出錯詳情,及時解決出現的問題,謹防系統崩潰。
4)軟、硬件升級日志。此日志是在機房變遷、硬件變更、軟件升級等情況下,由管理員手工備記在案的。這樣做,一方面有利于機房管理員或醫院各級領導了解機房的信息化建設的進展情況;另一方面,在更新出現問題的時候,能及時找到截點,對癥下藥,從而有針對性地指導網絡運維保障工作。
5)災備日志。災備是對“人為”或“不可抗力”的災難的一種預防措施。日志即記錄了這些災備的情況,包括備份的大小、時間、份數、位置以及所含的程序等。詳細記錄、整理災備的日志,有利于在緊急情況下縮短查找備份的時間,有條不紊地恢復預定的文件備份。
3.2.2 防病毒、防攻擊
隨著網絡的飛速發展,以網絡為主要載體的計算機病毒的威脅已日趨嚴重。病毒不僅破壞力強、變異性好、傳播性強,而且擴散面廣,傳播速度快,一旦中招,難以徹底清除。所以,為保障醫院內部數據的安全,機房防毒防攻擊必不可少。防范措施主要有以下幾點:
1)安裝軟件。機房里服務器等各設備應部署防毒防惡意代碼軟件,并定期對其進行病毒庫或系統模塊升級,保證它們處于最新功能狀態。同時,由于現行的各類應用軟件,有很多都有捆綁其他軟件,有的甚至含有惡意代碼或病毒,所以盡量安裝國家許可、授權的正版軟件,并對要安裝在服務器上的軟件進行甄別、查殺。
2)系統檢測。除了保持病毒庫的最新日期外,還需要定期對系統進行病毒檢測和查殺,及時清理病毒或可疑文件。如果發現有不能徹底清除或仍存在安全的隱患時,應及時進行上報。此外,還應定時升級操作系統的安全補丁,封堵系統漏洞。
3)存儲介質。為確保數據的安全,嚴禁使用來歷不明或無法確定其是否含有病毒的存儲介質。若確需安裝使用,安裝前應進行病毒檢測;確認無病毒后方可使用。
4)人員意識。機房管理員及相關技術人員應當具備有較強的病毒防范意識,應隨時了解和掌握最新的病毒發展趨勢以及相應的處理方案,還需根據不同病毒的發作條件及發作時間、周期、特征,建立病毒預警機制,作好提前防范和日常監控工作。
3.3 災備
災備,災難備份的簡稱,是利用技術、管理手段以及相關資源確保關鍵數據、系統、業務在災難發生時、發生后可以恢復的過程。它是為應對機房在人為或不可抗力而造成非計劃宕機和災難損失的一種未雨綢繆的自我保護的重要手段之一。
1)災難分析。形成災難的原因可分為人為因素和不可抗力因素。
人為因素常常是由于個人的技術不足或人為疏忽或惡意操作而導致的。此類因素發生幾率高,危害的表現形式也比較多。它導致重要數據的丟失、泄露,設備、系統功能的故障或喪失等等。
不可抗力因素則包含兩種。一種是設備、線路的老化或者階段性技術的制約等;一種是自然災害。前者發生的幾率較為普遍,但一般是發生在一定的時期內。后者幾率低得多,但是后果比較嚴重,可能直接導致數據信息中心的崩潰或在短時間甚至較長一段時間內無法恢復或重建。
因此為了最大限度的降低醫院重要、敏感數據的丟失、破壞幾率,減少醫院的經濟損失,定時定量進行災備必不可少。
2)災備等級及技術。災備需要考慮的因素很多,包括災備數據量,數據中心與災備中心的傳輸距離、傳輸方式、傳輸速度以及資本投入量等等。常見的災備等級可分為4級:
(1)0級:本地備份、保存的冷備份;(2)1級:本地備份、異地備份的冷備份;(3)2級:熱備份站點備份;(4)3級:活動互援備份。
其所涉及的技術也比較多,包含有SAN或NAS技術、基于IP的SAN的互連技術,遠程鏡像技術、虛擬存儲、技術快照等等。因此,做災備前,一定要先確認自己所要規劃的災備等級,按照對應要求尋求相應的技術支持,進行有效、合理的災備。
3.4 其他
除了以上的維護外,機房的維護還涉及其他很多方面,如理線。
隨著技術水平的提高,各類線材的質量都有飛躍性的進步,線材的質量已不再是人們最關心的問題了,這時,人們的注意力慢慢轉向了布線的美觀。實際上理線的好壞,不僅關系到機房、機柜的美觀,另一方面還可以提高機房管理員的巡線效率,同時也可以防止因線路雜亂而帶來的其他失誤。
常見的理線方式有瀑布式、正向理線式、逆向理線式等。瀑布式理線優點就是省錢省人工,但缺點也是很明顯:雜亂、易被破壞、難分清。逆向理線式優點在于相對清晰,但是這種方式容易產生積線、交叉線。正向理線式是從機房的進線口就開始逐段整理,直到模塊處。其優點就是美觀且保證線纜在每點都整齊,不會產生交叉,但是缺點就是一旦在線路不通就必須重新整線。
因此,采用什么理線方式,得根據機房的規模大小,根據不同的區域進行選擇,并且在理線后打上標簽,這樣不僅提升了機房的美觀,也提高了管理員的管理、維護效率。
4 問題討論
機房的管理和維護除了上述外,目前還有許多其他問題,在這里也進行探討下。
4.1 技術力量的重視
在很多家醫院,其實都有出現這樣一種現象:領導并不重視信息中心,并不診視信息管理人員,也不重視他們技術力量的提升。雖然他們常常把“信息很重要啊”、“你們很重要啊”之類流的掛在嘴邊,但更像是在做演說、走過場。在眾多權衡利弊之下,信息中心通常只有墊背的份。
然而,進入了21世紀,那是信息強時代。信息中心的強弱、技術力量的強弱,直接影響著醫院運作效率的高低,從而影響著經濟效益的厚薄,盡管醫院并不以盈利為目的。
因此,改變對信息中心的看法,對信息管理人員的做法至關重要。機房涉及了多門學科、多方面的知識,機房管理和維護人員要做的事情也是方方面面。所以,醫院在致力于自身醫療管理、醫療服務的同時,也應注意提高機房管理與維護的人員的素質,要有針對性地對機房管理與維護人員展開培訓,使其得到專業能力的發展,使其能獲得與時俱進的新觀念、新知識、新技術,進而更好地為一線服務,創造新的價值。
4.2 個性化機房
個性化機房也是現今機房所倡導的主題之一。KVM系統則是個性化機房的標志之一。
KVM,即keyboard、video、mouse的簡稱,是一種集中式的管理設備。我們最常見的就是KVM SWITCH。通過KVM SWITCH的連接,輕松實現訪問并集中管理機房里的所有服務器,省去了多余的鍵盤、顯示器與鼠標,為機房營造“清心”的環境。
但是,我們常見得是把KVM SWITCH安裝在機房的機架上。雖然這樣確實為管理機房提供了便利,但是每次管理和維護的時候都得進出機房。這樣頻繁進出機房不僅會縮短門禁系統的使用壽命,也使得機房環境難以保障,而且機房管理員如長時間待在低溫機房里工作,會危害他們的身體健康。
所以,可以把KVM SWITCH移動到機房外的監控室或管理人員的辦公室,這樣不僅消除了上述的擔憂,又可以讓機房管理和維護人員在舒適的環境中進行管理和維護,提高了效率。
4.3 節能環保
目前,有不少醫院因為中心機房規模不大,或其他環境因素的制約,并未采用精密空調等高端節能設備。如果對其進行全面改造,無論從安全或是經濟角度都不現實。盡管如此,但是如果能對現有機房的小范圍改造,因地制宜,也能達到預期的效果,實現低碳、節能、環保,同時不用傷筋動骨,節約成本。
以制冷為例,在沒有精密空調的機房里,關鍵問題是一方面如何讓機房空氣循環,達到制冷均勻;另一方面是如何降低冷熱空氣對沖,減少能耗。如果可以把房內熱、冷空氣分離輸出、輸入,先冷設備后冷機房,這樣不僅可以讓設備達到比較好的制冷效果,同時又可以大大降低能耗。當然,方法不止一種。
精密空調確實有其優勢,但是不能讓“廣告”淹沒了現實。有條件的醫院就上精密空調,沒有條件則從現實環境出發,只要設計、配備合理,都可以達到理想的效果。
4.4 應急預案的問題
機房應急預案是針對可能發生的突發事件,為確保迅速、有序、高效地開展應急處置、減少經濟損失而預先制訂的計劃或方案。
在制定預案時,為了避免預案實施中出現不必要的“不適應”,制定預案時需注重完整性、可操作性,應當充分體現應對突發事件各環節的工作,明確各個進程中,誰來做,何時做,調動哪些資源做。
而在實施中,“協調配合”是非常關鍵的。不少醫院在預案的演習或實施中,常常出現滯后現象。科室之間相互配合差,相互推諉、相互指責,不按章辦事,造成預案在實施過程中常常由于某些節點做得不到位而滯后,甚至功虧一簣。
因此,平時應多加強全體職工應急預案的宣傳、培訓工作,提高他們的應急意識和協同工作能力。在實施預案時,各科室必須緊密地、有條不紊地按章合作,領導小組應當充分發揮其強有力的領導、協調作用。只有這樣才能遇急不驚,臨場不亂,處理穩當。
5 結論
機房的管理和維護工作涉及了多方面的知識和技術,且不斷演變、更新。它既雜燴,又專業;既有趣,又辛苦。
因此,在管理和維護工作中,應完善機房管理制度,從實際機房的各個方面著手,制定出一套切實可行的管理和維護方案,并嚴格按照方案內容來實施、進展各項工作,同時做好相關記錄。遇到突發事件,及時上報,冷靜分析,采取有效應對措施解決問題;事后歸納問題源頭,總結經驗,并補入已制定的方案中做日后參考。
此外,機房管理和維護人員并不總能掌握所有的知識與技能,因此要與時俱進,及時了解、分析機房的現時發展和趨勢,吸收各相關方面的新知識、新技術,提高管理和維護水平,并融入日常的機房管理與維護當中去,強化機房日常管理與維護工作,保障機房功能和作用,為醫院打造一個健康、穩定、現代化的信息化綜合平臺。
參考文獻
[1]孫景楓.談計算機機房的維護與管理[J].天津職業院校聯合學報,2008(4):143-144.
【關鍵詞】銀行信息系統 應急演練 綜合評價方法
一、概述
隨著我國金融市場不斷發展,信息系統建設已成為商業銀行核心競爭力之一,信息系統安全直接關乎商業銀行自身利益,甚至影響國家金融安全和社會穩定。要確保信息系統安全穩定運行、保障業務連續性,就必須不斷加強商業銀行信息系統應急管理,提高應急能力。作為應急管理的重要環節,應急演練能夠全方位檢驗商業銀行應急管理能力,驗證應急預案有效性、應急資源完備性及應急人員的適應性。
鑒于此,國家相關部門、各商業銀行高度重視信息系統應急演練工作,銀監會對銀行業信息系統應急演練提出明確要求,涵蓋演練范圍、組織保障、優化改進等多方面[1];各主要國有行業銀行、股份制商業銀行及各地方銀行,都定期開展分重點、分層次、分系統、分階段的信息系統應急演練工作,查找問題,提高處置能力;蘇忠運對大型國有商業銀行一級分行信息系統應急演練工作方法進行探討,提出應急演練策略、工作要求和工作評價方法[2];王鋼對金融信息系統應急演練中的信息管理、資源共享、預案更新等問題進行研究,提出分級響應策略等[3];任長清將銀行災難恢復應急演練分為預警、啟動、恢復、解除和回切等五個階段,提出災難恢復組織、指揮機構、實施原則、演練案例、演練方案和演練培訓等六個重要事項[4];任長清還提出三點估算法,對商業銀行災備組織人員的到位時間進行評估[5]。綜上所述,業內專家和學者在商業銀行信息系統應急演練方面,已開展大量的工作,但這些研究仍存在進一步改進的地方和問題,如應急演練組織有待進一步細化、應急演練結果評價量化等。
二、組織流程
商業銀行信息系統應急演練組織流程如圖1所示,主要包括準備、演練、總結等3個階段。在準備階段,根據演練總體要求及各商業銀行信息系統現狀,做好人員構成、演練范圍、流程規劃、演練環境、故障場景、技術保障等方面的準備工作,做到安全可控前提下,確保盡量逼近真實[2];在演練階段,首先由應急值班人員向應急人員系統預警,通知人員到處置現場進行集結,人員集結后由技術專家向其宣布故障場景,處置人員根據故障場景,按照日常應急預案進行應急處置,處置過程中,考評小組對處置流程、處置方法、處置結果等進行量化打分,并形成演練評估報告;在總結改進階段,要對演練過程、演練結果進行深入總結分析,形成總結報告,對參加演練的應急處置人員進行表彰或提出改進意見,根據演練效果對應急預案做進一步優化。
圖1 應急演練組織流程
(一)準備階段
作為應急演練的組織方,在籌備演練過程中,首先要根據相關法律法規、規章制度以及銀行內部相關規定、管理辦法,綜合參考信息系統應急預案,擬定應急演練工作方案初稿,同時召開應急演練討論會,聽取管理、業務、安全及技術等部門的意見,形成應急工作方案,報上級領導審批同意后形成正式的應急演練工作方案,下發相關干系人。應急演練工作方案要明確演練組織機構、時間地點、參與人員、應用系統、演練流程等要素,明確分工,明晰責任。
構建高效的、完備的組織結構(表1)是演練成功的關鍵因素,通過高層領導推動演練資源準備、實現演練權威性,通過技術專家確保演練演練有效性和可靠性,通過設立工作小組實現演練有序開展,達到演練目標。
表1 應急演練組織結構表
相對機房環境、網絡、操作系統等方面而言,由于銀行業務種類繁多,各信息系統之間應用邏輯復雜、關聯性強,應用級應急演練更具緊迫性。在眾多應用系統中,要選擇以下三類應用系統作為演練的“故障”系統:(1)關鍵業務系統(2)近期有重大變更的系統(3)近期出現生產問題的系統。
評估小組根據應用系統歷史問題、關鍵程序、關鍵路徑制定演練場景,演練場景是各應用系統的“故障”描述,詳細記錄應用系統故障時間、故障部位、故障狀態、故障表現等,這些應用場景所描述故障一旦真實發生,將極大影響生產安全,甚至對業務造成重大影響。同時為確保安全可控,演練場景和相應處置方式對生產不能造成實質性影響,可采取的策略包括:系統維護時間窗口、交易量相對較少時間段、利用備份環境。
技術準備方面,在參加演練人員多、涉及環節復雜情況下,可采用應急短信作為應急通訊方式,及時高效發送應急集結、應急處置通知。應急短信可采用企業專有短信號碼,通過批量短信發送工具發送,應急人員通過短信進行反饋,由信息系統進行智能統計,形成報表。演練環境方面,設立演練各組織結構場地標示,通過投影等方式及時將處置現場傳輸到指揮中心。
(二)演練階段
1.系統預警和人員集結。為全面檢驗應急資源的就緒狀態,盡量做到演練突然性,盡量接近真實狀態,應以系統故障來通知各應急人員盡快趕到故障現場進行應急處置。應急通訊暢通、及時響應能力是應急工作的重要組成部分,需作為演練考評指標之一,由評估小組詳細記錄各應急處置人員的響應時間(表2)。在演練開始后,通過“公告板”等方式實時通報演練進展,營造應急處置的嚴肅、緊張氛圍,逼真模擬故障現場。
2.應急處置。應急人員抵達演練現場后,由技術專家向其說明預設的故障場景,按相關要求進行及時處置。評估小組的技術專家要全程觀察應急處置過程,判斷應急處置是否符合應急預案要求,是否對生產系統產生影響,并采取及時有效措施避免生產事故。在應急處置后,評估小組按照事先擬定規則,對各應急處置模塊進行量化打分。
表2 應急演練各項指標記錄表(樣例)
3.演練評估。演練結束后,評估小組對演練進行綜合評估,應急演練綜合評價方法(Emergency Drill Comprehensive Evaluate Method,EDCEM)就是評估小組對應急演練中的各關鍵項進行綜合評價,通過EDCEM可以得到演練評價結果(Emergency Drill Indicator,EDI),其計算方法如式1所示。其中,xi(xi>0)為各指標項的指標值,響應時間、集結時間、處置情況等;ψi(0?燮ψi(xi)?燮1)為指標值量化關系函數,如對響應時間進行量化,1分鐘以內為100,超過1分鐘為50,超過2分鐘為0;(0?燮ω■?燮1,■ω■=1)為各指標項在評價結果中的權重,權重越大,其在評價結果中所起作用越大。
EDI=100×■ω■Ψ■(x■) (式1)
(三)總結階段
評估小組對應急演練進行綜合評估并報應急領導小組同意后,公布考評結果。由應急領導小組將對演練進行全面總結,對演練整體情況進行點評,對在關鍵方面(如集結時間、處置時間等)表現較好的人員、部門進行表揚,對存在不足之處提出意見。在演練結束后,工作小組要對演練總結形成問題跟蹤表,及時跟進各部門改進不足之處,保障生產安全。
三、實踐
某商業銀行(下稱“A行”)為大型國有商業銀行,A行軟件開發部門(下稱“該部門”)現有員工1300余人,每年承擔200多個應用項目研發,還承擔幾百個業務系統的運維保障工作,在信息系統應急方面具有重要作用,由于涉及人員多、系統多、機構多,該部門的應急演練主要驗證應急組織協同性和應急流程的有效性,確認應急聯絡暢通性和應急集結時效性,提升應對突發事件的應急響應與處置能力。
近期,該部門組織開展了重要生產系統應急演練,依據事先制定的《重要生產系統應急支持工作規程》并結合有重要變更、容易出現生產問題來選擇參加演練的應用系統,演練由該部門負責人現場全程主持,A行風險管理部門、科技主管部門相關負責人作為觀摩小組成員參加演練,相關技術骨干作為應急人員具體實施應急處置工作,技術保障部門相關運維骨干根據應用系統歷史問題并綜合近期運維重點制定預設應急場景,相關部門一線管理人員、技術骨干組成評估小組和工作小組,承擔演練綜合評價、組織協調工作,參加演練的領導和技術人員超過50人。演練中,各項應急處置工作均能按照應急方案正確開展,達到相關應急處置規定要求,演練取得圓滿成功。
據統計,演練中各系統應急處置人員通訊順暢,平均集結時間為18分鐘,達到應急處置關于時間的規定要求,部分應用系統由于人員配置不合理、距離較遠、交通擁堵等客觀原因,在接報后超過30分鐘抵達處置現場,同時還有個別人員未及時響應應急電話,鑒于此,演練工作小組形成信息通報,督促對相關系統應急處置人員做適當調整,以符合應急處置時間規定,進一步加強應急意識,避免此類事情再次發生。
四、總結
本文對銀行信息系統應急演練組織流程進行討論,提出應急演練綜合評價方法,并在大型商業銀行應急演練中進行實踐,驗證應急組織協同性和應急流程的有效性,提升應對突發事件的應急響應與處置能力。本文所提出方法在部門級(一級部)進行實踐,應用范圍有待進一步擴大,其通用性、規模性還有待加強,同時由于管理、業務和技術等方面的原因,涉及全行的模擬真實故障的應急演練較難開展,應急演練組織方法的進一步研究存在困難。
參考文獻
[1]中國銀行業監督管理委員會.銀行業重要信息系統突發事件 應急管理規范(試行).2008年04月23日.
[2]蘇忠運.分行信息系統應急演練工作方法探討[J]中國金融電腦,2005(05):32-33.
[3]王鋼.金融信息系統應急響應及演練[J]計算機安全,2009(08):75-78.
[4]任長清.銀行如何開展災難恢復應急演練[J]中國金融電腦,2007(1):19-21.
在上級主管部門、機場領導小組的監督管理下,消防護衛部堅持“以防為主、防消結合”的方針,堅持做到不斷總結經驗教訓,不斷改進和完善工作方法,提高安全防范能力,將事故隱患減少到最低指數,扎扎實實做好消防安全工作,提高全體員工安全防范能力,確保旅客、職工生命的安全。
一、高度重視,積極做好消防安全的宣傳工作
只有思想上重視起來,安全行為才有保障。為此,我們十分重視消防安全工作的宣傳。我們主要從以下方面落實這項工作。
(一)成立消防安全領導小組,統一領導、協調開展消防安全教育工作。通過各級會議進行消防安全宣傳,領導小組堅持召開消防安全工作例會,分析問題,討論措施布置工作。領導小組在每次工作大會上,對包括消防安全在內的安全問題作了詳盡的分析,并提出了許多需要注意的問題,要求各個部門和個人將消防安全牢記在心。
(二)組織形式多樣的消防安全知識教育活動,我們針對各級員工接受和理解問題的特點,通過相關活動,使員工掌握了基本的消防安全知識,增強了消防安全意識。消防護衛部還聘請消防專業講師對全體員工進行消防安全知識講座,使全體員工掌握消防安全知識。消防護衛部進行消防器材使用方法實際演練,使消防員掌握了消防器材的正確使用方法和滅火技巧,全面提高了員工消防安全意識和防火、滅火實際操作能力從而進一步推動了學校消防教育工作。
(三)進行了一次系統全面的消防安全檢查。對哈密機場各個重要部門,譬如候機樓、辦公室、機房、車庫、宿舍等消防設施進行了全面的檢查。
二、推進消防安全責任制,充分落實管理責任與具體措施
只有加強管理,做到責任到人,才能真正做到防微杜漸。這是我們摸索出來的做好消防安全工作的一條重要經驗。明崗明責,檢查評比,是強化管理力求實效的重要舉措。具體說來,我們在以下六個方面加強了規范管理:
1、確定重點防火部位,明確重點防火部位負責人。我們根據辦公環境、執勤崗位、機場規劃等具體情況及時調整了重點部位防火責任人。
2、經常性地檢查疏散通道和應急燈。
3、加強對候機樓、機房和宿舍的管理,不定期檢查安全情況。在事故易發地,我們對有關人員加強消防安全教育的同時加大檢查力度。
4、加強對消防器具的管理和保養。我們并不因為一些器具平時閑置無用就放棄管理,而是注重保養保證隨時可以應急使用,對機場重要部位消防進行了保障。
5、加強對宿宿用電安全的檢查。定期檢查,教育人員安全用電,防止發生不安全事件。
6、開展消防安全檢查,做到三個結合:消防設施檢查和重點部位檢查相結合,平時小檢查和節假日大檢查相結合,檢查和整改相結合。
三、制定消防安全緊急預案
安全責任重于泰山,消防安全無小事,為了使火險隱患能夠在第一時間得到有效控制,制定了切實可行的“哈密機場消防安全緊急預案”、“哈密機場消防演練計劃”“哈密機場消防桌面演練方案”并且組織消防員進行學習和演練。全面提高了員工消防安全意識和防火、滅火實際操作能力從而進一步推動了學校消防教育工作。
消防安全高于一切,消防工作任重道遠,消防安全工作是一個艱巨的長期的任務,不是一勞永逸的事情。我們在加強日常工作管理和階段情況總結的同時,要真正樹立一種防患于未然的安全意識。只有防治結合,才能保證學校安全。每個人都要關心消防安全,不能以為看不到就沒事,事不關己就沒事。我們相信,在全機場職員工的共同努力下,我們一定能將消防安全工作做得更好,促進哈密機場又好又快地發展。
總結二:學校消防安全月活動工作總結
為了認真貫徹《消防法》,普及消防安全知識,強化消防安全意識,提高消防安全技能,確保我校消防安全,我校根據上級有關文件精神要求,扎實開展消防安全月系列活動?,F對具體工作總結如下:
一、領導高度重視,安全意識增強。
學校成立了以校長為組長,各部門負責人為成員的工作領導小組,并進行了詳細分工;體衛藝處詳細制定活動實施方案,并及時召開會議,安排部署學校消防安全工作;健全消防組織機構,安排了具體的負責人,落實了責任;完善了各項消防安全制度、實施辦法及考核細則,形成了組織健全、制度完善、職責清晰、人人參與,學校、社會共同配合,整體聯動的良好格局。
二、精心組織,層層發動。
深入動員以“全員消防、生命至上”為主題,以“珍愛生命”為主線,以“普及消防安全常識、增強法律意識,學會火災逃生自救技能”為重點,以“杜絕亡人火災和較大以上火災事故,減少控制一般火災事故”為目標,開展了師生全員參與的宣傳教育培訓活動,取得了較好的效果。學校自檢、自查過程中,對照標準認真排查,找死角,查漏洞,對發現的消防安全隱患及時采取措施進行整改上報。
三、活動形式多樣,教育效果顯著。
1、在學校醒目的位置懸掛上“關注消防、珍愛生命”的消防宣傳標語。
2、11月7日升旗儀式上,通過國旗下講話向全校師生發出倡議。
3、各年級積極開展以消防安全為主題的各類宣傳教育活動,學習《中小學生火災逃生辦法》。
4、開展消防專題講座。體衛藝處鄧主任用鮮活的案例,著重就消防安全意識、消防器材的配備和使用、防火滅火常識以及火場逃生等方面進行了生動的講解。全校師生到場聽取了本次講座。通過開展消防安全知識講座,進一步提高了全體師生的消防安全意識,普及了消防安全知識。
5、主辦消防主題的黑板報。各年級分別圍繞“全員消防生命至上”的消防主題,辦了一期黑板報。學校領導一一檢查并充分肯定各年級的黑板報有特色,尤其是通過宣傳教育,全校師生了解了更多消防知識,提高了自救自護的能力。
6、18日下午,學校消防警報驟響,學校領導、全體老師根據《學校消防應急預案》迅速到達指定位置,正在上課的老師也立即結束授課,組織學生撤離。按照樓層從低到高的順序,各班級分東、西兩個樓道依次撤離教學樓。授課老師在班級隊伍前領隊,班主任在班級隊伍后護衛。同學們彎著腰,捂住鼻,緊貼墻壁快速前移,全校撤離隊伍井然有序。從警報聲響起,到最后一名學生到操場列隊,用時不超過50秒。這次演習,提高了師生的消防安全意識,增強了自我保護能力。汪校長在活動總結時指出,“安全要牢記,防火莫兒戲”,安全教育要警鐘長鳴,這樣的消防疏散演習今后要不定期地多次進行。
7、開展一次消防設施器材、安全出口、疏散指示標志、電氣線路方面的檢查,并對發現的問題及時進行整改,保證安全通道有效、暢通、安全。
四、突擊檢查。
提高運維精細化管理水平交通設施管理和故障處理一般都有一定的流程和制度,但沒有配套的技術手段的支持,流程和制度往往難以真正地得到高效貫徹執行。系統將規范交通設備的管理,實現交通設施設備從購買、入庫、使用、維修、報廢的全生命周期管理,降低設施的養護成本;規范交通設備運維工作中故障處理流程,規范交通設施故障發生、故障恢復、故障維修、修復確認、維修完成后故障單信息完善、故障延期修復報備等環節;落實養護相關的制度,并可針對各個環節進行考核,從而提高交通設施的運維管理水平和效率。提高運維效果評價科學性怎樣評價運維系統使用后的效益?需要看它給正在運行中的系統和設備帶來哪些改變,這些改變是積極的還是糟糕的。系統從不同用戶所關注的問題入手,依據需求結合實際數據設計相關的考核指標??己酥笜藦娜齻€角度來進行評價分析:從系統設備健康水平,從運營方和養護方的管理服務水平,從系統產生的經濟效益角度。通過運維管理系統自動記錄的過程數據來多角度統計分析,量化表達各種考核指標,能夠提高運維效果評價的科學性。智能交通設施管理系統集成了中間件、GIS、FLEX和視頻識別等先進技術,實現了三個層次共32項主體功能,下一章節將會對系統設計和實現進行簡要闡述說明。
設施運維系統及評價體系的設計和實現
1系統架構設計
智能交通設施綜合管理系統分為狀態信息采集層、智能分析報警層和人機交互界面三層,對應的系統軟件架構分三層設計:信息采集、智能報警分析、平臺系統。如圖(1)所示。信息采集層負責設施運行信息的自動化采集,向智能報警分析和平臺系統提供基礎數據。它直接或間接通過設施提供的標準接口或系統接口采集相關狀態、性能、配置等運行數據,數據內容包括:服務器告警信息、服務器性能、應用軟件狀態、網絡設備運行信息、網絡拓撲信息、機房動力環境監控信息、外場設備狀態和采集信息等。信息采集方式可集中和相結合,使采集軟件靈活部署。智能報警分析層負責分類匯總信息采集層采集到的數據,通過報警閥值和報警規則預處理后生成基礎事件,不同來源的事件經過過濾,同類事件經過壓縮,相關聯的事件經過根源分析,獲得用戶所需的根源報警,根據報警事件重要程度進行分級,整個過程實現了向平臺系統提供設施的智能報警。平臺系統層圍繞設施運維應用,實現各種業務功能,具體業務功能包括:資源管理、日常養護、日常監控、應急保障、業務報表、系統評價。系統的用戶角色分為養護公司、運維管理人員、運行管理人員和部門領導四類。各角色主要業務職責如下:(1)養護公司:綜合報警監控的確認巡檢;故障報修登記、設備報修簽收、設備維修結果登記等;(2)運維管理人員:設備報修簽發、設備維修結果審核、設備報修擱置列表管理、設備停用管理,設備生命周期管理;設備基礎信息采集入庫及維護、機房設備位置、端口、接線、IP、VLAN等資源信息采集入庫及維護;(3)運行管理:內外場設備報警查看處置;(4)部門領導:對各崗位操作情況進行統計考核。
2設施信息采集
狀態信息采集層主要實現外場設備狀態信息采集、內場設備狀態信息采集、機房環境監控信息采集,所有采集的信息會接入消息總線中間件并存入歷史數據庫,為進一步智能報警分析提供數據支持。(1)外場設備狀態信息采集:系統通過接口協議,實現對信號機、電子警察、監控攝像機、卡口、情報板、車檢器等外場智能交通設備運行狀態信息采集;(2)內場設備狀態信息采集:通過IBMTIVOLI智能基礎設施管理軟件實現對服務器、交換機、數據庫、應用軟件等內場設備運行狀態信息采集;(3)機房環境監控信息采集:通過接口協議采集機房溫濕度計、UPS、配電柜、空調、消防、門禁和地漏報警信息。
3智能報警分析
智能報警分析層根據采集的狀態信息,經過壓縮過濾和算法分析,可以綜合判斷故障根源,為快速處置和問題診斷提供參考。(1)報警事件壓縮過濾:根據采集到的狀態數據和維護人員指定的報警規則,生成基礎事件。對于同一種設備的同一種事件,由于事件產生的渠道不同,會生成多條重復的報警信息,比如通過交換機主動上傳的trap事件,和根據交換機的狀態數據生成的事件可能會出現重復報警的情況,對這種事件進行過濾。對于某種瞬間發生或者處在報警邊界值的事件,可能會頻繁的生成和消失,這樣就會產生很多重復無用的事件。為了避免這種情況,通過設置平滑周期,對這種事件的生成進行壓縮。(2)事件根源分析:通常情況下,在生成的眾多單點事件中,往往是由其中的某幾個根源事件導致的,根據單點事件之間的邏輯關系和被管對象之間的物理拓撲關系,依次遞歸查找,根節點對應的事件,即為根源事件。(3)事件分級:報警事件級別分四級普通事件:需要養護人員關注,事件作用一般為預防提醒非關鍵設備某些指標工作異常,但設備還能工作,不影響其他設備。警告事件:需要設備管理員和養護人員關注,事件作用一般為提醒非關鍵設備工作異常或不能工作,但不影響其他設備。嚴重事件:需要值班員關注,告知設備管理員。事件作用一般為關鍵設備工作異?;虿荒芄ぷ?,影響分系統內局部設備。致命事件:需要值班員關注,及時電話通知設備管理員和養護人員。事件作用一般為關鍵設備工作異常或不能工作,影響全局設備或全系統正常運行。智能報警分析應用場景示例,如圖(4)所示。
4運維管理應用
運維管理應用主要實現日常監控、日常養護、應急保障、資源管理、生命周期管理和業務報表分析統計等功能。(1)日常監控:通過機房模擬圖、二維或三維地圖監控外場設備,以列表和圖表的形式展示設備運行的實時信息,報警事件產生,自動定位故障設備,按照報警級別,啟動關聯預案,監控人員按照預案處置。如圖(5)所示。(2)日常養護:日常養護工作通常有設備定期巡檢、臨時故障維修、搶修,養護中要遵循養護制度,養護過程需要規范,設計了養護流程管理。它支持多崗位跨網絡協同工作流程化管理,包括故障報修登記、故障簽發管理、任務簽收管理、維修結果登記、維修結果審核、擱置列表管理和歸檔列表管理等。如圖(6)所示。為養護更加便捷和使用系統更方便,引入了手持終端。如圖(7)所示。圖(7)(3)應急保障:在突發重大事故或災害的情況下,保障各系統正常運行,需要應急保障手段,系統提供一些輔助,主要有各類災害事故預案模型演練、培訓,應急設施資源的查詢,預案相關人員組織。如圖(8)所示。(4)資源管理:基于自主開發的GIS支撐管理平臺和Flex機房管理功能對內外場設備位置、端口、接線等空間和屬性信息進行協同維護管理。(5)生命周期管理:對設備安裝、建設交付使用、每次維護、到最終報廢進行全生命周期過程記錄和管理。(6)業務報表:對系統資源情況、設備資產保值、監控設備性能、設備故障、養護記錄數據、各職責崗位績效考核、等多方面進行綜合統計分析。
5系統評價分析
系統相關的用戶大致分為三類:投資方、運營管理方、養護公司。三者都有對使用該系統期望和訴求。投資方的訴求:建設這套系統后,今后的運維養護能否更省錢,能否為運維養護提供長久支持;運營管理方的訴求:養護效率、質量、養護水平得到提高,人均臺班費用得到控制,自身的管理改進和提高,運營管理取得的成績可以量化,能更好的為業務部門提供系統保障;養護公司的訴求:能更省時省力的完成工作,能更好的響應運營方的要求。針對這些訴求,結合運維的信息,制定了對應的評價指標,指標從三個方面回答用戶的訴求:資金成本、運維服務水平、系統健康水平。(1)資金成本=節省的養護人工成本+節省的設備成本,節省的養護人工成本核心指標是人均的費效比和設備養護率。設備養護率隨著養護的年限逐年增長,可以根據實際設備使用環境,同行業水平,結合系統記錄的養護記錄制定,一般第一年0.4,保修期內,每年增長0.1,過保修期每年增長0.2,以3年保修期計算,到第5年設備養護率達到1,這意味著過保的設備5年后的養護頻率要大于1。人均的費效比=人工總花費/(人均出工時間×養護團隊人數)。節省的養護人工成本=(今年的人均費效比-上年人均費效比)×(今年設備養護率/上年設備養護率)×上年人工總花費。節省的設備成本的核心指標是過保設備每年的折舊價值和當年設備過保的備件花費。過保設備每年的折舊價值根據設備的使用環境和it設備折舊值制定,it設備一年質保,5年報廢,一般過保設備每年的折舊價值為:設備采購價格×0.2。設備過保的備件花費是指設備過保后,維修的備件花費。節省的設備成本的公式:Σ(單個過保設備每年的折舊價值-當年單個設備過保的備件花費)。(2)運維服務水平=運維管理績效×50%+養護服務水平×50%,運維管理績效的核心指標是養護任務的完成率;養護服務水平的核心指標是養護任務質量平均得分、養護任務規定時間完成率和養護培訓成績。養護任務質量得分最高不超過100分,每次養護任務由審核人員根據養護制度要求和養護結果綜合評分。養護培訓成績由運營公司組織養護人員學習和考試評分。運維管理績效=養護任務的完成率×100。養護服務水平=養護任務質量平均得分×40%+養護任務規定時間完成率×100×40%+養護培訓成績×20%。(3)系統健康水平=設備總完好率×100,設備總完好率是指所有設備完好工作時間的比率。設備總完好率=Σ(單個設備實際完好工作時間/單個設備理論要求完好工作時間)。評價的指標結果通過圖表的方式直觀表現,如圖(9)所示。
系統項目實施效果
(1)使用這套系統后,可量化從養護資金使用效率、養護成本、養護運營績效、系統運行穩定等多方面帶來的改變。(2)通過設定指標,從管理績效、成本核算等方面量化考核運營公司。(3)設施全生命周期的管理,對設施質量評估提供了數據支持,對設施資產進行了優化配置。(4)以規范的方式管理養護數據,在管理過程中能方便的統計分析系統的不穩定點,排查系統隱患,保障系統運行穩定。(5)綜合的智能報警,提高了故障排查效率;報警預案、報警聯動,加快了故障的響應速度。(6)強化了養護制度的管理,對養護安全、養護紀律起到規范、督導作用。(7)應急搶修的管理、手持設備應用、各種應急養護預案的培訓和演練,為應急保障提供了技術支持。(8)手持終端設備的應用,使得養護全過程信息直達、高效、迅速,系統提供更有力信息支持。(9)規范的管理養護數據、落實養護制度、養護應急預案的培訓等,使得養護知識、養護經驗共享,提高養護服務水平。