郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
本技術規(guī)范按照 GB/T1.1-2009 給出的規(guī)則起草。
本技術規(guī)范由中國質量認證中心提出。
本技術規(guī)范由中國質量認證中心發(fā)布,版權歸中國質量認證中心所有,任何組織及個人未經中國質量認證中心許可,不得以任何形式全部或部分使用。
主要起草單位:中國質量認證中心,中國計量科學研究院。
參與起草單位:迪佑拂科技咨詢服務有限公司,中計測(北京)技術服務有限公司,上海德衡數據科技有限公司,國富瑞數據系統(tǒng)有限公司,北京中航信柏潤科技有限公司,太平洋保險集團,興業(yè)銀行數據中心,太平保險集團公司,中國人壽保險上海數據中心,寶信數據中心,國家電網有限公司信息通信分公司,中央國債登記結算有限責任公司上海數據中心,上海銀行,稠州銀行,上海通聯金融科技發(fā)展有限公司。
主要起草人:武彤、鄭涓、沈慶飛、陳凱、李安香、王葉楠。
參與起草人:肖建一,徐鈞,李國剛,劉鶴,季瑋愷,張巖,歐陽述嘉,冷飚,曹廣智,程杰,鄭倚
志,徐駿,程平,蔡健,葉迎,夏亮,包敏慧,陸鑌,項元偉,柏林,鮑雍榮,趙晨陽,陸磊。
數據中心基礎設施運行與維護評價技術規(guī)范
1 范圍
本規(guī)范規(guī)定了數據中心場地基礎設施運維中的相關術語、定義、管理要求、測試方法、現場審核及見證測試。
本規(guī)范適用于企業(yè)自用數據中心、第三方托管數據中心、互聯網云數據中心等含有基礎設施環(huán)境的數據中心,包括:基礎網絡設施、供電系統(tǒng)、制冷和環(huán)境控制系統(tǒng)、消防系統(tǒng)、安防系統(tǒng)、監(jiān)控和設施管理系統(tǒng)等基礎設施。
2 規(guī)范性引用文件
下列文件對于本文件的引用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T 33136 信息技術服務數據中心服務能力成熟度模型
GB/T 51314 數據中心基礎設施運行維護標準
ISO 20000 信息技術服務管理體系
ISO 27001 信息安全管理體系
3 術語和定義
GB/T 33136、GB/T 51314、ISO 20000、ISO 27001中界定的以及下列術語和定義適用于本文件。
3.1 術語
3.1.1
基礎設施 Infrastructure
數據中心內為信息技術系統(tǒng)提供運行保障和運行環(huán)境的場地設施。包括容納 IT 系統(tǒng)的主機房,支持IT 系統(tǒng)運行的供電系統(tǒng)、制冷系統(tǒng)、消防系統(tǒng)、安防系統(tǒng)、監(jiān)控系統(tǒng)及其路由等配套設施及維護 IT 系統(tǒng)的輔助設施。
3.1.2
運維管理 operation and maintenance management
對數據中心基礎設施進行日常運行和維護,確保各項基礎設施系統(tǒng)安全穩(wěn)定地運行。運維管理包括制定運維制度和計劃、執(zhí)行運維計劃、響應基礎設施故障、突發(fā)事件等緊急情況。
3.1.3
生命周期 life cycle
數據中心從投產到經濟壽命結束的全過程。但也有將投產前的規(guī)劃期、設計期、建設期、測試驗證期作為生命周期一部分(孕育期)的說法。
3.1.4
測試驗證 commissioning
驗證并記錄數據中心設施作為一個整體及其所有的設備、子系統(tǒng)滿足用戶的設計目標和運行要求的過程。
3.1.5
健康評估 health assessment
全面系統(tǒng)性地對機房設施現有使用狀態(tài)、設備運行情況、運維管理制度及流程等進行全方位的檢查評估。
3.1.6
預防性維護 preventive maintenance
為降低設施發(fā)生失效或功能退化的概率,按預定的時間間隔或按既定的準則實施的維護。
3.1.7
風險評估 risk assessment
針對運行的設備所面臨的威脅、存在的弱點、造成的影響,以及三者綜合作用所帶來風險的可能性的評估,同時確定風險是否可容許的全過程。
3.1.8
容量管理 capacity management
對于基礎設施在空間、電力承載能力、制冷能力等方面的評估,以滿足IT系統(tǒng)和業(yè)務處理的需要容量。為了實現其目標,容量管理需要與業(yè)務及IT戰(zhàn)略流程保持密切的聯系。
3.1.9
資產管理 asset management
對于數據中心基礎設施中每個資產建立獨有的標識,并詳細進行資產描述、制造商、型號、安裝日期、保修期、使用狀態(tài)等信息的記錄管理。
3.1.10
可用性 availability
在所有要求的外部資源得到提供的情況下,數據中心在規(guī)定的時刻或規(guī)定的時間段內處于能執(zhí)行要求的功能狀態(tài)的能力。它是衡量數據中心等級、運維水平的重要指標。
可用性的計算如下:
為直觀起見,有時以年不可用時間來衡量數據中心的可用性。計算如下:
年不可用時間(小時)=8760×(1-可用性)。
3.1.11
綠色運行 green operation
數據中心中的制冷、照明和電氣、用水、廢棄資源處置等能取得最大化的資源效率和最小化的環(huán)境影響。
3.1.12
負載 load
連接在電路中電源輸出端的設備。負載是把電能轉換成其他形式的能的裝置。
3.1.13
氣流組織 air-flow organization
在機房內對冷熱氣流的流向按一定要求進行疏導和組織。
3.2 縮略語
下列縮略語適用于本文件。
PUE:電力使用效率(Power Usage Effectiveness)
WUE:水使用效率(Water Usage Effectiveness)
CUE:碳使用效率(Carbon Usage Effectiveness)
SLA:服務級別協(xié)議(Service Level Agreement)
MOP:維護作業(yè)程序 (Method Of Procedure)
SOP:標準操作流程(Standard Operating Procedure)
EOP:應急操作流程( Emergency Operating Procedure)
CMMS:計算機化維護管理系統(tǒng)( Computerized Maintenance Management System)
RTO:復原時間目標(Recovery Time Objective)
RPO:復原點目標(Recovery Point Objective)
4 評價方法
評價方法由現場審核(收集查看運維體系文件、歷史運行記錄、運維周期性統(tǒng)計分析報告、檢測報告等)和現場崗位角色訪談組成。本文件所涉及的管理要求依據GB/T33136要求制定。
5 管理要求
5.1 戰(zhàn)略管理
數據中心應建立管理方針或戰(zhàn)略目標,并確保數據中心組織的各級人員得到理解和執(zhí)行。
5.2 項目管理
數據中心應能夠識別作為項目管理的技術設施運維場景,制定項目管理的程序并執(zhí)行。
5.3 知識管理
數據中心應識別知識管理的范圍,制定程序并執(zhí)行。
5.4 創(chuàng)新管理
數據中心應建立創(chuàng)新機制,并通過創(chuàng)新管理提高運維能力。
5.5 財務管理
數據中心應編寫運維財務預算,應對預算執(zhí)行情況進行跟蹤監(jiān)督,根據規(guī)定的時間間隔進行財務核算和成本分析。
5.6 人力資源管理
數據中心應建立對運行維護的各類人員的能力和管理制度制定成文件,包括招聘、資質管理、績效考核、團隊建設等。各類人員應持證上崗,特定崗位的人員應滿足法定要求。數據中心應按照當前和未來工作的需要,制定人員培訓計劃,并保留培訓記錄。對數據中心人員宜進行績效考核。
5.7 架構與技術管理
對數據、應用、基礎設施等架構與技術實施生命周期管理,在架構與技術引入的收益和使用的風險之間取得平衡。
5.8 監(jiān)控管理
數據中心應提供獨立的監(jiān)控調度指揮空間。針對多數據中心管理,除本地具備監(jiān)控調度指揮室外,宜具有區(qū)域覆蓋或總控總調監(jiān)控管理團隊。監(jiān)控中心值守人員應為7x24小時值班制度,應根據值班管理文件,值班人員不得長時間離開監(jiān)控崗位,應根據警情,通報給運維人員處置,緊急情況可協(xié)助處置。
為保障監(jiān)控工具的功能的完整性易用性可靠性,要求提供持續(xù)的改善維護管理制度。
5.9 值班管理
數據中心應將值班崗位人員的職責、工作記錄和行為制定成文件。值班人員交接班時應對當班執(zhí)行的操作、變更及觀察到的任何異常數據或現象進行交接和簽收。接班人員未到崗時,應留置到替班人員到崗,如果替班人員超時規(guī)定時間未到崗,應及時匯報。
運維管理團隊應根據數據中心的等級和服務要求,安排專職人員,值守設施監(jiān)控系統(tǒng)、消防系統(tǒng)、安防系統(tǒng)。A級數據中心應7*24小時有人值守,其他等級宜7*24小時值守。非業(yè)務運行期間或中小規(guī)模數據中心可遠程值守或自動模式。
5.10 作業(yè)管理
數據中心應制定日常巡檢和預防性維護計劃,按照規(guī)定執(zhí)行并記錄。日常巡檢和預防性維護計劃的周期和項目,可以按照設備供應商的建議。關鍵基礎設施設備在各種情況下的常用操作應制定標準操作流程SOP,數據中心關鍵基礎設施設備的每次維護、維修、安裝操作,應制定MOP,標準操作流程和標準維護流程應得到批準后執(zhí)行。運維團隊還應定期對設備的運行狀態(tài)數據進行統(tǒng)計和趨勢量化分析,制定預防措施或預案。
5.11 服務請求管理
應建立接受用戶請求和標準服務的渠道,并建立服務請求流程處理子程序。
5.12 事件管理
數據中心應制定事件管理程序,包括事件的分級、通知、目標時間、升級、復發(fā)事件的策略,應明確事件關閉的策略。
5.13 問題管理
運維團隊應針對問題找出導致已發(fā)生事件的根本原因,提出解決措施或糾正建議,防止同類事件的再次發(fā)生。暫時無法查明的問題,應提供給事件管理臨時解決方案;原因查明但無法解決的問題應采取規(guī)避的措施解決問題。數據中心應保存問題處理的記錄。
5.14 變更管理
數據中心應對所有類型的變更實施審批后執(zhí)行,可按照變更請求的分類,采取不同的審批形式。任何對生產環(huán)境的改變均應考慮控制風險,編寫變更方案,變更方案至少應包括詳細的實施方案、風險點及應對措施、回退方案、實施時間計劃等。變更方案應經過審批方可實施。對于風險可控的變更,可以實施簡化變更管理流程。運維團隊應建立緊急變更程序,并應嚴格控制該程序的適用范圍。
5.15 資產與配置管理
數據中心應建立完整及實時更新的資產數據庫,至少應包括所有關鍵基礎設施設備的清單,應記錄設備設施的運行情況、事件情況、變更情況、維護保養(yǎng)頻次等信息。資產管理應覆蓋工具及計量器具、備品備件。數據中心應建立標識標簽管理系統(tǒng),應按照規(guī)定的周期對資產進行盤點。
5.16 服務級別管理
明確運維團隊所能提供的服務目錄,以及與基礎設施所制成的IT運維相關方達成一致的服務級別協(xié)議,保證服務能力符合相關方需要,且可衡量。
5.17 可用性管理
確;A設施的可用性滿足業(yè)務運行的需求,并持續(xù)優(yōu)化。
5.18 容量管理
運維團隊應與IT部門定期溝通,動態(tài)了解IT需求的預測,并通報設施容量的使用情況?芍贫3個月至36個月周期的基礎設施可支持IT需求容量表。
當場地基礎設施不能滿足IT增長的需求時,應提前制定并上報擴容計劃。
5.19 能效管理
數據中心運維團隊應在確保信息系統(tǒng)及其支撐設備安全運行的條件下,最大限度地節(jié)約資源并保護環(huán)境,在取得最大化的資源效率的同時造成最小化的環(huán)境影響。了解國內外數據中心節(jié)能最新科技成果、發(fā)展趨勢、成功案例等,熟悉當地政府數據中心相關用能政策,最低要求需滿足當地政府節(jié)能降耗相關政策標準。
數據中心運維團隊應監(jiān)測并記錄數據中心在不同工況及不同外界氣候條件下的PUE、WUE及綜合CUE的變化情況,持續(xù)跟蹤和分析趨勢,持續(xù)優(yōu)化節(jié)能運行方案。
5.20 業(yè)務連續(xù)性管理(應急管理)
基礎設施運維業(yè)務連續(xù)性管理(應急管理)應面向其所服務的IT業(yè)務,與最終支撐的業(yè)務服務連續(xù)性保持一致。
確保在災難發(fā)生之后基礎設施和IT 服務能夠在規(guī)定的時間內得到恢復,從而支持總體的業(yè)務連續(xù)性要求。
應建立、實施和保持一個正式的、形成文件的業(yè)務影響分析和風險評估過程。對場地、設施及服務存在的可能影響運維目標和持續(xù)提供服務能力的風險進行識別、分析和評價,并進行業(yè)務影響分析,確定RTO與RPO,對評估出風險進行處置,并按照風險發(fā)生的可能性以及發(fā)生后果的嚴重性制定應急預案。
應急預案應確保對應應急場景下的RTO與RPO的實現。
運維團隊應針對可能出現的各種嚴重事件,制定應急操作流程EOP,以便在該事件發(fā)生時,運維團隊能采取正確的操作程序,以防止事件擴大為嚴重故障。
應按計劃的時間間隔或者當運營環(huán)境出現重大變化時演練和測試其應急預案和恢復程序。應行成正式的演練總結報告,內容包括輸出結果、建議和實施改進的措施。
主要包括:
• 沙盤演練:參與演練的運維人員集合,并分別口述在發(fā)生緊急情況下自身所應承擔的職責及將會執(zhí)行的方案及步驟;
• 跑位演練:參與演練的人員跑位到模擬故障現場,模擬處理故障,參與人員應清晰地說出故障的處理方案及步驟。
• 模擬演練:在確保生產安全的前提下,模擬真實中斷場景,進行實際操作演練?山Y合某些特殊工作來開展此類演練。
應急演練的演練原則是:盡量接近真實情況,在條件允許的情況下盡量真實地處理故障。在運行中的一些特定場景下也可以進行應急演練,如發(fā)電機帶載實驗等。
5.21 供應商管理
應該按照數據中心基礎設施運維的資質、以往的經驗、業(yè)界的口碑等因素,以注重預防性和預測性維護和提高可用性的相同標準來選擇合格的供應商。規(guī)范供應商管理,確保供應商向數據中心提供優(yōu)質的外部技術資源和支持
所有供應商到達場地執(zhí)行維護程序之前,應通過場地相關規(guī)程的培訓,獲得場地運維團隊和運維管理層的批準。在執(zhí)行維護活動的過程中要嚴格遵循操作流程。操作時需由運維團隊的人員陪同并監(jiān)督記錄流程的執(zhí)行情況。
供應商的每次場地維護活動都應該提交現場服務報告并存檔。
運維團隊應該建立供應商的績效評估方案,并定期對供應商進行績效評估。
應設立供應商管理文檔, 記錄所有供應商的聯系方式、服務級別協(xié)議(SLA)、工作范圍、針對設
施的培訓和認證情況等信息。
5.22 信息安全管理
數據中心的門禁系統(tǒng)、各類監(jiān)控系統(tǒng)、環(huán)控系統(tǒng)、訪客系統(tǒng)、DCIM、DCOM等各類弱電系統(tǒng)是支持數據中心運行的關鍵系統(tǒng),應制定并采取必要的安全控制措施。針對信息資產在運行環(huán)境中所面臨的風險,制定信息安全策略和措施,將風險減少至可接受的程度,從而保障信息的可用性、保密性和完整性。
5.23 健康環(huán)境管理
針對物理環(huán)境制定安健環(huán)管理策略,實施處置措施,實現人員、環(huán)境等方面的保障,避免重大環(huán)境或人員傷害事故。
5.24 文檔管理
通過規(guī)范文檔各生命周期的活動,確保文檔處于有效管理的狀態(tài)。
5.25 評審管理
通過建立重大事項評審機制,做好事前風險控制,降低數據中心運營風險。
5.26 審計管理
合理規(guī)劃和管理數據中心審計,從而控制運營管理的潛在風險。
5.27 持續(xù)改進管理
通過對支持IT服務的基礎設施運維服務識別并實施改進,實現服務能力持續(xù)改進、提升。
5.28 職能管理
通過組織架構設置和崗位職責的設定,確保數據中心各項職能有效落實,管理目標得以實現。
5.29 關系管理
加強數據中心與其客戶、監(jiān)管或上級機構、合作伙伴、供應商、政府單位等相關方之間的溝通與關系維護,實現互利雙贏。
5.30 合規(guī)管理
識別外部法律法規(guī)、監(jiān)管部門對數據中心的要求,合理規(guī)劃并落實,從而控制潛在風險。
5.31 風險管理
數據中心運維團隊,應充分識別數據中心運行中的外部不可控風險對數據中心運營的影響,定期評估已識別風險的影響變化,并提高運維團隊的認知范圍識別可能新生的風險,并基于最新的評估制定和更新預案,以便采取有效措施,消除或控制風險的影響。通過考量不確定性及其對目標的影響,采取相應的措施,提高風險應對的效果。
5.32 績效管理
保證數據中心各級組織及員工的產出與數據中心目標保持一致,通過改善組織及員工工作績效,驅
動數據中心戰(zhàn)略目標實現。
5.33 組織文化管理
通過對組織文化的梳理、深植和持續(xù)建設,確立數據中心的價值核心,為數據中心健康發(fā)展創(chuàng)造優(yōu)秀的文化環(huán)境,提供有力的思想保障和行為保障。
6 運行
依照GB/T 51314-2018《數據中心基礎設施運行維護標準》第4章要求*。
*數據可引用自依據《CQC1312/CQC1324數據中心場地基礎設施認證技術規(guī)范》或《CQC1313/CQC1325信息系統(tǒng)機房動力及環(huán)境系統(tǒng)認證技術規(guī)范》出具的第三方檢測報告,要求第三方測試報告報告有CNAS及CMA標識。
7 維護
依照GB/T 51314-2018《數據中心基礎設施運行維護標準》第5章要求*。
*數據可引用自依據《CQC1312/CQC1324數據中心場地基礎設施認證技術規(guī)范》或《CQC1313/CQC1325信息系統(tǒng)機房動力及環(huán)境系統(tǒng)認證技術規(guī)范》出具的第三方檢測報告,要求第三方檢測報告報告有CNAS及CMA標識。
8 評價等級
評 價 等 級 分 級 方 式 參 照 《 CQC1312/CQC1324 數 據 中 心 場 地 基 礎 設 施 認 證 技 術 規(guī) 范 》 及
《CQC1313/CQC1325 信息系統(tǒng)機房動力及環(huán)境系統(tǒng)認證技術規(guī)范》制訂,并依據數據中心基礎設施運維
評價對象特性分為四級。
評價等級全部為四級劃分見表 1,分別為:
L1 基礎級:基礎式管理,具備數據中心運行的基本運維功能特征;
L2 標準級:流程管控,為進一步提升協(xié)作能力和運行質量,建立管理程序;
L3 增強級:規(guī)范運維管理和運維執(zhí)行的過程,推動標準化流程化進一步落地,強化風控管理和提高運維效率實現多維聯動;
L4 卓越級:精細化管控,在規(guī)范級的基礎上進一步細化管理顆粒度,實現全周期全場景過程數據的監(jiān)測和采集,基于這些數據支持管理提高優(yōu)化精度,推動運維團隊理解運維所支撐的業(yè)務戰(zhàn)略規(guī)劃,推進服務導向的運維模式(可轉變?yōu)檫\營)。
針對三大管理領域的 33 個管理子域,按照 L1~L4 級別的總體要求,劃定等級的評定范圍和基本要求。
針對管理域審核項評定的認證等級應同時滿足:達到認證目標等級的分值區(qū)域;滿足認證目標等級的必須滿足項。詳見表 2。