一,、監(jiān)控管理對(duì)可用性管理的意義,。
根據(jù)ITIL的定義,所謂的“可用性”指的是:“一個(gè)配置項(xiàng)或IT服務(wù)根據(jù)需要履行協(xié)定職能的能力,??捎眯匀Q于可靠性、可維護(hù)性,、可服務(wù)用性,、性能和安全,。可用性通常以百分比計(jì)算,。這種計(jì)算通?;趨f(xié)定服務(wù)時(shí)間和宕機(jī)時(shí)間”。高可用性IT管理是指:是指通過(guò)對(duì)IT架構(gòu)及運(yùn)維管理,、基礎(chǔ)設(shè)施及管理,、災(zāi)備建設(shè)及運(yùn)維、安全及管理等高可用性關(guān)鍵要素的改進(jìn)與優(yōu)化,,提升IT系統(tǒng)的可用性,,從而更好地保障業(yè)務(wù)持續(xù)運(yùn)營(yíng)和創(chuàng)新的過(guò)程。
在衡量可用性方面,,具體又分為MTTR/MTBF/MTBSI等三個(gè)不同的指標(biāo)(如下圖)。從下圖可見(jiàn),,無(wú)論是MTBSI還是MTTR,,均有一個(gè)重要的組成部分——“Detecttime(偵測(cè)時(shí)間)”??梢?jiàn)“能否通過(guò)有效的監(jiān)控管理,,及時(shí)、有效地發(fā)現(xiàn)數(shù)據(jù)中心中各管理對(duì)象的故障”,,已構(gòu)成數(shù)據(jù)中心高可用性一個(gè)充分條件,。
所以說(shuō),集中監(jiān)控管理就像是高可用性管理的一雙眼睛,,有了它整個(gè)數(shù)據(jù)中心的組件情況才能一目了然,,高可用性的目標(biāo)才具備實(shí)現(xiàn)的管理基礎(chǔ)。
二,、監(jiān)控管理對(duì)數(shù)據(jù)中心運(yùn)營(yíng)的作用,。
數(shù)據(jù)中心的管理對(duì)象主要包括基礎(chǔ)設(shè)施與IT基礎(chǔ)架構(gòu)兩大部分。其中基礎(chǔ)設(shè)施包括供配電,、UPS,、空調(diào)、消防,、安保,、環(huán)境監(jiān)測(cè)等機(jī)房系統(tǒng);基礎(chǔ)架構(gòu)包括網(wǎng)絡(luò)設(shè)備、主機(jī)設(shè)備,、存儲(chǔ)設(shè)備等IT設(shè)備,。
集中監(jiān)控的目標(biāo)就是要能夠通過(guò)管理與技術(shù)的應(yīng)用,對(duì)基礎(chǔ)設(shè)施與IT基礎(chǔ)架構(gòu)的運(yùn)行情況進(jìn)行監(jiān)視,,實(shí)現(xiàn)故障與異常的實(shí)時(shí)發(fā)現(xiàn)與通知;此外還可以通過(guò)對(duì)監(jiān)控?cái)?shù)據(jù)搜集與整理,,為容量管理,、事件管理、問(wèn)題管理,、符合性管理提供分析的基礎(chǔ),,最終實(shí)現(xiàn)數(shù)據(jù)中心高可用性的目標(biāo)。
1.事件管理與可用性管理
隨著技術(shù)的發(fā)展,,有許多第三方監(jiān)控工具開(kāi)始出現(xiàn),,這些工具可以實(shí)現(xiàn)跨設(shè)備、跨平臺(tái),、跨系統(tǒng)的集中數(shù)據(jù)采集,,同時(shí)也能針對(duì)不同的監(jiān)控對(duì)象設(shè)置相應(yīng)的閥值,最終還可以實(shí)現(xiàn)統(tǒng)一的展現(xiàn)與告警,。這些工具的出現(xiàn),,使得IT管理人員可以以一種更快速、更準(zhǔn)確的方式發(fā)現(xiàn)被管理的組件所出現(xiàn)的故障,。從而為故障的修復(fù),,以及服務(wù)的恢復(fù)爭(zhēng)取了寶貴的時(shí)間,提升了整個(gè)基礎(chǔ)架構(gòu)的可用性,。
2.容量管理
監(jiān)控管理還會(huì)利用監(jiān)控工具的性能采集功能,,對(duì)一些關(guān)鍵應(yīng)用的關(guān)鍵性能點(diǎn)進(jìn)行監(jiān)控,取得這些關(guān)鍵點(diǎn)的性能數(shù)據(jù),,用來(lái)評(píng)估IT系統(tǒng)的容量,。當(dāng)發(fā)現(xiàn)IT組件目前的性能與原來(lái)的容量計(jì)劃存在偏差后,可以及時(shí)對(duì)這些組織的性能進(jìn)行擴(kuò)容,,減少因性能不足而導(dǎo)致業(yè)務(wù)中斷的可能性,。
3.安全管理與符合性管理
監(jiān)控管理可以利用目前的一些安全監(jiān)控工具,去檢查組件的安全情況與運(yùn)行中對(duì)合規(guī)要求的符合情況,。如GDS目前的一些合作伙伴,,其利用一些安全軟件,對(duì)防火墻,、防病毒與入侵檢查設(shè)備進(jìn)行實(shí)時(shí)日志采集與安全分析,,同時(shí)比對(duì)公司的安全策略或一些安全標(biāo)準(zhǔn),幫助數(shù)據(jù)中心管理人員對(duì)目前數(shù)據(jù)中心運(yùn)營(yíng)中安全問(wèn)題進(jìn)行快速定位與問(wèn)題分析,。
三,、監(jiān)控管理面臨的挑戰(zhàn)
1.采集層的集中化
從目前市場(chǎng)上的工具來(lái)看,還沒(méi)有哪個(gè)監(jiān)控工具可以支持業(yè)界全線(xiàn)的IT產(chǎn)品,,尤其是存儲(chǔ)與光傳輸設(shè)備這一塊,。另外,不同客戶(hù)對(duì)監(jiān)控的深度也要求迥異,有些客戶(hù)可能僅需要監(jiān)控到網(wǎng)絡(luò),、設(shè)備與系統(tǒng)層面,,有些則需要對(duì)其數(shù)據(jù)庫(kù)、中間件甚至是應(yīng)用進(jìn)行監(jiān)控,,這也為監(jiān)控采集層的集中帶來(lái)不少的難度,。最后,不同客戶(hù)對(duì)成本與安全要求的不同,,進(jìn)一步提升了監(jiān)控工具在采集層集中的難度,。
2.處理層的集中化
目前許多設(shè)備的監(jiān)控往往只能反映出某一臺(tái)設(shè)備的可用性,卻不能完整的展現(xiàn)出整體的應(yīng)用結(jié)構(gòu)以及互相之間的影響關(guān)系,,一旦一臺(tái)核心的交換機(jī)發(fā)生故障后,,管理員會(huì)發(fā)現(xiàn),突然之間,,滿(mǎn)世界都是各種各樣的告警,,頭昏眼花,疲于奔命,,卻不知道到底該如何解決,。因此,如何能進(jìn)行事件關(guān)聯(lián),,協(xié)助管理員能從各個(gè)孤立的事件中迅速定位,這是對(duì)監(jiān)控管理的另一項(xiàng)挑戰(zhàn),。
3.展現(xiàn)層的集中化
隨著監(jiān)控內(nèi)容的增加,,目前數(shù)據(jù)中心運(yùn)營(yíng)人員面臨的另外一個(gè)問(wèn)題是如何能讓監(jiān)控室的人員可以在眾多監(jiān)控終端中迅速地發(fā)現(xiàn)系統(tǒng)報(bào)警,畢竟無(wú)法要求負(fù)責(zé)監(jiān)控的人員7X24小時(shí)地盯著監(jiān)控屏幕,。所以監(jiān)控終端的報(bào)警方式集中化,,甚至是監(jiān)控工具展現(xiàn)層的集中化就成為了監(jiān)控管理目前所面臨的一項(xiàng)挑戰(zhàn)。
4.監(jiān)控工具與管理的集中
監(jiān)控管理的目的并不是監(jiān)控工具本身,,而是通過(guò)人工或技術(shù)的手段可以及時(shí)發(fā)現(xiàn)基礎(chǔ)設(shè)施與基礎(chǔ)架構(gòu)上的問(wèn)題,,并按照既定的要求,將發(fā)現(xiàn)的問(wèn)題按照既定管理流程與工具,,調(diào)動(dòng)相應(yīng)的技術(shù),、管理人員介入,最終有效地解決數(shù)據(jù)中心中可能出現(xiàn)的事件,、容量與可用性等問(wèn)題,。因此,如何讓數(shù)據(jù)中心工作人員清楚在監(jiān)控工具中報(bào)出問(wèn)題后,,應(yīng)如何執(zhí)行后續(xù)管理流程,,避免錯(cuò)報(bào)、漏報(bào),成為監(jiān)控管理的一項(xiàng)重要挑戰(zhàn),。
四,、監(jiān)控管理發(fā)展的趨勢(shì)
1.業(yè)務(wù)監(jiān)控
數(shù)據(jù)中心提供的是信息服務(wù),也可以說(shuō)是業(yè)務(wù)服務(wù),,獨(dú)立的對(duì)一臺(tái)設(shè)備進(jìn)行監(jiān)控已經(jīng)不能滿(mǎn)足未來(lái)的需求,。對(duì)于管理人員來(lái)說(shuō),更關(guān)心的是數(shù)據(jù)中心提供的一個(gè)業(yè)務(wù),、一個(gè)服務(wù)是否能夠正常的運(yùn)行,,因此,未來(lái)的監(jiān)控解決方案,,需要更多的從業(yè)務(wù)及服務(wù)的層面出發(fā),,將獨(dú)立的物理設(shè)備,與業(yè)務(wù)緊密關(guān)聯(lián),,形成業(yè)務(wù)設(shè)備視圖,,每個(gè)設(shè)備的可用性,都能夠反映到業(yè)務(wù)的可用性上,。
2.虛擬化云監(jiān)控
虛擬化是未來(lái)數(shù)據(jù)中心的趨勢(shì),,但監(jiān)控工具很難區(qū)分其監(jiān)控的服務(wù)器是一臺(tái)物理機(jī),還是一臺(tái)虛擬機(jī),,也不可能知道硬件系統(tǒng)會(huì)對(duì)服務(wù)器可用性存在潛在影響,,而虛擬化平臺(tái)的可用性直接影響到運(yùn)行在其之上的虛擬服務(wù)器的可用性。監(jiān)控軟件處理的應(yīng)該是主服務(wù)器硬件出現(xiàn)的問(wèn)題,,但是如果主服務(wù)器處于危險(xiǎn)之中,,那么任何在主機(jī)上運(yùn)行的虛擬機(jī)也面臨同樣的問(wèn)題,因此,,虛擬化云環(huán)境的高可用性方案也會(huì)是未來(lái)的趨勢(shì)之一,。
3.影響分析模型
業(yè)務(wù)監(jiān)控及虛擬化環(huán)境的基礎(chǔ)在于不同的設(shè)備間能夠建立清晰的管理,形成設(shè)備與設(shè)備的關(guān)系網(wǎng),,這就需要建立CMDB(配置管理數(shù)據(jù)庫(kù)),,它清晰的描述了每一臺(tái)設(shè)備的信息屬性,以及設(shè)備之間的關(guān)系,。通過(guò)建立CMDB信息庫(kù),,形成業(yè)務(wù)的影響模型,例如,,以下是對(duì)一個(gè)在線(xiàn)交易系統(tǒng)進(jìn)行影響建模:
在這個(gè)交易系統(tǒng)的影響模型中,,例如“存儲(chǔ)”發(fā)生故障,直接反應(yīng)出的是服務(wù)不可用,,同時(shí)“在線(xiàn)交易系統(tǒng)”,、“數(shù)據(jù)庫(kù)服務(wù)器”,、“在線(xiàn)交易系統(tǒng)”皆為不可用狀態(tài),根據(jù)被依賴(lài)關(guān)系進(jìn)行分析,,可以很直接的定位到故障原因,,從而避免了逐個(gè)系統(tǒng)的進(jìn)行故障分析。
來(lái)源:機(jī)房監(jiān)控 http://youring.cn
專(zhuān)線(xiàn):劉剛 13911133352
E-mail:[email protected]
北京金恒智能系統(tǒng)工程技術(shù)有限責(zé)任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,任何模仿本站模板,、轉(zhuǎn)載本站內(nèi)容等行為者,,本站保留追究其法律責(zé)任的權(quán)利!
電話(huà):86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號(hào)-2網(wǎng)站XML
智慧機(jī)房
在線(xiàn)體驗(yàn)