機房監(jiān)控系統(tǒng)是企業(yè)機房內(nèi)不可或缺的重要輔助工具,是機房內(nèi)各設備的守護使者,。對于企業(yè)來說,,了解機房監(jiān)控就是對自身機房增加一層安全保障,,要想機房問題少,,機房監(jiān)控少不了。
監(jiān)控目標
我們先來了解什么是監(jiān)控,,監(jiān)控的重要性以及監(jiān)控的目標,,當然每個人所在的行業(yè)不同、公司不同,、業(yè)務不同,、崗位不同、對監(jiān)控的理解也不同,,但是我們需要注意,,監(jiān)控是需要站在公司的業(yè)務角度去考慮,而不是針對某個監(jiān)控技術的使用,。
1,、 對系統(tǒng)不間斷實時監(jiān)控:實際上是對系統(tǒng)不間斷的實時監(jiān)控(這就是監(jiān)控) 。
2,、 實時反饋系統(tǒng)當前狀態(tài):我們監(jiān)控某個硬件,、或者某個系統(tǒng),都是需要能實時看到當前系統(tǒng)的狀態(tài),是正常,、異常,、或者故障。
3,、 保證服務可靠性安全性:我們監(jiān)控的目的就是要保證系統(tǒng),、服務、業(yè)務正常運行,。
4,、 保證業(yè)務持續(xù)穩(wěn)定運行:如果我們的監(jiān)控做得很完善,即使出現(xiàn)故障,,能第一時間接收到故障報警,,在第一時間處理解決,從而保證業(yè)務持續(xù)性的穩(wěn)定運行,。
監(jiān)控方法
既然我們了解到了監(jiān)控的重要性,、以及監(jiān)控的目的,那么下面我們需要了解下監(jiān)控有哪些方法,。
1,、 了解監(jiān)控對象:我們要監(jiān)控的對象你是否了解呢?比如 CPU 到底是如何工作的,?
2,、 性能基準指標:我們要監(jiān)控這個東西的什么屬性?比如 CPU 的使用率,、負載,、用戶態(tài)、內(nèi)核態(tài),、上下文切換,。
3、 報警閾值定義:怎么樣才算是故障,,要報警呢,?比如 CPU 的負載到底多少算高,用戶態(tài),、內(nèi)核態(tài)分別跑多少算高,?
4、 故障處理流程:收到了故障報警,,那么我們怎么處理呢,?有什么更高效的處理流程嗎?
監(jiān)控核心
我們了解了監(jiān)控的方法,、監(jiān)控對象,、性能指標,、報警閾值定義、以及故障處理流程幾步驟,,當然我們更需要知道監(jiān)控的核心是什么,?
1、 發(fā)現(xiàn)問題:當系統(tǒng)發(fā)生故障報警,,我們會收到故障報警的信息,。
2、 定位問題:故障郵件一般都會寫某某主機故障,、具體故障的內(nèi)容,,我們需要對報警內(nèi)容進行分析,比如一臺服務器連不上:我們就需要考慮是網(wǎng)絡問題,、還是負載太高導致長時間無法連接,,又或者某開發(fā)觸發(fā)了防火墻禁止的相關策略等等,我們就需要去分析故障具體原因,。
3,、 解決問題:當然我們了解到故障的原因后,就需要通過故障解決的優(yōu)先級去解決該故障,。
4,、 總結問題:當我們解決完重大故障后,需要對故障原因以及防范進行總結歸納,,避免以后重復出現(xiàn),。
監(jiān)控工具
一款好的監(jiān)控系統(tǒng)一定是最切合用戶使用習慣的,在眾多企業(yè)級機房監(jiān)控中選出最完美的監(jiān)控系統(tǒng)幾乎不現(xiàn)實,,由于每款機房監(jiān)控系統(tǒng)都各有各的優(yōu)點,,導致用戶在選擇上時常面臨新的挑戰(zhàn)(尤其是選擇恐懼癥患者)。
北京金恒智能CREATE機房環(huán)境及能效管理系統(tǒng)綜合應用計算機網(wǎng)絡技術,、移動通信技術,、自動控制技術、新型傳感技術,、數(shù)據(jù)庫技術等,面向機房動力能效,、機房場地環(huán)境和機房安全保障,,通過信息實時采集、數(shù)據(jù)智能分析,、預警,、場景化數(shù)據(jù)展現(xiàn)、移動查詢,、遠程操控等手段,,實現(xiàn)對機房環(huán)境的便捷,、高效管理。
大家在選擇合適的機房監(jiān)控時要著重對比價格,、產(chǎn)品功能以及用戶體驗等信息,,尤其是用戶體驗方面。在后期的監(jiān)控運維管理工作中,,監(jiān)控系統(tǒng)要做到能簡潔呈現(xiàn)絕不拖泥帶水,,需要著重介紹不可一筆帶過。優(yōu)化系統(tǒng)功能,,為用戶提供更優(yōu)質的服務,。
提供多種智能基線報警策略,基于趨勢提前預警,,有效規(guī)避機房事故發(fā)生,。
CREATE科技機房監(jiān)控系統(tǒng)支持多種數(shù)據(jù)采集方式,支持混合組網(wǎng)結構,,可以逐級靈活組網(wǎng),。系統(tǒng)容量大,可平滑擴容,,數(shù)據(jù)處理能力強,。
CREATE機房監(jiān)控系統(tǒng)面向業(yè)務和管理提供豐富的數(shù)據(jù)模塊和自定義功能,用戶可將不同數(shù)據(jù)模塊進行組合,,建立適合本崗位的私有桌面,;同時提供重點設備關注功能,使不同人員可以有針對性的對指定設備進行實時關注,、跟蹤,。
提供獨有的能效分析機制以及能效拓撲、電力拓撲等展現(xiàn)方式,,為用戶提供PUE值和能效狀況專業(yè)視圖,,實現(xiàn)實時展示與管理。
面向科技部門常規(guī)崗位和運維職能,,系統(tǒng)提供針對性的工作場景(運維場景,、報警場景、巡檢場景等)和數(shù)據(jù)支持,,滿足客戶分類需求,。
監(jiān)控流程
CREATE機房監(jiān)控系統(tǒng)為客戶提供了完整的監(jiān)控流程,確保機房內(nèi)各設備穩(wěn)定運行,。
1,、 數(shù)據(jù)采集: 支持SNMP、WMI,、SYSLOG,、AGENT,、JDBC、ODBC,、TELNET,、SSH、PING,、DNS,、IPMI等各種監(jiān)控方式 。
2,、 數(shù)據(jù)存儲: CREATE機房監(jiān)控所獲得的數(shù)據(jù) 存儲在MySQL上,,也可以存儲在其他數(shù)據(jù)庫服務。
3,、 數(shù)據(jù)分析:系統(tǒng)提供所有監(jiān)控對象的監(jiān)控指標,、缺省閥值、報警策略等,,支持系統(tǒng)快速實施和監(jiān)控調(diào)整 ,。
4、 數(shù)據(jù)展示:web界面 以及 移動APP 展示,,提供整體 IT環(huán)境總覽,,多個不同告警、監(jiān)測,、配置,、統(tǒng)計等功能提供多種不同視圖展示。
5,、 監(jiān)控報警:可選聲,、光、現(xiàn)場語音,、短信,、Email、電話轉移,、視頻聯(lián)動,、控制聯(lián)動、投大屏幕等告警,,也可實現(xiàn)分類,、分時段告警抑制 。
6,、 報警處理: 當接收到報警,我們需要根據(jù)故障的級別進行處理,,比如 : 重要緊急,、重要不緊急等,。 同時 屏蔽掉無用從屬報警,實現(xiàn)故障精準定位,,解決告警風暴對運維人員的困擾,。
此外CREATE機房監(jiān)控系統(tǒng)還支持shell腳本和SQL語句自定義擴展,方便用戶隨時增加監(jiān)控項,。
監(jiān)控指標
我們上面了解了監(jiān)控方法,、目標、流程,、也了解了監(jiān)控工具,,可能有人會疑惑,我們具體要監(jiān)控寫什么東西,,那么我在這里進行了分類整理,。
主要監(jiān)控內(nèi)容列舉:「 硬件監(jiān)控 」 - 「 系統(tǒng)監(jiān)控 」 - 「 應用監(jiān)控 」 - 「 網(wǎng)絡監(jiān)控 」 - 「 流量分析 」 - 「 日志監(jiān)控 」 - 「 安全監(jiān)控」 - 「 API監(jiān)控 」 - 「 性能監(jiān)控 」 - 「 業(yè)務監(jiān)控 」。
1,、 硬件監(jiān)控
早期我們通過機房巡檢的方式,,查看硬件設備燈光閃爍情況判斷是否故障,這樣非常浪費人力,,并且是重復性無技術含量的工作,,大家懂得。
當然我們現(xiàn)在可以通過 IPMI 對硬件詳細情況進行監(jiān)控,,并對 CPU,、內(nèi)存、磁盤,、溫度,、風扇、電壓等設置報警設置報警閾值(自行對監(jiān)控報警內(nèi)容編寫合理的報警范圍),。
2,、 系統(tǒng)監(jiān)控
中小型企業(yè)基本全是 Linux 服務器,那么我們肯定是要監(jiān)控起系統(tǒng)資源的使用情況,,系統(tǒng)監(jiān)控是監(jiān)控體系的基礎,。
— CPU
CPU 有幾個重要的概念:上下文切換,、運行隊列和使用率。這也是我們CPU監(jiān)控的幾個重點指標,。通常情況,,每個處理器的運行隊列不要高于 3,,CPU 利用率中 “用戶態(tài)/內(nèi)核態(tài)” 比例維持在 70/30,,空閑狀態(tài)維持在 50%,上下文切換要根據(jù)系統(tǒng)繁忙程度來綜合考量,。針對 CPU 常用的工具有:htop,、top,、vmstat,、mpstat、dstat,、glances 等。
— 內(nèi)存
通常我們需要監(jiān)控內(nèi)存的使用率,、SWAP 使用率、同時可以通過 Zabbix 描繪內(nèi)存使用率的曲線圖形發(fā)現(xiàn)某服務內(nèi)存溢出等,。針對內(nèi)存常用的工具有: free、top,、vmstat,、glances 等,。
— IO
IO 分為磁盤 IO 和網(wǎng)絡 IO ,。除了在做性能調(diào)優(yōu)我們要監(jiān)控更詳細的數(shù)據(jù)外,那么日常監(jiān)控,,只關注磁盤使用率、磁盤吞吐量、磁盤寫入繁忙程度,,網(wǎng)絡也是監(jiān)控網(wǎng)卡流量即可,。常用工具有 : iostat,、iotop、df,、iftop,、sar,、glances 等,。
3,、 應用監(jiān)控
把硬件監(jiān)控和系統(tǒng)監(jiān)控研究明白后,,我們進一步操作是需要登陸到服務器上查看服務器運行了哪些服務,,都需要監(jiān)控起來。
應用服務監(jiān)控也是監(jiān)控體系中比較重要的內(nèi)容,,例如:LVS,、Haproxy,、Docker、Nginx,、PHP、Memcached,、Redis、MySQL、Rabbitmq等等,,相關的服務都需要監(jiān)控起來,。
4,、 網(wǎng)絡監(jiān)控
網(wǎng)絡監(jiān)控是我們構建監(jiān)控平臺是必須要考慮的,,尤其是針對有多個機房的場景,各個機房之間的網(wǎng)絡狀態(tài),,機房和全國各地的網(wǎng)絡狀態(tài)都是我們需要重點關注的對象,,那么如何掌握這些狀態(tài)信息呢,?我們需要借助于網(wǎng)絡監(jiān)控工具 Smokeping,。
Smokeping 是 RRDTool 的作者 Tobi Oetiker 的作品,是用 Perl 寫的,,主要是監(jiān)視網(wǎng)絡性能,WWW 服務器性能,,DNS 查詢性能等,,使用 RRDTool 繪圖,而且支持分布式,,直接從多個 Agent 進行數(shù)據(jù)的匯總,。
5、 流量分析
網(wǎng)站流量分析對于運維人員來說,,更是一門必須掌握的知識了,。比如對于一家電商公司來說:通過對訂單來源的統(tǒng)計和分析,可以了解我們在某個網(wǎng)站上的廣告投入有沒有收到預期的效果,??梢詤^(qū)分不同地區(qū)的訪問人數(shù)、甚至商品交易額等,。百度統(tǒng)計,、Google分析、站長工具等等,,只需要在頁面嵌入一個js即可,。但是,,數(shù)據(jù)始終是在對方手中,個性化定制不方便,,于是 Google 出一個叫 PiWik 的開源分析工具,。
6、 日志監(jiān)控
通常情況下,,隨著系統(tǒng)的運行,,操作系統(tǒng)會產(chǎn)生系統(tǒng)日志,。應用程序會產(chǎn)生應用程序的訪問日志、錯誤日志,、運行日志,、網(wǎng)絡日志,我們可以使用 ELK 來進行日志監(jiān)控,。
對于日志監(jiān)控來說,,最見的需求就是收集、存儲,、查詢,、展示,開源社區(qū)正好有相對應的開源項目:logstash(收集)+ elasticsearch(存儲+搜索)+ kibana(展示),。
我們將這三個組合起來的技術稱之為 ELK Stack,所以說 ELK Stack指的是Elasticsearch,、Logstash,、Kibana 技術棧的結合。
如果收集了日志信息,,那么如果部署更新有異常出現(xiàn),,可以立即在 Kibana上看到,。
7,、 安全監(jiān)控
雖然 Linux 開源的安全產(chǎn)品不少,,比如:四層 Iptables,七層 WEB 防護Nginx+Lua實現(xiàn)的 WAF,,最后將相關的日志都收至 ELK Stack,,通過圖形化進行不同的攻擊類型展示。但是始終是一件比較耗費時間,,并且個人效果并不是很好,。這個時候我們可以選擇接入第三方服務廠商。
三方廠商提供全面的漏洞庫,,涵蓋服務、后門,、數(shù)據(jù)庫、配置檢測,、CGI、SMTP 等多種類型全面檢測主機,、Web 應用漏洞自主挖掘和行業(yè)共享相結合第一時間更新 0day 漏洞,杜絕最新安全隱患,。
8、 API 監(jiān)控
由于 API 變得越來越重要,,很顯然我們也需要這樣的數(shù)據(jù)來分辨我們提供的 API 是否能夠正常運作,。監(jiān)控API接口 GET,、POST,、PUT,、DELETE,、HEAD,、OPTIONS 的請求可用性、正確性,、響應時間為三大重性能指標,。
9,、 性能監(jiān)控
全面監(jiān)控網(wǎng)頁性能,,DNS 響應時間,、HTTP 建立連接時間,、頁面性能指數(shù)、響應時間,、可用率、元素大小等,。
10、 業(yè)務監(jiān)控
沒有業(yè)務指標監(jiān)控的監(jiān)控平臺,,不是一個完善的監(jiān)控平臺,,通常在我們的監(jiān)控系統(tǒng)中,必須將我們重要的業(yè)務指標進行監(jiān)控,,并設置閾值進行告警通知。
監(jiān)控報警
故障報警通知的方式有很多種,,當然我們最常用的還是短信,郵件,。
報警處理
一般報警后我們故障如何處理呢,?首先,我們可以通過告警升級機制先自動處理,,比如Nginx服務Down了,可以設置告警升級自動啟動Nginx,。
但是如果一般業(yè)務出現(xiàn)了嚴重故障,,我們通常根據(jù)故障的級別,故障的業(yè)務,,來指派不同的運維人員進行處理,。
當然不同業(yè)務形態(tài)、不同架構,、不同服務可能采用的方式都不同,,這個沒有一個固定的模式套用。
來源:機房動力環(huán)境監(jiān)控系統(tǒng) http://youring.cn 本文采集于網(wǎng)絡,,如有問題有聯(lián)系刪除
專線:劉剛 13911133352
E-mail:[email protected]
北京金恒智能系統(tǒng)工程技術有限責任公司 版權所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,,任何模仿本站模板,、轉載本站內(nèi)容等行為者,本站保留追究其法律責任的權利,!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網(wǎng)站XML
智慧機房
在線體驗