監(jiān)控貫穿應(yīng)用的整個(gè)生命周期。即從程序設(shè)計(jì)、開(kāi)發(fā)、部署、下線,監(jiān)控是需要站在公司的業(yè)務(wù)角度去考慮,而不是針對(duì)某個(gè)監(jiān)控技術(shù)的使用。監(jiān)控的目標(biāo)包括:對(duì)系統(tǒng)不間斷的實(shí)時(shí)監(jiān)控。實(shí)時(shí)反饋系統(tǒng)當(dāng)前狀態(tài)。保證服務(wù)可靠性安全性。保證業(yè)務(wù)持續(xù)穩(wěn)定運(yùn)行。
運(yùn)維監(jiān)控方法包括:健康檢查。健康檢查是對(duì)應(yīng)用本身健康狀況的監(jiān)控,檢查服務(wù)是否還正常存活。日志。日志是排查問(wèn)題的主要方式,日志可以提供豐富的信息用于定位和解決問(wèn)題。調(diào)用鏈監(jiān)控。調(diào)用鏈監(jiān)控可以完整的呈現(xiàn)出一次請(qǐng)求的全部信息,包括服務(wù)調(diào)用鏈路、所耗時(shí)間等。指標(biāo)監(jiān)控。指標(biāo)是一些基于時(shí)間序列的離散數(shù)據(jù)點(diǎn),通過(guò)聚合和計(jì)算后能反映出一些重要指標(biāo)的趨勢(shì)。 什么是統(tǒng)一運(yùn)維監(jiān)控平臺(tái)?真的能提高IT運(yùn)維效率嗎?廣東運(yùn)維監(jiān)控常見(jiàn)問(wèn)題
對(duì)于服務(wù)器的監(jiān)控同樣也是從狀態(tài)、性能與容量這幾個(gè)維度入手。雖然SNMP也可以用于服務(wù)器監(jiān)控,但相對(duì)于agent主動(dòng)上報(bào)指標(biāo)與數(shù)據(jù)會(huì)少很多。
服務(wù)器的狀態(tài)監(jiān)控主要包含服務(wù)器是否ping的通、agent上報(bào)是否超時(shí)與電源運(yùn)行狀態(tài)等等。對(duì)于性能與容量這兩類維度,主要依賴當(dāng)前OS的數(shù)據(jù)捕獲,一般來(lái)說(shuō)對(duì)于服務(wù)器監(jiān)控來(lái)說(shuō)在通用場(chǎng)景下主要關(guān)注CPU、內(nèi)存、流量與包量這四個(gè)指標(biāo)即可,但是別的指標(biāo)也建議盡量捕獲。
單個(gè)監(jiān)控對(duì)象的數(shù)據(jù)豐富了會(huì)有如下好處:避免對(duì)象的監(jiān)控盲點(diǎn)不同的監(jiān)控?cái)?shù)據(jù)點(diǎn)可以部分對(duì)應(yīng)出該服務(wù)器所承載的業(yè)務(wù)特性指標(biāo),例如存儲(chǔ)類業(yè)務(wù)也會(huì)關(guān)注disk_total_read、svctm_time_max、await_time_max等等系統(tǒng)指標(biāo)生產(chǎn)的數(shù)據(jù)足夠豐富能夠催生出更加豐富的運(yùn)維數(shù)據(jù)消費(fèi)場(chǎng)景。服務(wù)器監(jiān)控相對(duì)是很標(biāo)準(zhǔn)的監(jiān)控模型,針對(duì)于物理服務(wù)器與虛擬機(jī)都有共性指標(biāo)。這部分主要做到采集的數(shù)據(jù)豐富與上報(bào)的準(zhǔn)確性(算法準(zhǔn)確)。 服務(wù)運(yùn)維監(jiān)控管理Argus運(yùn)維監(jiān)控系統(tǒng)通過(guò)事件壓縮機(jī)制, 構(gòu)建了事件集的聚合業(yè)務(wù)。
Zabbix 是 B/S 架構(gòu),抓取數(shù)據(jù)是通過(guò)客戶端抓取的,在客戶端必須有服務(wù)啟動(dòng),該服務(wù)負(fù)責(zé)采集數(shù)據(jù),數(shù)據(jù)會(huì)主動(dòng)上報(bào)給服務(wù)端,也可讓服務(wù)端連接客戶端去抓取數(shù)據(jù)??蛻舳朔譃閮煞N模式,即主動(dòng)模式和被動(dòng)模式。Argus運(yùn)維監(jiān)平臺(tái)以 Zabbix 為基礎(chǔ),可同時(shí)兼容 不同版本的Zabbix,以 zabbix 為采集關(guān)鍵配合自研的 ArgusNMS 增強(qiáng)模塊為一組采集單元, ArgusEdge 的統(tǒng)一調(diào)度實(shí)現(xiàn)監(jiān)管控的需求。單一業(yè)務(wù)環(huán)境下可以支持多 組采集單元(多zabbix-server),實(shí)現(xiàn)真正意義上的分布式采集。
2020年12月13日,據(jù)海外媒體報(bào)道,一個(gè)名為APT的網(wǎng)絡(luò)入侵組織把世界出名網(wǎng)管軟件廠商SolarWinds作為入侵目標(biāo)。這次APT攻擊首先是對(duì)SolarWinds旗下的Orion網(wǎng)絡(luò)監(jiān)控軟件更新服務(wù)器進(jìn)行入侵,并在軟件更新(Orion)中植入了惡意代碼。透露大約有1.8萬(wàn)客戶在其系統(tǒng)上部署了該更新,且對(duì)美國(guó)財(cái)政部高層領(lǐng)導(dǎo)使用的電子郵件系統(tǒng)也造成了影響。
SolarWinds的系統(tǒng)被攻擊之后,已導(dǎo)致全球許多組織的網(wǎng)絡(luò)遭到破壞,涉及的供應(yīng)鏈范圍極為廣大,被稱為2020年美國(guó)極大網(wǎng)絡(luò)安全事件。
“太陽(yáng)風(fēng)”(SolarWinds) 是一家專職提供IT監(jiān)控和運(yùn)維解決方案的商業(yè)公司。其產(chǎn)品SolarWinds Orion Network Performance Monitor(NPM)是集網(wǎng)絡(luò)監(jiān)測(cè)、設(shè)備性能維護(hù)管理、故障監(jiān)控、網(wǎng)絡(luò)實(shí)時(shí)流量監(jiān)控和歷史數(shù)據(jù)統(tǒng)計(jì)、匯總和歷史數(shù)據(jù)分析、虛擬數(shù)據(jù)中心監(jiān)控、網(wǎng)絡(luò)拓?fù)浔O(jiān)控等功能于一體的網(wǎng)絡(luò)管理系統(tǒng)。該軟件主要是用于企業(yè)內(nèi)部網(wǎng)絡(luò)管理,目前全球客戶超過(guò)32萬(wàn)家。SolarWinds作為一個(gè)齊全的IT管理系統(tǒng)還有一些功能的欠缺,而且中文支持也是一個(gè)國(guó)內(nèi)推廣的難題。像同一類型的軟件Hostmonitor、CA Unicenter也是存在同樣的問(wèn)題。 快來(lái)看看常用的運(yùn)維監(jiān)控必備知識(shí)!
對(duì)于網(wǎng)絡(luò)設(shè)備的監(jiān)控,也一般從設(shè)備性能、質(zhì)量、狀態(tài)等維度入手。對(duì)于每臺(tái)網(wǎng)絡(luò)設(shè)備來(lái)說(shuō)運(yùn)維同學(xué)一般會(huì)關(guān)注如下等高頻場(chǎng)景:
網(wǎng)絡(luò)設(shè)備的運(yùn)行狀態(tài)syslog(設(shè)備運(yùn)行日志)的監(jiān)控與告警;設(shè)備堆疊狀態(tài)下的(例如交換機(jī)堆疊)的監(jiān)控與告警;網(wǎng)絡(luò)設(shè)備上每個(gè)物理端口的、流量、包量、錯(cuò)包與端口狀態(tài)的監(jiān)控與告警;網(wǎng)絡(luò)設(shè)備上邏輯端口(物理端口組合)的性能與狀態(tài)。
對(duì)于網(wǎng)絡(luò)設(shè)備的syslog告警來(lái)說(shuō),同樣也會(huì)面臨諸如:不同的廠商、設(shè)備類型與設(shè)備型號(hào)日志標(biāo)準(zhǔn)不統(tǒng)一等問(wèn)題。
所以對(duì)于網(wǎng)絡(luò)設(shè)備syslog監(jiān)控告警來(lái)說(shuō),首先是將眾多的網(wǎng)絡(luò)設(shè)備進(jìn)行邏輯分組,以便于在一個(gè)分組內(nèi)的設(shè)備均可以響應(yīng)同一個(gè)告警關(guān)鍵字,并且這個(gè)分組粒度建議較細(xì),這樣才能保障告警關(guān)鍵字的有效性與獨(dú)一性。在這里根據(jù)多年的運(yùn)維經(jīng)驗(yàn),建議syslog告警的分組模型由四個(gè)維度組成:廠商+類型+型號(hào)+用途例如:CISCO+交換機(jī)+EX43000-24T+內(nèi)網(wǎng)接入層交換機(jī),通過(guò)這個(gè)公式就描述出一個(gè)設(shè)備的邏輯分組。 Argus優(yōu)化了 Promethues Exporter Http 采集接入流程,可自動(dòng)創(chuàng)建指標(biāo)。方案運(yùn)維監(jiān)控案例
Argus運(yùn)維監(jiān)控系統(tǒng)針對(duì) Zabbix 數(shù)據(jù)模型的場(chǎng)景優(yōu)化,定制了自定義拖拽的組合詳情頁(yè)面。廣東運(yùn)維監(jiān)控常見(jiàn)問(wèn)題
運(yùn)維監(jiān)控系統(tǒng)智能告警的整體成效明顯。結(jié)合預(yù)警和健康診斷后終在告警觸發(fā)環(huán)節(jié)形成可配置 化派單和收斂模型??呻S時(shí)滿足運(yùn)維團(tuán)隊(duì)的各種派單規(guī)則。有效抑制同類型告警事件以及存在從屬關(guān)系告警事件, 同樣實(shí)現(xiàn)界面化配置,整體抑制無(wú)需處理的告警工單 40%。整個(gè)智能告警模塊全部自主研發(fā),并實(shí)現(xiàn)標(biāo)準(zhǔn)的告警接 入模塊,可快速對(duì)接開(kāi)源監(jiān)控工具以及專業(yè)管理軟件提 供的監(jiān)控功能。以歷史監(jiān)控?cái)?shù)據(jù)做為樣本,通過(guò)算法學(xué)習(xí)形成預(yù)警 基線。 實(shí)作為告警的前置動(dòng)作,結(jié)合監(jiān)控?cái)?shù)據(jù)觸發(fā)健康診 斷流程。 逐步擴(kuò)充基線繪制的場(chǎng)景,在隱患出現(xiàn)期間提前介 入。廣東運(yùn)維監(jiān)控常見(jiàn)問(wèn)題
上海觀縱科技有限公司是我國(guó)webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控專業(yè)化較早的有限責(zé)任公司之一,觀縱科技是我國(guó)傳媒、廣電技術(shù)的研究和標(biāo)準(zhǔn)制定的重要參與者和貢獻(xiàn)者。公司承擔(dān)并建設(shè)完成傳媒、廣電多項(xiàng)重點(diǎn)項(xiàng)目,取得了明顯的社會(huì)和經(jīng)濟(jì)效益。觀縱科技將以精良的技術(shù)、優(yōu)異的產(chǎn)品性能和完善的售后服務(wù),滿足國(guó)內(nèi)外廣大客戶的需求。