整個餓了么監(jiān)控系統(tǒng)在演進過程中主要分為如下3個階段:
第一階段:主要由Statsd/Graphite/Grafana負責業(yè)務層的監(jiān)控,ETrace負責全鏈路監(jiān)控,Zabbix負責服務器層面的監(jiān)控,ELog負責分布式日志搜索;
第二階段:整個餓了么也從單IDC演進成異地多活架構(gòu),所以對監(jiān)控也提出了更高的要求,基于這個我們也自研LinDB,以支持多活架構(gòu)下的監(jiān)控,Zabbix慢慢被ESM/InfluxDB/Grafana所替換,使用ELK替換原來的日志方案;
第三階段:主要做一個減法,即把原來StatsD/Graphite/ETrace/ESM/InfluxDB統(tǒng)一到了EMonitor+LinDB這樣的平臺,以提供給用戶一套統(tǒng)一的監(jiān)控平臺,日志開始使用阿里云的SLS。 想要做好運維監(jiān)控,這個命題很大,可想而知不是只要做好一件兩件的事就能實現(xiàn),必定是成體系、成規(guī)范。青海運維監(jiān)控共同合作
基于Zabbix來構(gòu)建整個監(jiān)控體系生態(tài)圈。下面我們就來監(jiān)控系統(tǒng)的整個流程:數(shù)據(jù)采集:Zabbix通過SNMP、Agent、ICMP、SSH、IPMI等對系統(tǒng)進行數(shù)據(jù)采集;數(shù)據(jù)存儲:Zabbix存儲在MySQL上,也可以存儲在其他數(shù)據(jù)庫服務;使用數(shù)據(jù)庫是必備技能。數(shù)據(jù)分析:當我們事后需要復盤分析故障時,Zabbix能給我們提供圖形以及時間等相關信息,方面我們確定故障所在;數(shù)據(jù)展示:Web界面展示、(移動APP、java_php開發(fā)一個Web界面也可以);監(jiān)控報警:電話報警、郵件報警、微信報警、短信報警、報警升級機制等(無論什么報警都可以);報警處理:當接收到報警,我們需要根據(jù)故障的級別進行處理,比如:重要緊急、重要不緊急,等。根據(jù)故障的級別,配合相關的人員進行快速處理。本地運維監(jiān)控那個好Argus運維監(jiān)控多通道, 多用戶的事件靈活推送機制。
IT運維監(jiān)控具有性能穩(wěn)定、用戶界面友好、跨平臺、易實施、易集成等特點,可極大地簡化IT設施和業(yè)務系統(tǒng)的監(jiān)控管理。越來越多的客戶都在考慮或采納業(yè)務集中的方案。然而業(yè)務系統(tǒng)集中后,不僅增加運行維護的工作強度,而且會使集中的系統(tǒng)變得更加繁雜。有效的系統(tǒng)和應用監(jiān)控體系成為了解業(yè)務資源的使用狀況,及時發(fā)現(xiàn)可能導致系統(tǒng)故障的隱患,實現(xiàn)系統(tǒng)運營保障的關鍵。另一方面,借助于集中監(jiān)控解決方案,用戶能夠正確和及時地了解系統(tǒng)的運行狀態(tài),發(fā)現(xiàn)影響整體系統(tǒng)運行的瓶頸,幫助系統(tǒng)人員進行必要的系統(tǒng)優(yōu)化和配置變更,甚至為系統(tǒng)的升級和擴容提供依據(jù)。強有力的監(jiān)控和診斷工具還可以幫助運行維護人員快速地分析出應用故障原因,把他們從繁雜重復的勞動中解放出來。維護人員快速地分析出應用故障原因,把他們從繁雜重復的勞動中解放出來。因此,很多客戶的 IT 部門提出建立集中 IT 管理系統(tǒng)的需求,監(jiān)控的內(nèi)容包括網(wǎng)絡、服務器、數(shù)據(jù)庫、中間件和應用。通過集中監(jiān)控系統(tǒng)及時發(fā)現(xiàn)系統(tǒng)中的故障,減少故障處理時間。
信創(chuàng)終端運維服務、數(shù)據(jù)中心運維服務、業(yè)務系統(tǒng)運維服務、適配遷移服務、安全運維服務等信創(chuàng)運維服務。通過信創(chuàng)運維服務體系、信創(chuàng)安全管理體系、信創(chuàng)一體化服務保障平臺、信創(chuàng)現(xiàn)場和遠程運維服務管理平臺,規(guī)范信創(chuàng)運維服務過程,提升信創(chuàng)運維服務保障能力,為客戶創(chuàng)建可視可控的運維環(huán)境,保障信創(chuàng)終端、數(shù)據(jù)中心和業(yè)務應用系統(tǒng)的可靠、高效、持續(xù)、安全運行。
多種信創(chuàng)技術路線并存:信創(chuàng)運維技術難度高,缺乏成熟運維技術和經(jīng)驗參考,信創(chuàng)運維技術培訓不健全。信創(chuàng)適配遷移困難:缺乏應用系統(tǒng)適配改造經(jīng)驗,應用遷移涉及重構(gòu)與重編譯,工作量大,遷移工具不成熟。信創(chuàng)生態(tài)環(huán)境不成熟:信創(chuàng)產(chǎn)品性能、可靠性、品質(zhì)、成熟度參差不齊,生態(tài)環(huán)境不成熟,產(chǎn)業(yè)鏈生態(tài)整合能力弱。信創(chuàng)運維管理復雜:信創(chuàng)環(huán)境和非信創(chuàng)環(huán)境并存,運維管理復雜。與國外成熟產(chǎn)品差距大,運維難度高,要求較高的運維技術能力。 Argus運維監(jiān)控系統(tǒng)支持納管 VMware、OpenStack等虛擬化平臺,以及Nutanix、H3C CAS等超融合平臺。
對于網(wǎng)絡設備的監(jiān)控,也一般從設備性能、質(zhì)量、狀態(tài)等維度入手。對于每臺網(wǎng)絡設備來說運維同學一般會關注如下等高頻場景:
網(wǎng)絡設備的運行狀態(tài)syslog(設備運行日志)的監(jiān)控與告警;設備堆疊狀態(tài)下的(例如交換機堆疊)的監(jiān)控與告警;網(wǎng)絡設備上每個物理端口的、流量、包量、錯包與端口狀態(tài)的監(jiān)控與告警;網(wǎng)絡設備上邏輯端口(物理端口組合)的性能與狀態(tài)。
對于網(wǎng)絡設備的syslog告警來說,同樣也會面臨諸如:不同的廠商、設備類型與設備型號日志標準不統(tǒng)一等問題。
所以對于網(wǎng)絡設備syslog監(jiān)控告警來說,首先是將眾多的網(wǎng)絡設備進行邏輯分組,以便于在一個分組內(nèi)的設備均可以響應同一個告警關鍵字,并且這個分組粒度建議較細,這樣才能保障告警關鍵字的有效性與獨一性。在這里根據(jù)多年的運維經(jīng)驗,建議syslog告警的分組模型由四個維度組成:廠商+類型+型號+用途例如:CISCO+交換機+EX43000-24T+內(nèi)網(wǎng)接入層交換機,通過這個公式就描述出一個設備的邏輯分組。 Argus運維監(jiān)控系統(tǒng)配備統(tǒng)一的事件分析概覽,各類事件統(tǒng)計結(jié)果一覽無余。本地運維監(jiān)控那個好
運維小白如何做好運維監(jiān)控?青海運維監(jiān)控共同合作
大集群場景特點數(shù)據(jù)規(guī)模大:監(jiān)控對象targets多,數(shù)千萬時序數(shù)據(jù)time-series,單Prometheus負載非常高。
當series數(shù)據(jù)超過300萬時,Prometheus內(nèi)存增長較為明顯,需要使用較大內(nèi)存的機器來運行。壓測過程中,我們使用了工具去生成預期數(shù)目的series,工具生成的series每個label的長度及值的長度都較小,固定為10個字符左右。我們的目的是觀察相對負載變化,實際生產(chǎn)中由于label長度不同,服務發(fā)現(xiàn)機制(比如Pod頻繁重啟)的消耗不同,相同的series數(shù)目所消耗的負載會比壓測中高不少。目前Argus有好幾個集群的采集端Prometheus消耗內(nèi)存在30G以上,這會導致查詢效率下降,嚴重的會導致OOM,有的大集群內(nèi)存消耗達幾百G。 青海運維監(jiān)控共同合作
上海觀縱科技有限公司是我國webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應用性能監(jiān)控,Argus-IT運維監(jiān)控專業(yè)化較早的有限責任公司之一,公司位于上海市奉賢區(qū)望園南路1288弄80號1904、1909室,成立于2022-11-14,迄今已經(jīng)成長為傳媒、廣電行業(yè)內(nèi)同類型企業(yè)的佼佼者。觀縱科技以webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應用性能監(jiān)控,Argus-IT運維監(jiān)控為主業(yè),服務于傳媒、廣電等領域,為全國客戶提供先進webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應用性能監(jiān)控,Argus-IT運維監(jiān)控。產(chǎn)品已銷往多個國家和地區(qū),被國內(nèi)外眾多企業(yè)和客戶所認可。