我們所講的運維監(jiān)控不是視頻的監(jiān)控,也不是那種上網(wǎng)行為的監(jiān)控,確切的講我們可以叫他IT運維監(jiān)控管理系統(tǒng),也就是專門針對一些有一定IT規(guī)模的有idc機房的一些企業(yè)提供的管理軟件,也就是我們所說的網(wǎng)管軟件,網(wǎng)管軟件發(fā)展到不僅是提供監(jiān)控的功能了,而是更多的參與到了IT的管理,如果利用好收集來的數(shù)據(jù)能為其他部門甚至整個公司帶來很大的方便和效益。
我們習慣把監(jiān)控的IT設備叫做IT元素并且對他們進行了分類,這樣做也是為了方便讓使用者梳理自己的資產(chǎn),我們把他們分成了6大元素分別是:網(wǎng)絡設備,系統(tǒng),數(shù)據(jù)庫,中間件,存儲,應用,除了這常見的六大類還可以監(jiān)控管理到虛擬化,云平臺還有物聯(lián)網(wǎng)的的一些設備。 不可錯過的運維監(jiān)控干貨!可靠的IT運維監(jiān)控方案
Flow是一種數(shù)據(jù)交換方式,其工作原理是:
Flow利用標準的交換模式處理數(shù)據(jù)流的第1個IP包數(shù)據(jù),生成Flow緩存,隨后同樣的數(shù)據(jù)基于緩存信息在同一個數(shù)據(jù)流中進行傳輸,不再匹配相關的訪問控制等策略,F(xiàn)low緩存同時包含了隨后數(shù)據(jù)流的統(tǒng)計信息。
一個Flow流定義為在一個源IP地址和目的IP地址間傳輸?shù)膯蜗驍?shù)據(jù)包流,且所有數(shù)據(jù)包具有共同的傳輸層源、目的端口號。
相對于會話(“Session”)而言,“Flow”具備更細致的標識特征,在傳統(tǒng)的TCP/IP五元組的基礎上增加了一些新的域值,至少包括以下幾個字段:
|源IP地址|目的IP地址|源端口|目的端口|IP層協(xié)議類型|ToS服務類型(dscp)|輸入物理端口(ifindex)|
以上七個字段可以唯1地確定任意一個數(shù)據(jù)包屬于哪個特定的Flow。
換而言之,任何一個字段出現(xiàn)了差異都意味著一個新Flow的發(fā)生。對于Flow的分析展示同樣也是要基于多維度的:
IP(目的與源)、port(目的與源)、業(yè)務、網(wǎng)絡架構(gòu)、城市、IDC等。
具體所需的維度依賴于自己的業(yè)務場景。Flow是廠商的私有協(xié)議,業(yè)界也有多種的Flow格式。例如CISCO、華為、juniper等等的主流廠商的Flow也是均有一定差異性與優(yōu)劣的,常用的有NetFlow與SFlow。所以這部分的后臺能力是需要有異構(gòu)。 國產(chǎn)運維監(jiān)控產(chǎn)品排行榜Argus V3.4 重磅發(fā)布,打造完整的Iaas&Paas兼容感知,解耦Zabbix版本限制,生態(tài)無縫兼容。
Prometheus指標采集和查詢存儲方案-2020年
我們分一級監(jiān)控平臺和二級集群Prometheus監(jiān)控采集組件。一級提供kafka集群和Prometheus聚合組件,二級各集群部署Prometheus和Prometheus-kafka-adapter組件,采集和遠程送數(shù)據(jù)到一級的kafka集群。
該方案優(yōu)點:
1.業(yè)務系統(tǒng)可以跨集群聚合數(shù)據(jù),如圖k8s集群-1和k8s集群-2數(shù)據(jù)聚合到Top-1的Prometheus上。
2.一級監(jiān)控平臺上只要有足夠的cpu、存儲資源,理論上可以水平擴展接入更多集群。2020年底采集的指標量每天3194億的量級,吞吐量達370萬/s。
3.采集端Prometheus可以保留極少數(shù)據(jù),比如6小時的數(shù)據(jù),減少資源消耗。而上層Prometheus由于落數(shù)據(jù)到時序數(shù)據(jù)庫influxdb中,可以保存一個月數(shù)據(jù)量甚至更多。
該方案沒做到什么:
1.采集端Prometheus擴容問題,單集群中數(shù)據(jù)規(guī)模受Prometheus原生的限制。
2.一級監(jiān)控平臺上時序數(shù)據(jù)庫influxdb有單點問題,數(shù)據(jù)規(guī)模和數(shù)據(jù)安全性受其影響。
Argus搭建可觀測性監(jiān)控的原則客觀性、系統(tǒng)性、關聯(lián)性、預見性。低嵌入、無干擾的第三方視角觀測采集數(shù)據(jù);不單一的只看某個指標,注重各觀測角度之間的整體性關系,系統(tǒng)的涵蓋所需觀察的每個方面,體現(xiàn)出被觀測對象較為完整的觀測結(jié)果;每個監(jiān)控項或應用既具單獨性,又具相關性,而各要素和體關聯(lián)性系之間同樣存在這種“相互關聯(lián)或相互作用”的關系;任何事物的觀察都是基于時間的動態(tài)行為,監(jiān)控的目的是要提早發(fā)現(xiàn)風險,避免發(fā)生故障,所以我們所有的監(jiān)控行為都要對將來可能發(fā)生事件實現(xiàn)預判。 IT運維監(jiān)控所包含的產(chǎn)品功能強大、易于使用、解決方案齊全,可一站式滿足用戶的各種IT管理需求。
隨著數(shù)字化進程的加深,企業(yè)在分治了很久以后,開始進入到統(tǒng)一運維管理的階段。由于“分久”,出現(xiàn)了敏穩(wěn)兩態(tài)不同的專業(yè)領域,傳統(tǒng)企業(yè)運維的歷史包袱很重,一些穩(wěn)態(tài)的重中之重應用無法完全轉(zhuǎn)移到敏態(tài)環(huán)境中,因此導致了數(shù)據(jù)的多樣化、復雜程度極高等特點,比如日志數(shù)據(jù)、告警數(shù)據(jù)、調(diào)用鏈數(shù)據(jù)、拓撲數(shù)據(jù)以及流程產(chǎn)生的信息數(shù)據(jù)等,導致分治變得十分麻煩。另外,這些繁冗復雜的數(shù)據(jù)視角各異,沒有可以從某一種業(yè)務視角或組件視角去看多樣化工具的能力,加之混合云的出現(xiàn),很多業(yè)務轉(zhuǎn)移到公有云或私有云上,使得數(shù)據(jù)孤島狀態(tài)加重,治理起來更加困難。
現(xiàn)狀需求:
1、監(jiān)控工具種類繁多,缺乏全局視角,難以整合;
2、運維監(jiān)控數(shù)據(jù)快速增長,尚未有效整合;
3、缺少智能運維分析手段,聯(lián)動能力不足;
4、欠缺知識共享系統(tǒng),未能對運維經(jīng)驗有效積累。
需求總結(jié):
希望有一種手段能夠通過人機合作的方式來完成知識的共享,把人的能力逐漸地變成一種組織和平臺的能力。 Argus運維監(jiān)控系統(tǒng)撥測分析模塊,從端口可用性等多個指標、維度進行撥測分析。國內(nèi)IT運維監(jiān)控技術(shù)
Argus運維監(jiān)控多通道, 多用戶的事件靈活推送機制??煽康腎T運維監(jiān)控方案
觀縱在協(xié)調(diào)交付與研發(fā)做信創(chuàng)產(chǎn)品適配,幫助客戶在內(nèi)部搭建信創(chuàng)環(huán)境的時候發(fā)現(xiàn),如果想讓運維行業(yè)的信創(chuàng)產(chǎn)業(yè)高質(zhì)量發(fā)展,是依靠自主創(chuàng)新研發(fā)產(chǎn)品是不夠的,還需要有領航者來為運維行業(yè)發(fā)展做“規(guī)劃”,給予客戶足夠的安全感和信任感。
如今,觀縱的Argus運維監(jiān)控系統(tǒng)目前已獲得部分信創(chuàng)適配證書。未來觀縱將繼續(xù)投入人力與物力,對產(chǎn)品進行創(chuàng)新實踐,加快其在信創(chuàng)領域的運維場景落地應用,攜手上下游合作伙伴共建生態(tài),領導智能運維行業(yè)向高質(zhì)量發(fā)展。 可靠的IT運維監(jiān)控方案
上海觀縱科技有限公司致力于傳媒、廣電,以科技創(chuàng)新實現(xiàn)高質(zhì)量管理的追求。觀縱科技擁有一支經(jīng)驗豐富、技術(shù)創(chuàng)新的專業(yè)研發(fā)團隊,以高度的專注和執(zhí)著為客戶提供webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應用性能監(jiān)控,Argus-IT運維監(jiān)控。觀縱科技繼續(xù)堅定不移地走高質(zhì)量發(fā)展道路,既要實現(xiàn)基本面穩(wěn)定增長,又要聚焦關鍵領域,實現(xiàn)轉(zhuǎn)型再突破。觀縱科技始終關注傳媒、廣電行業(yè)。滿足市場需求,提高產(chǎn)品價值,是我們前行的力量。