Flow是一種數(shù)據(jù)交換方式,其工作原理是:
Flow利用標(biāo)準(zhǔn)的交換模式處理數(shù)據(jù)流的第1個IP包數(shù)據(jù),生成Flow緩存,隨后同樣的數(shù)據(jù)基于緩存信息在同一個數(shù)據(jù)流中進(jìn)行傳輸,不再匹配相關(guān)的訪問控制等策略,F(xiàn)low緩存同時包含了隨后數(shù)據(jù)流的統(tǒng)計信息。
一個Flow流定義為在一個源IP地址和目的IP地址間傳輸?shù)膯蜗驍?shù)據(jù)包流,且所有數(shù)據(jù)包具有共同的傳輸層源、目的端口號。
相對于會話(“Session”)而言,“Flow”具備更細(xì)致的標(biāo)識特征,在傳統(tǒng)的TCP/IP五元組的基礎(chǔ)上增加了一些新的域值,至少包括以下幾個字段:
|源IP地址|目的IP地址|源端口|目的端口|IP層協(xié)議類型|ToS服務(wù)類型(dscp)|輸入物理端口(ifindex)|
以上七個字段可以唯1地確定任意一個數(shù)據(jù)包屬于哪個特定的Flow。
換而言之,任何一個字段出現(xiàn)了差異都意味著一個新Flow的發(fā)生。對于Flow的分析展示同樣也是要基于多維度的:
IP(目的與源)、port(目的與源)、業(yè)務(wù)、網(wǎng)絡(luò)架構(gòu)、城市、IDC等。
具體所需的維度依賴于自己的業(yè)務(wù)場景。Flow是廠商的私有協(xié)議,業(yè)界也有多種的Flow格式。例如CISCO、華為、juniper等等的主流廠商的Flow也是均有一定差異性與優(yōu)劣的,常用的有NetFlow與SFlow。所以這部分的后臺能力是需要有異構(gòu)。 Argus運(yùn)維監(jiān)控系統(tǒng)可手動設(shè)置貼合業(yè)務(wù)的事件聚合規(guī)則、消息分派規(guī)則,并可查看與管理事件集、事件。一體化IT運(yùn)維監(jiān)控方案
中間件和數(shù)據(jù)庫組件監(jiān)控:中間件和數(shù)據(jù)庫組件都統(tǒng)一提供sidecar模式部署的exporter進(jìn)行指標(biāo)采集,并配置監(jiān)控告警。如果不是集群納管的數(shù)據(jù)庫,也可以開發(fā)自定義exporter(kingbase、greatdb等國產(chǎn)數(shù)據(jù)庫都走這個方式),也可以開發(fā)指標(biāo)推到Prometheus的pushgateway(polardb國產(chǎn)數(shù)據(jù)庫走這個方式),還可以配置Prometheus去拉取各組件的metrics(etcd等中間件有提供標(biāo)準(zhǔn)的metrics)。
各業(yè)務(wù)集群怎么部署監(jiān)控組件各業(yè)務(wù)集群都單獨(dú)部署Prometheus和grafana;在集群各節(jié)點(diǎn)部署有kubelet客戶端和demonset模式的node-exporter;在集群管理節(jié)點(diǎn)部署Deloyment模式的kube-state-metrics;而k8s的管理組件kube-scheduler、control-manager、etcd自帶metrics,不需要部署任何采集工具,而是在Prometheus的配置文件中配置各組件的metrics地址獲取指標(biāo)數(shù)據(jù);中間件和數(shù)據(jù)庫組件內(nèi)帶有Sidecar模式的xxx-exporter(比如mysql-exporter),部署中間件和數(shù)據(jù)庫時就開始收集監(jiān)控數(shù)據(jù)。 有哪些穩(wěn)定的智能運(yùn)維監(jiān)控產(chǎn)品Argus運(yùn)維監(jiān)控大數(shù)據(jù)的提取與分析。
Prometheus指標(biāo)采集和查詢存儲方案-2020年
我們分一級監(jiān)控平臺和二級集群Prometheus監(jiān)控采集組件。一級提供kafka集群和Prometheus聚合組件,二級各集群部署Prometheus和Prometheus-kafka-adapter組件,采集和遠(yuǎn)程送數(shù)據(jù)到一級的kafka集群。
該方案優(yōu)點(diǎn):
1.業(yè)務(wù)系統(tǒng)可以跨集群聚合數(shù)據(jù),如圖k8s集群-1和k8s集群-2數(shù)據(jù)聚合到Top-1的Prometheus上。
2.一級監(jiān)控平臺上只要有足夠的cpu、存儲資源,理論上可以水平擴(kuò)展接入更多集群。2020年底采集的指標(biāo)量每天3194億的量級,吞吐量達(dá)370萬/s。
3.采集端Prometheus可以保留極少數(shù)據(jù),比如6小時的數(shù)據(jù),減少資源消耗。而上層Prometheus由于落數(shù)據(jù)到時序數(shù)據(jù)庫influxdb中,可以保存一個月數(shù)據(jù)量甚至更多。
該方案沒做到什么:
1.采集端Prometheus擴(kuò)容問題,單集群中數(shù)據(jù)規(guī)模受Prometheus原生的限制。
2.一級監(jiān)控平臺上時序數(shù)據(jù)庫influxdb有單點(diǎn)問題,數(shù)據(jù)規(guī)模和數(shù)據(jù)安全性受其影響。
基于信創(chuàng)環(huán)境建立信創(chuàng)運(yùn)維服務(wù)體系,滿足跨平臺對信創(chuàng)軟硬件設(shè)備提供運(yùn)維監(jiān)控管理功能,包括不限于服務(wù)器(ARM架構(gòu)、MIPS架構(gòu)、X86架構(gòu)等)、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(國產(chǎn)數(shù)據(jù)庫及非國產(chǎn)數(shù)據(jù)庫)、應(yīng)用服務(wù)器、存儲、業(yè)務(wù)系統(tǒng)等全域多視角地監(jiān)控和管理,幫助用戶在極短時間發(fā)現(xiàn)問題、分析出原因、得出解決方案,使故障問題能夠在極短時間內(nèi)解決,保證業(yè)務(wù)系統(tǒng)的連續(xù)性。Argus 運(yùn)維監(jiān)控平臺是跨區(qū)域、跨部門的運(yùn)維系統(tǒng)監(jiān)控平臺,實現(xiàn)包括不限于服務(wù)器(ARM架構(gòu)、MIPS架構(gòu)、X86架構(gòu)等)、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(國產(chǎn)數(shù)據(jù)庫及非國產(chǎn)數(shù)據(jù)庫)、中間件、存儲、業(yè)務(wù)系統(tǒng)等運(yùn)維監(jiān)控。通過對基礎(chǔ)實施、信息系統(tǒng)、項目進(jìn)度的總體監(jiān)控實現(xiàn)運(yùn)維體系的有效運(yùn)行,保障信創(chuàng)項目順利開展。提供自動化運(yùn)維、智能化運(yùn)維功能,打破了人工現(xiàn)場運(yùn)維效率低下的現(xiàn)狀;從信息采集、健康巡檢、補(bǔ)丁分發(fā)等場景實現(xiàn)功能自動化;利用智能學(xué)習(xí)、大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等技術(shù)手段,實現(xiàn)故障從人工處理到無人值守的變革,降低故障處理時間的同時,實現(xiàn)被動運(yùn)維到主動干預(yù)的轉(zhuǎn)變。以 zabbix 為采集中心配合自研的 ArgusNMS 增強(qiáng)模塊為一組采集單元, ArgusEdge 的統(tǒng)一調(diào)度實現(xiàn)監(jiān)管控的需求。
遇到多集群場景問題
多達(dá)上百個集群數(shù),而有些業(yè)務(wù)系統(tǒng)擁有多個集群,其多集群場景特點(diǎn)有:
服務(wù)發(fā)現(xiàn)隔離:Prometheus的服務(wù)發(fā)現(xiàn)機(jī)制無法發(fā)現(xiàn)多個集群的被監(jiān)控對象;
網(wǎng)絡(luò)隔離:跨集群可能存在連通性問題;
業(yè)務(wù)需求:業(yè)務(wù)系統(tǒng)可能需要跨集群聚合數(shù)據(jù)。
只用Prometheus能解決嗎?
Prometheus本身只支持單機(jī)部署,沒有自帶支持集群部署,對于集群化和水平擴(kuò)展,官方和社區(qū)都沒有銀彈,需要合理選擇VictoriaMetrics、Thanos等開源方案或自研方案。Prometheus的存儲空間也受限于單機(jī)磁盤容量,磁盤容量決定了單個Prometheus所能存儲的數(shù)據(jù)量,數(shù)據(jù)量大小又取決于被采集服務(wù)的指標(biāo)數(shù)量、服務(wù)數(shù)量、采集速率以及數(shù)據(jù)過期時間。在數(shù)據(jù)量大的情況下,我們可能就需要做很多取舍,比如丟棄不重要的指標(biāo)、降低采集速率、設(shè)置較短的數(shù)據(jù)過期時間等。 Argus運(yùn)維監(jiān)控系統(tǒng)撥測分析模塊,從端口可用性等多個指標(biāo)、維度進(jìn)行撥測分析。有什么好用的運(yùn)維監(jiān)控管理軟件
Argus運(yùn)維監(jiān)控體系全梳理!一體化IT運(yùn)維監(jiān)控方案
Zabbix 是 B/S 架構(gòu),抓取數(shù)據(jù)是通過客戶端抓取的,在客戶端必須有服務(wù)啟動,該服務(wù)負(fù)責(zé)采集數(shù)據(jù),數(shù)據(jù)會主動上報給服務(wù)端,也可讓服務(wù)端連接客戶端去抓取數(shù)據(jù)。客戶端分為兩種模式,即主動模式和被動模式。Argus運(yùn)維監(jiān)平臺以 Zabbix 為基礎(chǔ),可同時兼容 不同版本的Zabbix,以 zabbix 為采集關(guān)鍵配合自研的 ArgusNMS 增強(qiáng)模塊為一組采集單元, ArgusEdge 的統(tǒng)一調(diào)度實現(xiàn)監(jiān)管控的需求。單一業(yè)務(wù)環(huán)境下可以支持多 組采集單元(多zabbix-server),實現(xiàn)真正意義上的分布式采集。 一體化IT運(yùn)維監(jiān)控方案
上海觀縱科技有限公司是一家從事webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控研發(fā)、生產(chǎn)、銷售及售后的服務(wù)型企業(yè)。公司坐落在上海市奉賢區(qū)望園南路1288弄80號1904、1909室,成立于2022-11-14。公司通過創(chuàng)新型可持續(xù)發(fā)展為重心理念,以客戶滿意為重要標(biāo)準(zhǔn)。在孜孜不倦的奮斗下,公司產(chǎn)品業(yè)務(wù)越來越廣。目前主要經(jīng)營有webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等產(chǎn)品,并多次以傳媒、廣電行業(yè)標(biāo)準(zhǔn)、客戶需求定制多款多元化的產(chǎn)品。我們以客戶的需求為基礎(chǔ),在產(chǎn)品設(shè)計和研發(fā)上面苦下功夫,一份份的不懈努力和付出,打造了webfunny,walkingfunny,argus產(chǎn)品。我們從用戶角度,對每一款產(chǎn)品進(jìn)行多方面分析,對每一款產(chǎn)品都精心設(shè)計、精心制作和嚴(yán)格檢驗。上海觀縱科技有限公司以市場為導(dǎo)向,以創(chuàng)新為動力。不斷提升管理水平及webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控產(chǎn)品質(zhì)量。本公司以良好的商品品質(zhì)、誠信的經(jīng)營理念期待您的到來!