遇到多集群場景問題
多達上百個集群數(shù),而有些業(yè)務系統(tǒng)擁有多個集群,其多集群場景特點有:
服務發(fā)現(xiàn)隔離:Prometheus的服務發(fā)現(xiàn)機制無法發(fā)現(xiàn)多個集群的被監(jiān)控對象;
網(wǎng)絡隔離:跨集群可能存在連通性問題;
業(yè)務需求:業(yè)務系統(tǒng)可能需要跨集群聚合數(shù)據(jù)。
只用Prometheus能解決嗎?
Prometheus本身只支持單機部署,沒有自帶支持集群部署,對于集群化和水平擴展,官方和社區(qū)都沒有銀彈,需要合理選擇VictoriaMetrics、Thanos等開源方案或自研方案。Prometheus的存儲空間也受限于單機磁盤容量,磁盤容量決定了單個Prometheus所能存儲的數(shù)據(jù)量,數(shù)據(jù)量大小又取決于被采集服務的指標數(shù)量、服務數(shù)量、采集速率以及數(shù)據(jù)過期時間。在數(shù)據(jù)量大的情況下,我們可能就需要做很多取舍,比如丟棄不重要的指標、降低采集速率、設置較短的數(shù)據(jù)過期時間等。 運維小白如何做好運維監(jiān)控?運維監(jiān)控平臺
信創(chuàng)終端運維服務、數(shù)據(jù)中心運維服務、業(yè)務系統(tǒng)運維服務、適配遷移服務、安全運維服務等信創(chuàng)運維服務。通過信創(chuàng)運維服務體系、信創(chuàng)安全管理體系、信創(chuàng)一體化服務保障平臺、信創(chuàng)現(xiàn)場和遠程運維服務管理平臺,規(guī)范信創(chuàng)運維服務過程,提升信創(chuàng)運維服務保障能力,為客戶創(chuàng)建可視可控的運維環(huán)境,保障信創(chuàng)終端、數(shù)據(jù)中心和業(yè)務應用系統(tǒng)的可靠、高效、持續(xù)、安全運行。
多種信創(chuàng)技術路線并存:信創(chuàng)運維技術難度高,缺乏成熟運維技術和經(jīng)驗參考,信創(chuàng)運維技術培訓不健全。信創(chuàng)適配遷移困難:缺乏應用系統(tǒng)適配改造經(jīng)驗,應用遷移涉及重構與重編譯,工作量大,遷移工具不成熟。信創(chuàng)生態(tài)環(huán)境不成熟:信創(chuàng)產(chǎn)品性能、可靠性、品質(zhì)、成熟度參差不齊,生態(tài)環(huán)境不成熟,產(chǎn)業(yè)鏈生態(tài)整合能力弱。信創(chuàng)運維管理復雜:信創(chuàng)環(huán)境和非信創(chuàng)環(huán)境并存,運維管理復雜。與國外成熟產(chǎn)品差距大,運維難度高,要求較高的運維技術能力。 網(wǎng)站智慧運維監(jiān)控管理解決方案Argus運維監(jiān)控網(wǎng)絡設備配置文件自動備份。
Argus運維監(jiān)控系統(tǒng)基于ZABBIX的預處理及自動發(fā)現(xiàn)功能,有效整合PROMETHEUS。
環(huán)境復雜 :在現(xiàn)有的架構環(huán)境中,既有虛擬主機,又有 Kubernets 集群
監(jiān)控工具多 : 在現(xiàn)有的環(huán)境中的監(jiān)控工具既有zabbix,又有 prometheus § Zabbix的監(jiān)控項及Prometheus的配置仍為大量的 手工操作 § 每套工具有單獨的技術棧,維護成本高
無統(tǒng)一化告警人管理 :zabbix及grafana中都有告警人配置
數(shù)據(jù)采集 : Prometheus 負責Exporter及 Kubernets集群的 監(jiān)控項采集,并單獨于Kubernets集群外部署 § Zabbix負責虛擬主機監(jiān)控項的采集
事件處理 : Zabbix 通過HTTP agent 方式查詢不同的 prometheus 采集節(jié)點,并通過監(jiān)控項模板中監(jiān)控項 的預處理及自動發(fā)現(xiàn)功能自動創(chuàng)建不同應用名稱的監(jiān) 控項及監(jiān)控項閾值 § Zabbix 通過不同監(jiān)控項的當前數(shù)據(jù)判斷閾值并觸 發(fā)不同閾值級別下相應的動作 § 各閾值動作通過應用名關聯(lián)不同的用戶組,觸發(fā) 釘釘通知到對應的研發(fā)團隊
IT運維監(jiān)控具有性能穩(wěn)定、用戶界面友好、跨平臺、易實施、易集成等特點,可極大地簡化IT設施和業(yè)務系統(tǒng)的監(jiān)控管理。越來越多的客戶都在考慮或采納業(yè)務集中的方案。然而業(yè)務系統(tǒng)集中后,不僅增加運行維護的工作強度,而且會使集中的系統(tǒng)變得更加繁雜。有效的系統(tǒng)和應用監(jiān)控體系成為了解業(yè)務資源的使用狀況,及時發(fā)現(xiàn)可能導致系統(tǒng)故障的隱患,實現(xiàn)系統(tǒng)運營保障的關鍵。另一方面,借助于集中監(jiān)控解決方案,用戶能夠正確和及時地了解系統(tǒng)的運行狀態(tài),發(fā)現(xiàn)影響整體系統(tǒng)運行的瓶頸,幫助系統(tǒng)人員進行必要的系統(tǒng)優(yōu)化和配置變更,甚至為系統(tǒng)的升級和擴容提供依據(jù)。強有力的監(jiān)控和診斷工具還可以幫助運行維護人員快速地分析出應用故障原因,把他們從繁雜重復的勞動中解放出來。維護人員快速地分析出應用故障原因,把他們從繁雜重復的勞動中解放出來。因此,很多客戶的 IT 部門提出建立集中 IT 管理系統(tǒng)的需求,監(jiān)控的內(nèi)容包括網(wǎng)絡、服務器、數(shù)據(jù)庫、中間件和應用。通過集中監(jiān)控系統(tǒng)及時發(fā)現(xiàn)系統(tǒng)中的故障,減少故障處理時間。我們要運維監(jiān)控這個東西的什么屬性?比如CPU的使用率、負載、用戶態(tài)、內(nèi)核態(tài)、上下文切換。
基于信創(chuàng)環(huán)境建立信創(chuàng)運維服務體系,滿足跨平臺對信創(chuàng)軟硬件設備提供運維監(jiān)控管理功能,包括不限于服務器(ARM架構、MIPS架構、X86架構等)、網(wǎng)絡設備、數(shù)據(jù)庫(國產(chǎn)數(shù)據(jù)庫及非國產(chǎn)數(shù)據(jù)庫)、應用服務器、存儲、業(yè)務系統(tǒng)等全域多視角地監(jiān)控和管理,幫助用戶在極短時間發(fā)現(xiàn)問題、分析出原因、得出解決方案,使故障問題能夠在極短時間內(nèi)解決,保證業(yè)務系統(tǒng)的連續(xù)性。Argus 運維監(jiān)控平臺是跨區(qū)域、跨部門的運維系統(tǒng)監(jiān)控平臺,實現(xiàn)包括不限于服務器(ARM架構、MIPS架構、X86架構等)、網(wǎng)絡設備、數(shù)據(jù)庫(國產(chǎn)數(shù)據(jù)庫及非國產(chǎn)數(shù)據(jù)庫)、中間件、存儲、業(yè)務系統(tǒng)等運維監(jiān)控。通過對基礎實施、信息系統(tǒng)、項目進度的總體監(jiān)控實現(xiàn)運維體系的有效運行,保障信創(chuàng)項目順利開展。提供自動化運維、智能化運維功能,打破了人工現(xiàn)場運維效率低下的現(xiàn)狀;從信息采集、健康巡檢、補丁分發(fā)等場景實現(xiàn)功能自動化;利用智能學習、大數(shù)據(jù)分析、機器學習等技術手段,實現(xiàn)故障從人工處理到無人值守的變革,降低故障處理時間的同時,實現(xiàn)被動運維到主動干預的轉變。以 zabbix 為采集中心配合自研的 ArgusNMS 增強模塊為一組采集單元, ArgusEdge 的統(tǒng)一調(diào)度實現(xiàn)監(jiān)管控的需求。智能運維監(jiān)控平臺
Argus運維監(jiān)控系統(tǒng)-IT網(wǎng)管的救命稻草!運維監(jiān)控平臺
大集群場景特點數(shù)據(jù)規(guī)模大:監(jiān)控對象targets多,數(shù)千萬時序數(shù)據(jù)time-series,單Prometheus負載非常高。
當series數(shù)據(jù)超過300萬時,Prometheus內(nèi)存增長較為明顯,需要使用較大內(nèi)存的機器來運行。壓測過程中,我們使用了工具去生成預期數(shù)目的series,工具生成的series每個label的長度及值的長度都較小,固定為10個字符左右。我們的目的是觀察相對負載變化,實際生產(chǎn)中由于label長度不同,服務發(fā)現(xiàn)機制(比如Pod頻繁重啟)的消耗不同,相同的series數(shù)目所消耗的負載會比壓測中高不少。目前Argus有好幾個集群的采集端Prometheus消耗內(nèi)存在30G以上,這會導致查詢效率下降,嚴重的會導致OOM,有的大集群內(nèi)存消耗達幾百G。 運維監(jiān)控平臺
上海觀縱科技有限公司是一家從事webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應用性能監(jiān)控,Argus-IT運維監(jiān)控研發(fā)、生產(chǎn)、銷售及售后的服務型企業(yè)。公司坐落在上海市奉賢區(qū)望園南路1288弄80號1904、1909室,成立于2022-11-14。公司通過創(chuàng)新型可持續(xù)發(fā)展為重心理念,以客戶滿意為重要標準。在孜孜不倦的奮斗下,公司產(chǎn)品業(yè)務越來越廣。目前主要經(jīng)營有webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應用性能監(jiān)控,Argus-IT運維監(jiān)控等產(chǎn)品,并多次以傳媒、廣電行業(yè)標準、客戶需求定制多款多元化的產(chǎn)品。上海觀縱科技有限公司研發(fā)團隊不斷緊跟webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應用性能監(jiān)控,Argus-IT運維監(jiān)控行業(yè)發(fā)展趨勢,研發(fā)與改進新的產(chǎn)品,從而保證公司在新技術研發(fā)方面不斷提升,確保公司產(chǎn)品符合行業(yè)標準和要求。webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應用性能監(jiān)控,Argus-IT運維監(jiān)控產(chǎn)品滿足客戶多方面的使用要求,讓客戶買的放心,用的稱心,產(chǎn)品定位以經(jīng)濟實用為重心,公司真誠期待與您合作,相信有了您的支持我們會以昂揚的姿態(tài)不斷前進、進步。