2020年12月13日,據(jù)海外媒體報(bào)道,一個(gè)名為APT的網(wǎng)絡(luò)入侵組織把世界出名網(wǎng)管軟件廠商SolarWinds作為入侵目標(biāo)。這次APT攻擊首先是對(duì)SolarWinds旗下的Orion網(wǎng)絡(luò)監(jiān)控軟件更新服務(wù)器進(jìn)行入侵,并在軟件更新(Orion)中植入了惡意代碼。透露大約有1.8萬(wàn)客戶在其系統(tǒng)上部署了該更新,且對(duì)美國(guó)財(cái)政部高層領(lǐng)導(dǎo)使用的電子郵件系統(tǒng)也造成了影響。
SolarWinds的系統(tǒng)被攻擊之后,已導(dǎo)致全球許多組織的網(wǎng)絡(luò)遭到破壞,涉及的供應(yīng)鏈范圍極為廣大,被稱為2020年美國(guó)極大網(wǎng)絡(luò)安全事件。
“太陽(yáng)風(fēng)”(SolarWinds) 是一家專職提供IT監(jiān)控和運(yùn)維解決方案的商業(yè)公司。其產(chǎn)品SolarWinds Orion Network Performance Monitor(NPM)是集網(wǎng)絡(luò)監(jiān)測(cè)、設(shè)備性能維護(hù)管理、故障監(jiān)控、網(wǎng)絡(luò)實(shí)時(shí)流量監(jiān)控和歷史數(shù)據(jù)統(tǒng)計(jì)、匯總和歷史數(shù)據(jù)分析、虛擬數(shù)據(jù)中心監(jiān)控、網(wǎng)絡(luò)拓?fù)浔O(jiān)控等功能于一體的網(wǎng)絡(luò)管理系統(tǒng)。該軟件主要是用于企業(yè)內(nèi)部網(wǎng)絡(luò)管理,目前全球客戶超過(guò)32萬(wàn)家。SolarWinds作為一個(gè)齊全的IT管理系統(tǒng)還有一些功能的欠缺,而且中文支持也是一個(gè)國(guó)內(nèi)推廣的難題。像同一類型的軟件Hostmonitor、CA Unicenter也是存在同樣的問(wèn)題。 Argus運(yùn)維監(jiān)控系統(tǒng)配備統(tǒng)一的事件分析概覽,各類事件統(tǒng)計(jì)結(jié)果一覽無(wú)余。廣西運(yùn)維監(jiān)控服務(wù)熱線
數(shù)據(jù)是數(shù)字化轉(zhuǎn)型的基礎(chǔ)。無(wú)論是在傳統(tǒng)企業(yè),還是在IT成熟度較高的金融、互聯(lián)網(wǎng)等企業(yè)中,日志數(shù)據(jù)都是不可或缺的一個(gè)信息來(lái)源。日志記錄了服務(wù)器、工作站、防火墻和應(yīng)用軟件等IT資源運(yùn)行時(shí)的詳細(xì)信息,對(duì)于IT運(yùn)維有著重要的作用。Argus運(yùn)維監(jiān)控系統(tǒng)Syslog 日志接收和分析解決了以下難題:日志來(lái)源復(fù)雜,種類繁多,日志采集操作復(fù)雜,效率低下;在每天TB級(jí)以上的數(shù)據(jù)增量下,開(kāi)源解決方案的擴(kuò)展性和穩(wěn)定性無(wú)法保證;日志數(shù)據(jù)中記錄了豐富的信息,且存量巨大,日志價(jià)值挖掘困難;停留在被動(dòng)排障階段,無(wú)法及時(shí)發(fā)現(xiàn)業(yè)務(wù)異常,不能主動(dòng)感知業(yè)務(wù)和IT的狀態(tài)。 河北運(yùn)維監(jiān)控一體化Argus V3.4 重磅發(fā)布,打造完整的Iaas&Paas兼容感知,解耦Zabbix版本限制,生態(tài)無(wú)縫兼容。
遇到多集群場(chǎng)景問(wèn)題
多達(dá)上百個(gè)集群數(shù),而有些業(yè)務(wù)系統(tǒng)擁有多個(gè)集群,其多集群場(chǎng)景特點(diǎn)有:
服務(wù)發(fā)現(xiàn)隔離:Prometheus的服務(wù)發(fā)現(xiàn)機(jī)制無(wú)法發(fā)現(xiàn)多個(gè)集群的被監(jiān)控對(duì)象;
網(wǎng)絡(luò)隔離:跨集群可能存在連通性問(wèn)題;
業(yè)務(wù)需求:業(yè)務(wù)系統(tǒng)可能需要跨集群聚合數(shù)據(jù)。
只用Prometheus能解決嗎?
Prometheus本身只支持單機(jī)部署,沒(méi)有自帶支持集群部署,對(duì)于集群化和水平擴(kuò)展,官方和社區(qū)都沒(méi)有銀彈,需要合理選擇VictoriaMetrics、Thanos等開(kāi)源方案或自研方案。Prometheus的存儲(chǔ)空間也受限于單機(jī)磁盤容量,磁盤容量決定了單個(gè)Prometheus所能存儲(chǔ)的數(shù)據(jù)量,數(shù)據(jù)量大小又取決于被采集服務(wù)的指標(biāo)數(shù)量、服務(wù)數(shù)量、采集速率以及數(shù)據(jù)過(guò)期時(shí)間。在數(shù)據(jù)量大的情況下,我們可能就需要做很多取舍,比如丟棄不重要的指標(biāo)、降低采集速率、設(shè)置較短的數(shù)據(jù)過(guò)期時(shí)間等。
IAAS層的監(jiān)控從IAAS層的組成這個(gè)維度來(lái)說(shuō),可以分為一個(gè)個(gè)獨(dú)一的資源對(duì)象來(lái)分類監(jiān)控,針對(duì)每一類對(duì)象可以分別從狀態(tài)、性能、容量、質(zhì)量這幾個(gè)維度描述,將不同的數(shù)據(jù)綜合為開(kāi)發(fā)與運(yùn)維的統(tǒng)一視角。監(jiān)控告警產(chǎn)品的建設(shè)是任重而道遠(yuǎn)的過(guò)程,坑也非常多。要考慮多種因素,技術(shù)后臺(tái)能力只是其中的一部分。
例如在DevOps的文化下,需要從更高的層面來(lái)統(tǒng)一視角(開(kāi)發(fā)視角&運(yùn)維視角)避免將監(jiān)控做成"開(kāi)發(fā)的監(jiān)控”與"運(yùn)維的監(jiān)控”。也需要更多的考慮監(jiān)控產(chǎn)品使用的雙態(tài)(用戶態(tài)&系統(tǒng)態(tài))與不同的權(quán)限(行業(yè)屬性)如何分類設(shè)計(jì)。 基于Zabbix二開(kāi)的開(kāi)源監(jiān)控和報(bào)警系統(tǒng)Argus入門之旅!
監(jiān)控貫穿應(yīng)用的整個(gè)生命周期。即從程序設(shè)計(jì)、開(kāi)發(fā)、部署、下線,監(jiān)控是需要站在公司的業(yè)務(wù)角度去考慮,而不是針對(duì)某個(gè)監(jiān)控技術(shù)的使用。監(jiān)控的目標(biāo)包括:對(duì)系統(tǒng)不間斷的實(shí)時(shí)監(jiān)控。實(shí)時(shí)反饋系統(tǒng)當(dāng)前狀態(tài)。保證服務(wù)可靠性安全性。保證業(yè)務(wù)持續(xù)穩(wěn)定運(yùn)行。
運(yùn)維監(jiān)控方法包括:健康檢查。健康檢查是對(duì)應(yīng)用本身健康狀況的監(jiān)控,檢查服務(wù)是否還正常存活。日志。日志是排查問(wèn)題的主要方式,日志可以提供豐富的信息用于定位和解決問(wèn)題。調(diào)用鏈監(jiān)控。調(diào)用鏈監(jiān)控可以完整的呈現(xiàn)出一次請(qǐng)求的全部信息,包括服務(wù)調(diào)用鏈路、所耗時(shí)間等。指標(biāo)監(jiān)控。指標(biāo)是一些基于時(shí)間序列的離散數(shù)據(jù)點(diǎn),通過(guò)聚合和計(jì)算后能反映出一些重要指標(biāo)的趨勢(shì)。 我們要運(yùn)維監(jiān)控的對(duì)象你是否了解呢?比如CPU到底是如何工作的?廣西運(yùn)維監(jiān)控服務(wù)熱線
快來(lái)看看常用的運(yùn)維監(jiān)控必備知識(shí)!廣西運(yùn)維監(jiān)控服務(wù)熱線
中間件和數(shù)據(jù)庫(kù)組件監(jiān)控:中間件和數(shù)據(jù)庫(kù)組件都統(tǒng)一提供sidecar模式部署的exporter進(jìn)行指標(biāo)采集,并配置監(jiān)控告警。如果不是集群納管的數(shù)據(jù)庫(kù),也可以開(kāi)發(fā)自定義exporter(kingbase、greatdb等國(guó)產(chǎn)數(shù)據(jù)庫(kù)都走這個(gè)方式),也可以開(kāi)發(fā)指標(biāo)推到Prometheus的pushgateway(polardb國(guó)產(chǎn)數(shù)據(jù)庫(kù)走這個(gè)方式),還可以配置Prometheus去拉取各組件的metrics(etcd等中間件有提供標(biāo)準(zhǔn)的metrics)。
各業(yè)務(wù)集群怎么部署監(jiān)控組件各業(yè)務(wù)集群都單獨(dú)部署Prometheus和grafana;在集群各節(jié)點(diǎn)部署有kubelet客戶端和demonset模式的node-exporter;在集群管理節(jié)點(diǎn)部署Deloyment模式的kube-state-metrics;而k8s的管理組件kube-scheduler、control-manager、etcd自帶metrics,不需要部署任何采集工具,而是在Prometheus的配置文件中配置各組件的metrics地址獲取指標(biāo)數(shù)據(jù);中間件和數(shù)據(jù)庫(kù)組件內(nèi)帶有Sidecar模式的xxx-exporter(比如mysql-exporter),部署中間件和數(shù)據(jù)庫(kù)時(shí)就開(kāi)始收集監(jiān)控?cái)?shù)據(jù)。 廣西運(yùn)維監(jiān)控服務(wù)熱線
觀縱科技,2022-11-14正式啟動(dòng),成立了webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等幾大市場(chǎng)布局,應(yīng)對(duì)行業(yè)變化,順應(yīng)市場(chǎng)趨勢(shì)發(fā)展,在創(chuàng)新中尋求突破,進(jìn)而提升webfunny,walkingfunny,argus的市場(chǎng)競(jìng)爭(zhēng)力,把握市場(chǎng)機(jī)遇,推動(dòng)傳媒、廣電產(chǎn)業(yè)的進(jìn)步。是具有一定實(shí)力的傳媒、廣電企業(yè)之一,主要提供webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等領(lǐng)域內(nèi)的產(chǎn)品或服務(wù)。同時(shí),企業(yè)針對(duì)用戶,在webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等幾大領(lǐng)域,提供更多、更豐富的傳媒、廣電產(chǎn)品,進(jìn)一步為全國(guó)更多單位和企業(yè)提供更具針對(duì)性的傳媒、廣電服務(wù)。公司坐落于上海市奉賢區(qū)望園南路1288弄80號(hào)1904、1909室,業(yè)務(wù)覆蓋于全國(guó)多個(gè)省市和地區(qū)。持續(xù)多年業(yè)務(wù)創(chuàng)收,進(jìn)一步為當(dāng)?shù)亟?jīng)濟(jì)、社會(huì)協(xié)調(diào)發(fā)展做出了貢獻(xiàn)。