導(dǎo)讀:騰訊作為國內(nèi)體量**大的互聯(lián)網(wǎng)公司之一,業(yè)務(wù)涵蓋用戶日常生活的方方面面,面對如此巨大業(yè)務(wù)數(shù)據(jù)量,如果不能對數(shù)據(jù)進行專業(yè)化處理并高效有序地存、管、用,如果不能使數(shù)據(jù)產(chǎn)生應(yīng)有的價值,那么數(shù)據(jù)資產(chǎn)將會成為數(shù)據(jù)垃圾,成為社會和企業(yè)的負擔。大數(shù)據(jù)平臺作為騰訊底層的基礎(chǔ)設(shè)施之一,每天必須處理千萬級規(guī)模的離線數(shù)據(jù)任務(wù)及十萬億級別的實時計算,否則無法滿足業(yè)務(wù)每天數(shù)以億計的數(shù)據(jù)分析計算的需求。本文主要介紹騰訊大數(shù)據(jù)的構(gòu)建理念和總體架構(gòu)。01騰訊大數(shù)據(jù)的構(gòu)建理念項目立項的時候我們曾有過激烈討論,是自主研發(fā)還是使用開源,“Tobe,ornottobe:thatisthequestion”。當時業(yè)務(wù)需求比較迫切,2009年上半年,QQ空間引入了“開心農(nóng)場”業(yè)務(wù),開啟了瘋狂增長的模式,業(yè)務(wù)部門的同事看著幾乎是垂直的增長曲線笑逐顏開,我們看著曲線卻笑不出來。如何能快速構(gòu)建全新的數(shù)據(jù)倉庫,滿足業(yè)務(wù)快速增長的計算需求,我們在努力尋找答案。在2008~2009年,開源在國內(nèi)還沒大行其道,很多程序員都有一種偏見,覺得使用開源都是沒什么技術(shù)含量的。幾乎所有的程序員心里都有一個夢想和追求,希望能自己實現(xiàn)一套前列的系統(tǒng),從而在中國乃至世界的軟件行業(yè)揚名立萬。數(shù)據(jù)收集可以通過自動化系統(tǒng)或手動方法進行。常州智能化數(shù)據(jù)采集系統(tǒng)
是指H5集成JavaScript數(shù)據(jù)采集SDK后,H5觸發(fā)的事件不直接同步給服務(wù)端,而是先發(fā)給App端的數(shù)據(jù)采集SDK,經(jīng)App端數(shù)據(jù)采集SDK二次加工處理后入本地緩存再進行同步。App為什么要與H5打通呢?主要是從以下幾個角度考慮。1.數(shù)據(jù)丟失率在業(yè)界,App端采集數(shù)據(jù)的丟失率一般在1%左右,而H5采集數(shù)據(jù)的丟失率一般在5%左右(主要是因為緩存、網(wǎng)絡(luò)或切換頁面等原因)。因此,如果App與H5打通,H5觸發(fā)的所有事件都可以先發(fā)給App端數(shù)據(jù)采集SDK,經(jīng)過App端二次加工處理后并入本地緩存,在符合特定策略之后再進行同步數(shù)據(jù),即可把數(shù)據(jù)丟失率由5%降到1%左右。2.數(shù)據(jù)準確性眾所周知,H5無法直接獲取設(shè)備相關(guān)的信息,只能通過解析UserAgent值獲取到有限的信息,而解析UserAgent值,至少會面臨如下兩個問題:(1)有些信息通過解析UserAgent值根本獲取不到,比如應(yīng)用程序的版本號等;(2)有些信息通過解析UserAgent值可以獲取到,但內(nèi)容可能不正確。如果App與H5打通,由App端數(shù)據(jù)采集SDK補充這些信息,即可確保事件信息的準確性和完整性。3.用戶標識如果用戶在App端注冊或登錄之前使用我們的產(chǎn)品,我們一般都是使用匿名ID來標識用戶。而App與H5標識匿名用戶的規(guī)則不一樣。杭州本地數(shù)據(jù)采集管理系統(tǒng)數(shù)據(jù)采集可以通過智能家居設(shè)備實現(xiàn)對家庭能源消耗的監(jiān)測和管理。
所以數(shù)據(jù)分析法在工業(yè)設(shè)計中運用非常***,而且是極為重要的。[3]數(shù)據(jù)分析分析工具編輯使用Excel自帶的數(shù)據(jù)分析功能可以完成很多專業(yè)軟件才有的數(shù)據(jù)統(tǒng)計、分析,其中包括:直方圖、相關(guān)系數(shù)、協(xié)方差、各種概率分布、抽樣與動態(tài)模擬、總體均值判斷,均值推斷、線性、非線性回歸、多元回歸分析、移動平均等內(nèi)容。在商業(yè)智能領(lǐng)域Cognos、StyleIntelligence、Microstrategy、Brio、BO和Oracle以及國內(nèi)產(chǎn)品如YonghongZ-SuiteBI套件等。[5]數(shù)據(jù)分析步驟編輯數(shù)據(jù)分析有極***的應(yīng)用范圍。典型的數(shù)據(jù)分析可能包含以下三個步:[6]1、探索性數(shù)據(jù)分析:當數(shù)據(jù)剛?cè)〉脮r,可能雜亂無章,看不出規(guī)律,通過作圖、造表、用各種形式的方程擬合,計算某些特征量等手段探索規(guī)律性的可能形式,即往什么方向和用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。[6]2、模型選定分析,在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型,然后通過進一步的分析從中挑選一定的模型。[6]3、推斷分析:通常使用數(shù)理統(tǒng)計方法對所定模型或估計的可靠程度和精確程度作出推斷。[6]數(shù)據(jù)分析過程的主要活動由識別信息需求、收集數(shù)據(jù)、分析數(shù)據(jù)、評價并改進數(shù)據(jù)分析的有效性組成。
關(guān)于作者:胡典鋼,***工業(yè)物聯(lián)網(wǎng)**,順豐物聯(lián)網(wǎng)平臺負責(zé)人,兼任順豐集團職業(yè)發(fā)展評審委員和ZETA聯(lián)盟工業(yè)物聯(lián)網(wǎng)高級顧問,負責(zé)順豐物聯(lián)網(wǎng)平臺建設(shè)及產(chǎn)品化工作。在物聯(lián)網(wǎng)、邊緣計算、工業(yè)大數(shù)據(jù)領(lǐng)域從業(yè)10余年,有豐富的實踐經(jīng)驗。歷任NI公司應(yīng)用工程師、高級應(yīng)用工程師、大區(qū)銷售經(jīng)理,兼任GSDZone社區(qū)專欄作者和海南大學(xué)校外**,NI(中國)**認證雙架構(gòu)師——LabVIEW架構(gòu)師和TestStand架構(gòu)師,主導(dǎo)大型工業(yè)自動化測試控制和工業(yè)物聯(lián)網(wǎng)項目的開發(fā)工作。2016年受邀撰寫專著《TestStand工業(yè)自動化測試管理》,廣受業(yè)界好評,多次重印。本文摘編自《工業(yè)物聯(lián)網(wǎng):平臺架構(gòu)、關(guān)鍵技術(shù)與應(yīng)用實踐》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:978-7-111-70227-6)延伸閱讀《工業(yè)物聯(lián)網(wǎng)》點擊上圖了解及購買轉(zhuǎn)載請聯(lián)系微信:DoctorData推薦語:這是一本從平臺架構(gòu)、關(guān)鍵技術(shù)、應(yīng)用實踐3個維度***講解工業(yè)物聯(lián)網(wǎng)如何在生產(chǎn)實踐中落地的著作。它是順豐物聯(lián)網(wǎng)平臺負責(zé)人10余年經(jīng)驗的總結(jié),得到了行業(yè)里近10位**的一致推薦。數(shù)據(jù)采集可以通過智能交通系統(tǒng)實現(xiàn)對交通擁堵和事故的實時預(yù)警。
人工智能(AI)是指通過模擬、仿真和延伸人類智能的方法和技術(shù),使計算機系統(tǒng)能夠執(zhí)行類似于人類的認知、學(xué)習(xí)、推理和決策等智能活動。人工智能的目標是讓計算機系統(tǒng)能夠像人類一樣思考、學(xué)習(xí)和行動,從而解決各種復(fù)雜的問題,并提供智能化的服務(wù)和支持。人工智能涵蓋了多個子領(lǐng)域和技術(shù),其中一些主要包括:機器學(xué)習(xí):機器學(xué)習(xí)是一種讓計算機系統(tǒng)通過學(xué)習(xí)數(shù)據(jù)和模式來改善性能的技術(shù),包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)等方法。深度學(xué)習(xí):深度學(xué)習(xí)是機器學(xué)習(xí)的一個分支,基于人工神經(jīng)網(wǎng)絡(luò)模型,通過多層次的非線性變換來學(xué)習(xí)數(shù)據(jù)的高級抽象表示,廣泛應(yīng)用于圖像識別、語音識別、自然語言處理等領(lǐng)域。自然語言處理(NLP):自然語言處理是研究計算機如何理解、處理和生成自然語言的技術(shù),包括文本分析、語言翻譯、語音識別等方面。計算機視覺:計算機視覺是研究計算機如何從圖像或視頻中理解和分析視覺信息的技術(shù),包括目標檢測、圖像分類、物體識別等領(lǐng)域。智能機器人:智能機器人是結(jié)合了感知、學(xué)習(xí)和決策能力的機器人系統(tǒng),能夠自主地執(zhí)行任務(wù)和與環(huán)境進行交互。 數(shù)據(jù)采集可以通過物聯(lián)網(wǎng)技術(shù)實現(xiàn)對設(shè)備狀態(tài)和故障的遠程監(jiān)測。徐州光學(xué)數(shù)據(jù)采集單價
數(shù)據(jù)采集在科學(xué)研究中被廣泛應(yīng)用,例如天文觀測和地質(zhì)勘探。常州智能化數(shù)據(jù)采集系統(tǒng)
▲圖2***代離線計算平臺架構(gòu)第二代架構(gòu)從2012~2014年,在承載離線計算的基礎(chǔ)上,擴展了平臺能力,支持實時計算的需求,如圖3所示?!鴪D3第二代實時計算平臺架構(gòu)在***代離線計算平臺基礎(chǔ)之上,我們?nèi)诤蟂torm和Spark構(gòu)建了第二代實時計算平臺。主要的演進如下。1)集成Spark,離線計算比Hadoop性能更高。2)引入Storm,支持秒級/毫秒級的流式計算任務(wù)。3)建設(shè)了實時采集系統(tǒng)TDBank,數(shù)據(jù)采集實現(xiàn)從天級(T+1)到秒級的飛躍。4)支持資源和任務(wù)調(diào)度方面,平臺支持離線與在線混合部署,任務(wù)容器化,資源管理的維度支持CPU、內(nèi)存,以及網(wǎng)絡(luò)與I/O,進一步提升了平臺輕量化、敏捷性與靈活性,極大提升了平臺利用率,降低了成本。第三代架構(gòu)從2015~2019年,在通用大數(shù)據(jù)計算外,開始支持機器學(xué)習(xí)、深度學(xué)習(xí)等AI場景,BigData與AI在平臺層面逐步融合,如圖4所示?!鴪D4第三代機器學(xué)習(xí)計算平臺在第二代實時計算平臺基礎(chǔ)上,自主研發(fā)了機器學(xué)習(xí)平臺Angel,并以Angel為**構(gòu)建第三代機器學(xué)習(xí)計算平臺生態(tài)。主要演進如下。1)我們與北京大學(xué)合作,自主研發(fā)了高性能分布式機器學(xué)習(xí)平臺。該平臺支持十億至百億維度模型,支持數(shù)據(jù)并行及模型并行,支持在線訓(xùn)練。同時。常州智能化數(shù)據(jù)采集系統(tǒng)