一、什么是物聯(lián)網(wǎng)數(shù)據(jù)?
物聯(lián)網(wǎng)數(shù)據(jù)顧名思義是由各種物聯(lián)網(wǎng)設備、傳感器產(chǎn)生的數(shù)據(jù)。與其他的數(shù)據(jù)相比,物聯(lián)網(wǎng)數(shù)據(jù)具有“大、小、高、底”四個特點:
“大”即物聯(lián)網(wǎng)數(shù)據(jù)體量大,我們經(jīng)常聽到的一個經(jīng)典的案例,即GE發(fā)動機有成百上千個傳感器,毫秒級頻度產(chǎn)生各種數(shù)據(jù)。一次飛機的飛行就可以超過1TB的數(shù)據(jù)量。很多工業(yè)場景產(chǎn)生的數(shù)據(jù)量可能會更大。
“小”即物聯(lián)網(wǎng)數(shù)據(jù)的價值密度小,或者也可以理解為要從海量的數(shù)據(jù)中找到價值的信息是一個比較難的事情。
“高”即物聯(lián)網(wǎng)數(shù)據(jù)時效性高,設備產(chǎn)生的數(shù)據(jù)流往往需要及時分析處理,隨著時間的流逝,其價值會迅速降低。
“低”即物聯(lián)網(wǎng)數(shù)據(jù)的質(zhì)量通常較低,原因是多方面的,可能跟IoT設備自身能力有關,也可能是較苛刻的設備部署環(huán)境,也可能是網(wǎng)絡傳輸問題等等,最終造成物聯(lián)網(wǎng)數(shù)據(jù)容易出現(xiàn)丟失,異常,重復等問題。
二、為什么要做物聯(lián)網(wǎng)數(shù)據(jù)分析?
如果只是將一堆龐大的物聯(lián)網(wǎng)數(shù)據(jù)在一起而不做分析的話,產(chǎn)生不了實際的價值意義,更無法基于數(shù)據(jù)來開發(fā)更多的增值服務。而在物聯(lián)網(wǎng)的實際應用中,企業(yè)可以基于對傳感器或物聯(lián)網(wǎng)設備上報上來的海量數(shù)據(jù)進行分析,實現(xiàn)物聯(lián)網(wǎng)設備運營分析、設備運行狀態(tài)的預測性維護、產(chǎn)品工藝改造等,也可以基于物聯(lián)網(wǎng)數(shù)據(jù)分析實現(xiàn)傳統(tǒng)人工作業(yè)的升級改造,比如,智慧倉儲中的智能調(diào)度。
然而,通用的 大數(shù)據(jù) 分析服務由于缺乏針對物聯(lián)網(wǎng)行業(yè)的最佳實踐,在技術層面和商業(yè)層面都缺少物聯(lián)網(wǎng)基因,影響物聯(lián)網(wǎng)數(shù)據(jù)應用開發(fā)效率。因此,華為云IoT數(shù)據(jù)分析服務應運而生。
三、如何做好物聯(lián)網(wǎng)數(shù)據(jù)分析?
首先,構建資產(chǎn)模型是充分“理解”物聯(lián)網(wǎng)數(shù)據(jù)的基礎。
通過構建物與物,物與空間,物與人等復雜關系,將物聯(lián)網(wǎng)數(shù)據(jù)置于模型的“上下文”中去理解。通過“IoT+資產(chǎn)模型”,在數(shù)字世界中構建與物理世界準實時同步的數(shù)字孿生。基于模型抽象,為數(shù)據(jù)分析提供面向業(yè)務的接口封裝。下圖舉例,將一棟樓映射成數(shù)字孿生,通過資產(chǎn)模型創(chuàng)建了大樓內(nèi)部的組成關系。
其次,物聯(lián)網(wǎng)數(shù)據(jù)處理的關鍵是做好對時序數(shù)據(jù)的處理。
幾乎所有的物聯(lián)網(wǎng)數(shù)據(jù)都是時序數(shù)據(jù)。時序數(shù)據(jù)具備時間戳(timestamp)、隨時間變化的數(shù)值(fields)、附加信息(tags)、度量(Measurement)四個關鍵信息,同時采樣周期可能非常頻繁,有些甚至可達到毫秒級。
根據(jù)時序數(shù)據(jù)的特點,做好時序數(shù)據(jù)處理需具備以下幾個關鍵點:
-
高寫入性能,每天處理萬億級時間點寫入;
-
極低成本,具有針對時序數(shù)據(jù)的專用壓縮算法;
-
高查詢性能,能夠支撐多節(jié)點多線程并行查詢,具備向量化查詢引擎,同時,高效支持聚合、卷積等時序數(shù)據(jù)查詢模式;
-
海量時間線,最大可支持億級時間線;
-
邊云結合,邊緣節(jié)點就近部署,快速響應本地查詢,數(shù)據(jù)在邊緣側聚合后再上傳云端,降低上云帶寬需求。
再次,按物聯(lián)網(wǎng)數(shù)據(jù)的時效性分層處理,獲得綜合處理效率的最大化。
物聯(lián)網(wǎng)的設備多是實時在線,持續(xù)產(chǎn)生數(shù)據(jù),有些數(shù)據(jù)需要實時處理獲取數(shù)據(jù)價值最大化,而有些數(shù)據(jù)則未必。因此我們在對待物聯(lián)網(wǎng)數(shù)據(jù)時,應當有明晰的區(qū)別對待。比如將需要實時處理的數(shù)據(jù)分發(fā)到流計算引擎中,而歷史數(shù)據(jù)歸檔則采用成本低的方式進行存儲,如 對象存儲 ,而對于近期需要頻繁操作的數(shù)據(jù),則要考慮如何盡量提高查詢效率。
最后,針對較低質(zhì)量的物聯(lián)網(wǎng)數(shù)據(jù)做好清洗環(huán)節(jié),為后續(xù)分析提供良好數(shù)據(jù)基礎。
在物聯(lián)網(wǎng)設備數(shù)據(jù)采集、傳輸?shù)皆贫说倪^程中,可能會由于設備故障、網(wǎng)絡鏈路故障、異常干擾等原因,造成所采集的數(shù)據(jù)有缺失、異常、重復等現(xiàn)象,需要通過數(shù)據(jù)插值、修正、去重等方法,對較低質(zhì)量的物聯(lián)網(wǎng)數(shù)據(jù)進行清洗,以獲得良好的數(shù)據(jù)基礎。
四、華為云IoT數(shù)據(jù)分析服務有哪些優(yōu)勢?
華為云IoT數(shù)據(jù)分析服務是以物聯(lián)網(wǎng)資產(chǎn)模型為中心的分析服務,具備物聯(lián)網(wǎng)資產(chǎn)模型感知、一站式開發(fā)體驗,以及時序數(shù)據(jù)優(yōu)化三大優(yōu)勢。
不同于公有云上的通用型大數(shù)據(jù)相關產(chǎn)品,華為云IoT數(shù)據(jù)分析服務與物聯(lián)網(wǎng)資產(chǎn)模型深度整合,同時與華為云物聯(lián)網(wǎng)相關服務(比如物聯(lián)網(wǎng)設備接入)無縫對接,為開發(fā)者打造一站式數(shù)據(jù)開發(fā)體驗,包括物聯(lián)網(wǎng)數(shù)據(jù)源的接入,清洗,建模,存儲,分析,可視化全流程。其中數(shù)據(jù)分析引擎包括了流分析和批分析的計算引擎。
華為云IoT數(shù)據(jù)分析服務提供的資產(chǎn)建模能力,幫助開發(fā)者快速搭建和管理模型數(shù)據(jù),提供豐富的函數(shù)計算能力及便捷的模板建模功能。結合IoT的實時數(shù)據(jù)采集,幫助實現(xiàn)數(shù)字孿生功能。在建模過程中,IoT數(shù)據(jù)分析服務提供圖形化可拖拽方式的開發(fā)環(huán)境,簡化復雜資產(chǎn)模型的開發(fā)過程,對于相同的資產(chǎn)可以采用模板方式批量創(chuàng)建。支持UDF(用戶自定義函數(shù))能力,用戶在創(chuàng)建虛測點過程中可使用比如四則運算,科學計數(shù)法,三角函數(shù),滑窗,流計算等函數(shù)。
針對物聯(lián)網(wǎng)數(shù)據(jù)具備的顯著時序特征,華為云IoT數(shù)據(jù)分析服務在數(shù)據(jù)存儲及數(shù)據(jù)分析上做了大量的優(yōu)化。比如按時間線做Hash Partition,所有Shard節(jié)點并行寫入,單實例支持超10萬時間線,最大億級時間線。通過采用列式存儲布局,不同數(shù)據(jù)類型(如時間類型,浮點型)采用不同壓縮算法,相比開源OpenTSDB壓縮率提升10倍,獲得極致壓縮率。支持倒排索引,相對開源OpenTSDB查詢效率提升10倍以上。另外,IoT數(shù)據(jù)分析服務還提供時序數(shù)據(jù)洞察工具explorer,通過豐富圖表呈現(xiàn),快速洞察時序數(shù)據(jù)特征。