一、什么是物聯(lián)網(wǎng)數(shù)據(jù)?
物聯(lián)網(wǎng)數(shù)據(jù)顧名思義是由各種物聯(lián)網(wǎng)設(shè)備、傳感器產(chǎn)生的數(shù)據(jù)。與其他的數(shù)據(jù)相比,物聯(lián)網(wǎng)數(shù)據(jù)具有“大、小、高、底”四個(gè)特點(diǎn):
“大”即物聯(lián)網(wǎng)數(shù)據(jù)體量大,我們經(jīng)常聽(tīng)到的一個(gè)經(jīng)典的案例,即GE發(fā)動(dòng)機(jī)有成百上千個(gè)傳感器,毫秒級(jí)頻度產(chǎn)生各種數(shù)據(jù)。一次飛機(jī)的飛行就可以超過(guò)1TB的數(shù)據(jù)量。很多工業(yè)場(chǎng)景產(chǎn)生的數(shù)據(jù)量可能會(huì)更大。
“小”即物聯(lián)網(wǎng)數(shù)據(jù)的價(jià)值密度小,或者也可以理解為要從海量的數(shù)據(jù)中找到價(jià)值的信息是一個(gè)比較難的事情。
“高”即物聯(lián)網(wǎng)數(shù)據(jù)時(shí)效性高,設(shè)備產(chǎn)生的數(shù)據(jù)流往往需要及時(shí)分析處理,隨著時(shí)間的流逝,其價(jià)值會(huì)迅速降低。
“低”即物聯(lián)網(wǎng)數(shù)據(jù)的質(zhì)量通常較低,原因是多方面的,可能跟IoT設(shè)備自身能力有關(guān),也可能是較苛刻的設(shè)備部署環(huán)境,也可能是網(wǎng)絡(luò)傳輸問(wèn)題等等,最終造成物聯(lián)網(wǎng)數(shù)據(jù)容易出現(xiàn)丟失,異常,重復(fù)等問(wèn)題。
二、為什么要做物聯(lián)網(wǎng)數(shù)據(jù)分析?
如果只是將一堆龐大的物聯(lián)網(wǎng)數(shù)據(jù)在一起而不做分析的話,產(chǎn)生不了實(shí)際的價(jià)值意義,更無(wú)法基于數(shù)據(jù)來(lái)開(kāi)發(fā)更多的增值服務(wù)。而在物聯(lián)網(wǎng)的實(shí)際應(yīng)用中,企業(yè)可以基于對(duì)傳感器或物聯(lián)網(wǎng)設(shè)備上報(bào)上來(lái)的海量數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)物聯(lián)網(wǎng)設(shè)備運(yùn)營(yíng)分析、設(shè)備運(yùn)行狀態(tài)的預(yù)測(cè)性維護(hù)、產(chǎn)品工藝改造等,也可以基于物聯(lián)網(wǎng)數(shù)據(jù)分析實(shí)現(xiàn)傳統(tǒng)人工作業(yè)的升級(jí)改造,比如,智慧倉(cāng)儲(chǔ)中的智能調(diào)度。
然而,通用的 大數(shù)據(jù) 分析服務(wù)由于缺乏針對(duì)物聯(lián)網(wǎng)行業(yè)的最佳實(shí)踐,在技術(shù)層面和商業(yè)層面都缺少物聯(lián)網(wǎng)基因,影響物聯(lián)網(wǎng)數(shù)據(jù)應(yīng)用開(kāi)發(fā)效率。因此,華為云IoT數(shù)據(jù)分析服務(wù)應(yīng)運(yùn)而生。
三、如何做好物聯(lián)網(wǎng)數(shù)據(jù)分析?
首先,構(gòu)建資產(chǎn)模型是充分“理解”物聯(lián)網(wǎng)數(shù)據(jù)的基礎(chǔ)。
通過(guò)構(gòu)建物與物,物與空間,物與人等復(fù)雜關(guān)系,將物聯(lián)網(wǎng)數(shù)據(jù)置于模型的“上下文”中去理解。通過(guò)“IoT+資產(chǎn)模型”,在數(shù)字世界中構(gòu)建與物理世界準(zhǔn)實(shí)時(shí)同步的數(shù)字孿生。基于模型抽象,為數(shù)據(jù)分析提供面向業(yè)務(wù)的接口封裝。下圖舉例,將一棟樓映射成數(shù)字孿生,通過(guò)資產(chǎn)模型創(chuàng)建了大樓內(nèi)部的組成關(guān)系。
其次,物聯(lián)網(wǎng)數(shù)據(jù)處理的關(guān)鍵是做好對(duì)時(shí)序數(shù)據(jù)的處理。
幾乎所有的物聯(lián)網(wǎng)數(shù)據(jù)都是時(shí)序數(shù)據(jù)。時(shí)序數(shù)據(jù)具備時(shí)間戳(timestamp)、隨時(shí)間變化的數(shù)值(fields)、附加信息(tags)、度量(Measurement)四個(gè)關(guān)鍵信息,同時(shí)采樣周期可能非常頻繁,有些甚至可達(dá)到毫秒級(jí)。

根據(jù)時(shí)序數(shù)據(jù)的特點(diǎn),做好時(shí)序數(shù)據(jù)處理需具備以下幾個(gè)關(guān)鍵點(diǎn):
-
高寫(xiě)入性能,每天處理萬(wàn)億級(jí)時(shí)間點(diǎn)寫(xiě)入;
-
極低成本,具有針對(duì)時(shí)序數(shù)據(jù)的專用壓縮算法;
-
高查詢性能,能夠支撐多節(jié)點(diǎn)多線程并行查詢,具備向量化查詢引擎,同時(shí),高效支持聚合、卷積等時(shí)序數(shù)據(jù)查詢模式;
-
海量時(shí)間線,最大可支持億級(jí)時(shí)間線;
-
邊云結(jié)合,邊緣節(jié)點(diǎn)就近部署,快速響應(yīng)本地查詢,數(shù)據(jù)在邊緣側(cè)聚合后再上傳云端,降低上云帶寬需求。
再次,按物聯(lián)網(wǎng)數(shù)據(jù)的時(shí)效性分層處理,獲得綜合處理效率的最大化。
物聯(lián)網(wǎng)的設(shè)備多是實(shí)時(shí)在線,持續(xù)產(chǎn)生數(shù)據(jù),有些數(shù)據(jù)需要實(shí)時(shí)處理獲取數(shù)據(jù)價(jià)值最大化,而有些數(shù)據(jù)則未必。因此我們?cè)趯?duì)待物聯(lián)網(wǎng)數(shù)據(jù)時(shí),應(yīng)當(dāng)有明晰的區(qū)別對(duì)待。比如將需要實(shí)時(shí)處理的數(shù)據(jù)分發(fā)到流計(jì)算引擎中,而歷史數(shù)據(jù)歸檔則采用成本低的方式進(jìn)行存儲(chǔ),如 對(duì)象存儲(chǔ) ,而對(duì)于近期需要頻繁操作的數(shù)據(jù),則要考慮如何盡量提高查詢效率。
最后,針對(duì)較低質(zhì)量的物聯(lián)網(wǎng)數(shù)據(jù)做好清洗環(huán)節(jié),為后續(xù)分析提供良好數(shù)據(jù)基礎(chǔ)。
在物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)采集、傳輸?shù)皆贫说倪^(guò)程中,可能會(huì)由于設(shè)備故障、網(wǎng)絡(luò)鏈路故障、異常干擾等原因,造成所采集的數(shù)據(jù)有缺失、異常、重復(fù)等現(xiàn)象,需要通過(guò)數(shù)據(jù)插值、修正、去重等方法,對(duì)較低質(zhì)量的物聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行清洗,以獲得良好的數(shù)據(jù)基礎(chǔ)。
四、華為云IoT數(shù)據(jù)分析服務(wù)有哪些優(yōu)勢(shì)?
華為云IoT數(shù)據(jù)分析服務(wù)是以物聯(lián)網(wǎng)資產(chǎn)模型為中心的分析服務(wù),具備物聯(lián)網(wǎng)資產(chǎn)模型感知、一站式開(kāi)發(fā)體驗(yàn),以及時(shí)序數(shù)據(jù)優(yōu)化三大優(yōu)勢(shì)。
不同于公有云上的通用型大數(shù)據(jù)相關(guān)產(chǎn)品,華為云IoT數(shù)據(jù)分析服務(wù)與物聯(lián)網(wǎng)資產(chǎn)模型深度整合,同時(shí)與華為云物聯(lián)網(wǎng)相關(guān)服務(wù)(比如物聯(lián)網(wǎng)設(shè)備接入)無(wú)縫對(duì)接,為開(kāi)發(fā)者打造一站式數(shù)據(jù)開(kāi)發(fā)體驗(yàn),包括物聯(lián)網(wǎng)數(shù)據(jù)源的接入,清洗,建模,存儲(chǔ),分析,可視化全流程。其中數(shù)據(jù)分析引擎包括了流分析和批分析的計(jì)算引擎。
華為云IoT數(shù)據(jù)分析服務(wù)提供的資產(chǎn)建模能力,幫助開(kāi)發(fā)者快速搭建和管理模型數(shù)據(jù),提供豐富的函數(shù)計(jì)算能力及便捷的模板建模功能。結(jié)合IoT的實(shí)時(shí)數(shù)據(jù)采集,幫助實(shí)現(xiàn)數(shù)字孿生功能。在建模過(guò)程中,IoT數(shù)據(jù)分析服務(wù)提供圖形化可拖拽方式的開(kāi)發(fā)環(huán)境,簡(jiǎn)化復(fù)雜資產(chǎn)模型的開(kāi)發(fā)過(guò)程,對(duì)于相同的資產(chǎn)可以采用模板方式批量創(chuàng)建。支持UDF(用戶自定義函數(shù))能力,用戶在創(chuàng)建虛測(cè)點(diǎn)過(guò)程中可使用比如四則運(yùn)算,科學(xué)計(jì)數(shù)法,三角函數(shù),滑窗,流計(jì)算等函數(shù)。
針對(duì)物聯(lián)網(wǎng)數(shù)據(jù)具備的顯著時(shí)序特征,華為云IoT數(shù)據(jù)分析服務(wù)在數(shù)據(jù)存儲(chǔ)及數(shù)據(jù)分析上做了大量的優(yōu)化。比如按時(shí)間線做Hash Partition,所有Shard節(jié)點(diǎn)并行寫(xiě)入,單實(shí)例支持超10萬(wàn)時(shí)間線,最大億級(jí)時(shí)間線。通過(guò)采用列式存儲(chǔ)布局,不同數(shù)據(jù)類型(如時(shí)間類型,浮點(diǎn)型)采用不同壓縮算法,相比開(kāi)源OpenTSDB壓縮率提升10倍,獲得極致壓縮率。支持倒排索引,相對(duì)開(kāi)源OpenTSDB查詢效率提升10倍以上。另外,IoT數(shù)據(jù)分析服務(wù)還提供時(shí)序數(shù)據(jù)洞察工具explorer,通過(guò)豐富圖表呈現(xiàn),快速洞察時(shí)序數(shù)據(jù)特征。