華為云計算 云知識 面對IoT數據的爆發(fā),傳統(tǒng)大數據平臺架構正在發(fā)生哪些適應性變化?
面對IoT數據的爆發(fā),傳統(tǒng)大數據平臺架構正在發(fā)生哪些適應性變化?

一、傳統(tǒng) 大數據 平臺Lambda架構:

兩條數據流獨立處理:

1.實時流,多采用Flink,Storm或者Spark Streaming

2.批處理,如采用MapReduce,Spark SQL等

關鍵問題:

1.計算結果容易不一致,如批計算的結果更全面,與流計算有差異

2.IoT時代數據量巨大,夜間批計算時間窗可能不夠3.數據源一旦變化,適配工作量巨大。

二、一種改良的大數據平臺架構Kappa

一條數據流統(tǒng)一處理:

1.改進流計算來解決批量數據處理的問題,統(tǒng)一業(yè)務處理邏輯

2.如需重新計算,需重啟一個流計算實例

關鍵問題:

1.流式處理對于高吞吐的歷史數據處理存在瓶頸,很難適合IoT數據量

2.開發(fā)周期長,不同數據格式都要開發(fā)不同的streaming程序

3.成本高,很依賴高性能存儲如 redis ,hbase等。

三、Apache IoTDB項目

以處理IoT時序數據為核心:

1.基于時序優(yōu)化的文件存儲格式TsFile,可與HDFS同步

2.提供數據模型能力(物的層次結構)

3.融入主流生態(tài),如Hadoop, Spark, and Grafana等

4.高壓縮低成本,存儲在硬盤上的成本<$0.23/GB (Azure 約$3/GB)

關鍵問題:

1.通過JDBC接口與云端DB互通,有功能局限

四、以模型驅動的IoTA架構

云邊協同,模型驅動的分析架構:

1.貫穿整體業(yè)務始終的數據模型,一致體驗,去ETL化

2.邊緣計算SDK,邊緣側可部署數據分析邏輯,增強時效性

關鍵問題:

1.期望構建標準化的數據模型,達到去ETL化的效果,可能需要較長時間的演化2.并未完全解決流批分離處理架構下分析結果可能不一。