一、傳統(tǒng) 大數據 平臺Lambda架構:
兩條數據流獨立處理:
1.實時流,多采用Flink,Storm或者Spark Streaming
2.批處理,如采用MapReduce,Spark SQL等
關鍵問題:
1.計算結果容易不一致,如批計算的結果更全面,與流計算有差異
2.IoT時代數據量巨大,夜間批計算時間窗可能不夠3.數據源一旦變化,適配工作量巨大。
二、一種改良的大數據平臺架構Kappa
一條數據流統(tǒng)一處理:
1.改進流計算來解決批量數據處理的問題,統(tǒng)一業(yè)務處理邏輯
2.如需重新計算,需重啟一個流計算實例
關鍵問題:
1.流式處理對于高吞吐的歷史數據處理存在瓶頸,很難適合IoT數據量
2.開發(fā)周期長,不同數據格式都要開發(fā)不同的streaming程序
3.成本高,很依賴高性能存儲如 redis ,hbase等。

三、Apache IoTDB項目
以處理IoT時序數據為核心:
1.基于時序優(yōu)化的文件存儲格式TsFile,可與HDFS同步
2.提供數據模型能力(物的層次結構)
3.融入主流生態(tài),如Hadoop, Spark, and Grafana等
4.高壓縮低成本,存儲在硬盤上的成本<$0.23/GB (Azure 約$3/GB)
關鍵問題:
1.通過JDBC接口與云端DB互通,有功能局限
四、以模型驅動的IoTA架構
云邊協同,模型驅動的分析架構:
1.貫穿整體業(yè)務始終的數據模型,一致體驗,去ETL化
2.邊緣計算SDK,邊緣側可部署數據分析邏輯,增強時效性
關鍵問題:
1.期望構建標準化的數據模型,達到去ETL化的效果,可能需要較長時間的演化2.并未完全解決流批分離處理架構下分析結果可能不一。
