Druid是一個(gè)分布式的支持實(shí)時(shí)分析的數(shù)據(jù)存儲(chǔ)系統(tǒng)。通俗一點(diǎn):高性能實(shí)時(shí)分析 數(shù)據(jù)庫(kù) 。它由美國(guó)廣告技術(shù)公司MetaMarkets于2011年創(chuàng)建,并且于2012年開(kāi)源。MetaMarkets是一家專門為在線媒體公司提供數(shù)據(jù)服務(wù)的公司,主營(yíng)是DSP廣告運(yùn)營(yíng)推送平臺(tái),由于對(duì)實(shí)時(shí)性要求非常高,公司不得不放棄原始的 大數(shù)據(jù) 方案,Druid也就應(yīng)運(yùn)而生。
Druid的官方網(wǎng)站地址是:http://druid.io/
目前Druid已基于Apache License 2.0協(xié)議開(kāi)源,正在由Apache孵化,代碼托管于Github。
最新官網(wǎng)地址為:
https://druid.apache.org/
Druid主要解決的問(wèn)題就是傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)法解決的大數(shù)據(jù)量查詢性能的問(wèn)題。
所以她的本質(zhì)就是一個(gè)分布式支持實(shí)時(shí)數(shù)據(jù)分析的數(shù)據(jù)存儲(chǔ)系統(tǒng)。
能夠快速的實(shí)現(xiàn)查詢與數(shù)據(jù)分析,高可用,高擴(kuò)展能力。
特性
1.快速查詢:druid提供了快速的聚合能力以及快速OLAP查詢能力,多租戶的設(shè)計(jì),是面向用戶分析應(yīng)用的理想方式。druid的數(shù)據(jù)聚合粒度可以是1分鐘,5分鐘,1小時(shí)或者1天等。數(shù)據(jù)的內(nèi)存化提高了druid的查詢速度。
OLAP:與之相對(duì)的是OLTP,這里通過(guò)一個(gè)在線商城舉例,比如在一個(gè)在線商城中兩者都是做什么呢?
OLTP就是商品瀏覽,交易,用戶數(shù)據(jù)。必須支持事務(wù),頻繁查詢修改。OLTP(聯(lián)機(jī)事務(wù)處理),傳統(tǒng)數(shù)據(jù)庫(kù)的主要應(yīng)用,面向最基本的CRUD操作,特點(diǎn)是實(shí)時(shí)性高,數(shù)據(jù)量小,可以修改刪除數(shù)據(jù),要求有嚴(yán)格的事務(wù)。
OLAP就是對(duì)商城數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)量大。OLAP(聯(lián)機(jī)分析處理),支持復(fù)雜的分析操作,對(duì)決策的支持,特點(diǎn)是數(shù)據(jù)量大,吞吐量大,只支持查詢。
2.實(shí)時(shí)數(shù)據(jù)注入:druid支持流數(shù)據(jù)的注入,并提供了數(shù)據(jù)的事件驅(qū)動(dòng),保證在實(shí)時(shí)和離線環(huán)境下事件的實(shí)效性和統(tǒng)一性。歷史數(shù)據(jù)不改變,實(shí)時(shí)數(shù)據(jù)實(shí)時(shí)接入。
3.可擴(kuò)展的PB級(jí)存儲(chǔ):druid集群可以很方便的擴(kuò)容到PB的數(shù)據(jù)量,每秒百萬(wàn)級(jí)別的數(shù)據(jù)注入。即便在加大數(shù)據(jù)規(guī)模的情況下,也能保證時(shí)其效性。druid可以按照時(shí)間范圍把聚合數(shù)據(jù)進(jìn)行分區(qū)處理。
4.多環(huán)境部署:druid既可以運(yùn)行在商業(yè)的硬件上,也可以運(yùn)行在云上。它可以從多種數(shù)據(jù)系統(tǒng)中注入數(shù)據(jù),包括hadoop,spark,kafka,storm和samza等。
5.豐富的社區(qū):druid擁有豐富的社區(qū),供大家學(xué)習(xí)。
Metamarkets之前幾個(gè)druid開(kāi)發(fā)者成立了一家叫做imply.io的新公司:https://imply.io/