一圖簡述大數(shù)據(jù)技術(shù)生態(tài)圈
下面是一張生態(tài)圖,主要的組件都是為了方便大家從底層的MapReduce模型中脫離出來,用高層語言來做分布式計(jì)算,下文將分別為你作簡述。
1、HBase
是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化數(shù)據(jù)集群。像Facebook,都拿它做大型實(shí)時(shí)應(yīng)用。
2、Hive
Facebook領(lǐng)導(dǎo)的一個(gè)數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類SQL語句快速實(shí)現(xiàn)簡單的MapReduce統(tǒng)計(jì)。像一些data scientist 就可以直接查詢,不需要學(xué)習(xí)其他編程接口。
3、Pig
Yahoo開發(fā)的,并行地執(zhí)行數(shù)據(jù)流處理的引擎,它包含了一種腳本語言,稱為Pig Latin,用來描述這些數(shù)據(jù)流。Pig Latin本身提供了許多傳統(tǒng)的數(shù)據(jù)操作,同時(shí)允許用戶自己開發(fā)一些自定義函數(shù)用來讀取、處理和寫數(shù)據(jù)。在LinkedIn也是大量使用。
4、Cascading/Scalding
Cascading是Twitter收購的一個(gè)公司技術(shù),主要是提供數(shù)據(jù)管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding。Coursera是用Scalding作為MapReduce的編程接口放在Amazon的EMR運(yùn)行。
5、Zookeeper
一個(gè)分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Google的Chubby一個(gè)開源的實(shí)現(xiàn)。
6、Oozie、Hadoop
一個(gè)基于工作流引擎的開源框架。由Cloudera公司貢獻(xiàn)給Apache的,它能夠提供對MapReduce和Pig Jobs的任務(wù)調(diào)度與協(xié)調(diào)。
7、Azkaban
跟上面很像,Linkedin開源的面向Hadoop的開源工作流系統(tǒng),提供了類似于cron 的管理任務(wù)。
8、Tez
Hortonworks主推的優(yōu)化MapReduce執(zhí)行引擎,與MapReduce相比較,Tez在性能方面更加出色。
責(zé)任編輯:滄海一笑
-
5大重點(diǎn)任務(wù)11個(gè)重點(diǎn)細(xì)分 河北加快構(gòu)建省級能源大數(shù)據(jù)中心
-
能源互聯(lián)網(wǎng)注入數(shù)字經(jīng)濟(jì)新動(dòng)能 電力大數(shù)據(jù)實(shí)現(xiàn)更多價(jià)值
-
中國首個(gè)100%利用清潔能源運(yùn)營的大數(shù)據(jù)產(chǎn)業(yè)園投運(yùn)
2020-07-21清潔能源,清潔能源消納,青海
-
探索大數(shù)據(jù) 區(qū)塊鏈實(shí)現(xiàn)與能源互聯(lián)網(wǎng)良好契合
2020-06-09區(qū)塊鏈,電力行業(yè),能源互聯(lián)網(wǎng) -
基于區(qū)塊鏈的含安全約束分布式電力交易方法
-
區(qū)塊鏈在能源交易與協(xié)同調(diào)度的應(yīng)用前景:提升電力交易的自由度和實(shí)時(shí)響應(yīng)效率
2019-11-04區(qū)塊鏈在能源交易與協(xié)同