為什么大數(shù)據(jù)需要數(shù)據(jù)湖?
前言:
2014年6月26日,西瓜哥在“高端存儲(chǔ)知識(shí)”公眾號(hào)發(fā)表了一篇文章”你知道數(shù)據(jù)湖泊(DATA LAKE)嗎?”一文,首次把數(shù)據(jù)湖這個(gè)概念引入中國。由于那時(shí)還沒有標(biāo)準(zhǔn)的翻譯,為了和數(shù)據(jù)倉庫術(shù)語字?jǐn)?shù)對(duì)齊,翻譯成數(shù)據(jù)湖泊。現(xiàn)在,數(shù)據(jù)湖已經(jīng)得到快速發(fā)展,很多廠商都推出了自己的解決方案。
今天西瓜哥作為嘉賓參加了2018中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)銅仁分論壇,感覺銅仁在大數(shù)據(jù)的落地這塊做得非常好,應(yīng)用很多,豐富多彩。但是,這些應(yīng)用各種獨(dú)立,底層的數(shù)據(jù)共享不夠。如果引入數(shù)據(jù)湖的概念,打造一個(gè)高效的數(shù)據(jù)底座,將會(huì)大大提高數(shù)據(jù)的共享,提高數(shù)據(jù)的利用價(jià)值和效率。
因此,我今天選登一篇文章,幫助大家認(rèn)識(shí)到數(shù)據(jù)湖的價(jià)值,希望以后搞大數(shù)據(jù)前,要提前規(guī)劃好數(shù)據(jù)湖。
匯聚成湖,乘云筑數(shù)
——云上大數(shù)據(jù)的最佳拍檔:數(shù)據(jù)湖
作者:張帥,許鐘生
自2011年“數(shù)據(jù)湖”概念被提出,業(yè)界便對(duì)數(shù)據(jù)湖一直有著廣泛而不同的理解和定義。
“數(shù)據(jù)湖是一個(gè)集中化存儲(chǔ)海量的、多個(gè)來源,多種類型數(shù)據(jù),并可以對(duì)數(shù)據(jù)進(jìn)行快速加工,分析的平臺(tái),本質(zhì)上是一套先進(jìn)的企業(yè)數(shù)據(jù)架構(gòu)。”——這是對(duì)數(shù)據(jù)湖比較清晰且完整的定義。然而,從定義上看不出數(shù)據(jù)湖對(duì)企業(yè)的重要性,本文從數(shù)據(jù)湖架構(gòu)的發(fā)展,數(shù)據(jù)平臺(tái)對(duì)企業(yè)的重要性,華為數(shù)據(jù)湖方案等角度闡明數(shù)據(jù)湖的對(duì)企業(yè)的價(jià)值。
一、數(shù)據(jù)湖架構(gòu)的發(fā)展
數(shù)據(jù)湖架構(gòu)一直在不斷變革和發(fā)展,很多場(chǎng)景下,大家很容易將數(shù)據(jù)湖與數(shù)據(jù)倉庫進(jìn)行混淆,數(shù)據(jù)湖方案最初確實(shí)是為解決數(shù)據(jù)倉庫笨重,高成本,冗長(zhǎng)的分析周期等問題而生,但是二者又有著明顯的不同,同時(shí)伴隨著云計(jì)算、大數(shù)據(jù)、人工智能技術(shù)的發(fā)展,數(shù)據(jù)湖與之不斷融合,數(shù)據(jù)湖的架構(gòu)也在不斷完善。
數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別
數(shù)據(jù)湖與數(shù)據(jù)倉庫之間的異同點(diǎn)有很多,很容易混淆,但是最重要的區(qū)別有兩個(gè):
- 存儲(chǔ)數(shù)據(jù)類型:數(shù)據(jù)倉庫是存儲(chǔ)數(shù)據(jù),進(jìn)行建模,存儲(chǔ)的是結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)湖以其本源格式保存大量原始數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。在需要數(shù)據(jù)之前,沒有定義數(shù)據(jù)結(jié)構(gòu)和需求。
- 數(shù)據(jù)處理模式:在我們可以加載到數(shù)據(jù)倉庫中的數(shù)據(jù),我們首先需要定義好它,這叫做寫時(shí)模式(Schema-On-Write)。而對(duì)于數(shù)據(jù)湖,您只需加載原始數(shù)據(jù),然后,當(dāng)您準(zhǔn)備使用數(shù)據(jù)時(shí),就給它一個(gè)定義,這叫做讀時(shí)模式(Schema-On-Read)。這是兩種截然不同的數(shù)據(jù)處理方法。因?yàn)閿?shù)據(jù)湖是在數(shù)據(jù)到使用時(shí)再定義模型結(jié)構(gòu),因此提高了數(shù)據(jù)模型定義的靈活性,可滿足更多不同上層業(yè)務(wù)的高效率分析訴求。
數(shù)據(jù)湖與新技術(shù)的融合與發(fā)展
1、數(shù)據(jù)湖與大數(shù)據(jù)技術(shù)的融合
Hadoop技術(shù)已經(jīng)經(jīng)歷了十幾年的發(fā)展,而數(shù)據(jù)湖作為第二數(shù)據(jù)平面最重要的數(shù)據(jù)平臺(tái),與Hadoop技術(shù)的融合越來越緊密,相輔相成,相得益彰。例如:HBase可以讓數(shù)據(jù)湖保存海量數(shù)據(jù);Spark 使得數(shù)據(jù)湖可以更快的批量分析海量數(shù)據(jù);Storm,Flink,NiFi等使數(shù)據(jù)湖能夠?qū)崟r(shí)接入和處理IOT數(shù)據(jù)。Hadoop本身更多的聚焦于數(shù)據(jù)的處理與應(yīng)用,但是對(duì)于底層的數(shù)據(jù)存儲(chǔ)工作則并未過多的關(guān)注。例如:傳統(tǒng)的Hadoop使用三副本技術(shù)保存數(shù)據(jù),數(shù)據(jù)利用率只有33%,數(shù)據(jù)保存成本較高;同時(shí)客戶對(duì)于Hadoop承載的數(shù)據(jù)可靠性要求也越來越高,數(shù)據(jù)保護(hù)(備份、容災(zāi)等)需求越來越明顯,Hadoop3.x 開啟了存儲(chǔ)和計(jì)算分離的趨勢(shì),但這些還不能完全滿足用戶需求,數(shù)據(jù)湖需要從數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)治理等方面繼續(xù)發(fā)展。
2、數(shù)據(jù)湖與云計(jì)算技術(shù)的融合
云計(jì)算采用虛擬化、多租戶等技術(shù)滿足業(yè)務(wù)對(duì)服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)等基礎(chǔ)資源的最大化利用,降低企業(yè)對(duì)IT基礎(chǔ)設(shè)施的成本,為企業(yè)帶來了巨大的經(jīng)濟(jì)性;同時(shí)云計(jì)算技術(shù)實(shí)現(xiàn)了主機(jī)、存儲(chǔ)等資源快速申請(qǐng)、使用,則同樣為企業(yè)帶來了更多的管理便捷性。在傳統(tǒng)建設(shè)模式下,大數(shù)據(jù)采用的都是物理機(jī)部署模式,在應(yīng)對(duì)多業(yè)務(wù)類型彈性計(jì)算資源需求以及計(jì)算性能和存儲(chǔ)容量增幅差異化較大的情況下,計(jì)算和存儲(chǔ)一體化的部署模式,既不夠靈活,同時(shí)也不能提供最優(yōu)性價(jià)比。這時(shí)利用云化技術(shù),將大數(shù)據(jù)計(jì)算部署在云上,把存儲(chǔ)資源與計(jì)算資源獨(dú)立開來,實(shí)現(xiàn)計(jì)算和數(shù)據(jù)各自獨(dú)立擴(kuò)展,彈性伸縮。當(dāng)前數(shù)據(jù)湖架構(gòu)已經(jīng)在公有云上得到了教完美的實(shí)現(xiàn)和應(yīng)用,例如:Microsoft Azure 在2016年就推出了Data Lake云服務(wù),Amazon AWS 可以基于S3、Glue等多個(gè)基本云服務(wù)快速構(gòu)建出一套數(shù)據(jù)湖服務(wù),Google內(nèi)部對(duì)海量數(shù)據(jù)集的管理和搜索系統(tǒng)也為數(shù)據(jù)湖的數(shù)據(jù)管理指明了道路(詳情參見《Managing Google’s data lake: an overview of the GOODS system》,一篇關(guān)于Google內(nèi)部的海量數(shù)據(jù)集搜索與管理的論文)。
3、數(shù)據(jù)湖與人工智能技術(shù)的融合
近些年,人工智能技術(shù)再一次飛速發(fā)展,訓(xùn)練和推理等需要同時(shí)處理超大的,甚至是多個(gè)數(shù)據(jù)集,這些數(shù)據(jù)集通常是視頻、圖片、文本等非結(jié)構(gòu)化數(shù)據(jù),來源于多個(gè)行業(yè)、組織、項(xiàng)目,對(duì)這些數(shù)據(jù)的采集、存儲(chǔ)、清洗、轉(zhuǎn)換、特征提取等工作是一個(gè)系列復(fù)雜、漫長(zhǎng)的工程。數(shù)據(jù)湖需要為人工智能程序提供數(shù)據(jù)快速收集、治理、分析的平臺(tái),同時(shí)提供極高的帶寬、海量小文件存取、多協(xié)議互通、數(shù)據(jù)共享的能力,可以極大加速數(shù)據(jù)挖掘、深度學(xué)習(xí)等過程。
二、數(shù)據(jù)湖對(duì)企業(yè)的重要性
很多人都說:“數(shù)據(jù)湖是新瓶裝舊酒”,只不過是一個(gè)概念的拼湊罷了,本質(zhì)上并沒有什么技術(shù)創(chuàng)新。其實(shí)“數(shù)據(jù)湖”這一名詞并不重要,重要的是它能不能在數(shù)字化浪潮下,真正幫助企業(yè)實(shí)現(xiàn)技術(shù)轉(zhuǎn)型,應(yīng)對(duì)快速發(fā)展的商業(yè)環(huán)境下層出不窮的新問題。
數(shù)據(jù)湖的核心價(jià)值是為企業(yè)帶來了數(shù)據(jù)平臺(tái)化運(yùn)營機(jī)制。當(dāng)前很多企業(yè)尚未意識(shí)到數(shù)據(jù)平臺(tái)化為企業(yè)帶來的好處。當(dāng)今的商業(yè)環(huán)境,在日新月異的技術(shù)變革驅(qū)動(dòng)下,正發(fā)生著劇烈的變化,傳統(tǒng)行業(yè)不停的被互聯(lián)網(wǎng)公司顛覆,給很多公司造成了極大的生存壓力。互聯(lián)網(wǎng)公司之所以能不斷顛覆傳統(tǒng)行業(yè),本身除了商業(yè)模式的變革,同時(shí)也是因?yàn)檫@些公司很多都是采用平臺(tái)化戰(zhàn)略,將最新的技術(shù)與競(jìng)爭(zhēng)力整合在平臺(tái)中,去賦能公司的運(yùn)營,使公司的業(yè)務(wù)發(fā)生跳躍式發(fā)展,跨界擠壓其他企業(yè)的發(fā)展空間。傳統(tǒng)企業(yè)急需變革,需要像互聯(lián)網(wǎng)公司一樣,利用信息化、數(shù)字化、新技術(shù)的利器形成平臺(tái)化系統(tǒng),賦能公司的人員和業(yè)務(wù),快速應(yīng)對(duì)挑戰(zhàn)。
三、華為數(shù)據(jù)湖解決方案
華為數(shù)據(jù)湖解決方案緊扣時(shí)代脈搏,幫助企業(yè)利用數(shù)據(jù)平臺(tái)化利器——數(shù)據(jù)湖,助力業(yè)務(wù)飛速發(fā)展。華為數(shù)據(jù)湖解決方案基于先進(jìn)的云上系統(tǒng)架構(gòu),著力解決線下企業(yè)數(shù)字化轉(zhuǎn)型中,數(shù)據(jù)無法驅(qū)動(dòng)業(yè)務(wù)發(fā)展、成本高昂、計(jì)算存儲(chǔ)等基礎(chǔ)設(shè)施資源浪費(fèi)等復(fù)雜問題。
華為數(shù)據(jù)湖解決方案基本架構(gòu)
下文從數(shù)據(jù)集中存儲(chǔ)與共享、數(shù)據(jù)治理、計(jì)算側(cè)Cache,快速數(shù)據(jù)分析這四個(gè)維度詳細(xì)介紹華為數(shù)據(jù)湖解決方案。
- 數(shù)據(jù)集中存儲(chǔ)與共享
許多企業(yè)通常忽略數(shù)據(jù)積累的價(jià)值,數(shù)據(jù)需要從企業(yè)的各個(gè)方面持續(xù)的收集、存儲(chǔ),才有可能基于這些數(shù)據(jù)挖掘出價(jià)值信息,指導(dǎo)業(yè)務(wù)決策,驅(qū)動(dòng)公司發(fā)展。華為數(shù)據(jù)湖解決方案實(shí)現(xiàn)數(shù)據(jù)集中存儲(chǔ)與共享是基于華為大數(shù)據(jù)解決方案FunsionInsight和華為海量對(duì)象存儲(chǔ)架構(gòu),實(shí)現(xiàn)萬億級(jí)數(shù)據(jù)可靠存儲(chǔ)與高效分析。
使用一套數(shù)據(jù)存儲(chǔ)資源池,可有效解決企業(yè)中的數(shù)據(jù)煙囪問題,提供統(tǒng)一的命名空間,多協(xié)議互通訪問,實(shí)現(xiàn)數(shù)據(jù)資源的高效共享,減少數(shù)據(jù)移動(dòng)。例如:很多的汽車制造企業(yè)都在進(jìn)行無人駕駛/自動(dòng)駕駛研究,車輛上的傳感器、雷達(dá)等IOT設(shè)備產(chǎn)生的文件,通過離線批量導(dǎo)入或者高速訪問網(wǎng)絡(luò)進(jìn)入到存儲(chǔ)集群后通過Hadoop (HDFS)進(jìn)行分析處理,再進(jìn)入HPC集群(NFS)進(jìn)行仿真計(jì)算,也可以讀取到GPU集群進(jìn)行訓(xùn)練(S3)。整個(gè)過程中,數(shù)據(jù)無需拷貝和移動(dòng),實(shí)現(xiàn)高效數(shù)據(jù)共享。
數(shù)據(jù)集中存儲(chǔ)與共享實(shí)際上是將存儲(chǔ)資源池化,將計(jì)算和數(shù)據(jù)進(jìn)行分離。當(dāng)前仍然有不少人不能接受大數(shù)據(jù)的計(jì)算和數(shù)據(jù)分離架構(gòu),認(rèn)為一旦采用分離架構(gòu),必然會(huì)導(dǎo)致性能的降低。但實(shí)際上,分離后可極大降低存儲(chǔ)成本,有效提高計(jì)算資源利用率,增強(qiáng)計(jì)算和存儲(chǔ)集群的靈活性。但不是所有情況下都要分離,根據(jù)我們?cè)谡⑦\(yùn)營商、金融、企業(yè)等多個(gè)行業(yè)多個(gè)項(xiàng)目的經(jīng)驗(yàn),如下情況適合分離:
1.隨著數(shù)據(jù)量的增長(zhǎng),存儲(chǔ)和計(jì)算資源的使用率嚴(yán)重不均衡,比如:用戶行為分析中的用戶留存分析,存儲(chǔ)數(shù)據(jù)量不斷增長(zhǎng),但計(jì)算資源基本不變;
2.業(yè)務(wù)部門向平臺(tái)部門單獨(dú)申請(qǐng)計(jì)算或存儲(chǔ)資源,分離架構(gòu)可以更靈活的分配資源。
另外從數(shù)據(jù)生命周期的維度也可以找到適合的階段,綠色部分表示的數(shù)據(jù)的清洗、加工整合和歸檔備份場(chǎng)景適合存儲(chǔ)和計(jì)算的分離。
注意:存儲(chǔ)和計(jì)算分離往往伴隨大數(shù)據(jù)的服務(wù)化,需要從云化、資源彈性調(diào)度的角度管理資源。
- 數(shù)據(jù)治理
數(shù)據(jù)不僅要存下來,更要治理好,否則數(shù)據(jù)湖將變成數(shù)據(jù)沼澤,浪費(fèi)大量的IT資源。平臺(tái)化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動(dòng)企業(yè)業(yè)務(wù)發(fā)展,數(shù)據(jù)治理至關(guān)重要。企業(yè)中收集的數(shù)據(jù)或從其他行業(yè)中采集數(shù)據(jù)種類多樣,格式不一,多數(shù)以原始格式存儲(chǔ),企業(yè)需要不斷對(duì)這些原始數(shù)據(jù)進(jìn)行整合加工,根據(jù)各業(yè)務(wù)組織、場(chǎng)景、需求形成容易分析的干凈數(shù)據(jù),盡可能多的讓更多的人訪問分析數(shù)據(jù)。數(shù)據(jù)治理是個(gè)一系列復(fù)雜的工作,這里重點(diǎn)介紹下元數(shù)據(jù)的管理。
華為數(shù)據(jù)湖解決方案為企業(yè)中海量的數(shù)據(jù)集提供了一套集中的元數(shù)據(jù)管理系統(tǒng),提供全局的數(shù)據(jù)資源目錄、完整的數(shù)據(jù)元數(shù)據(jù)描述、數(shù)據(jù)血緣關(guān)系,方便員工快速查找了解數(shù)據(jù),更好的支撐數(shù)據(jù)分析,元數(shù)據(jù)管理異步的從數(shù)據(jù)服務(wù)中抽取元數(shù)據(jù),盡量不影響原系統(tǒng)的運(yùn)行。
- 計(jì)算側(cè)Cache
計(jì)算和數(shù)據(jù)分離后必然會(huì)帶來一定的網(wǎng)絡(luò)I/O開銷,計(jì)算側(cè)Cache可有效減少頻繁的網(wǎng)絡(luò)I/O次數(shù)。同時(shí)萬兆網(wǎng)絡(luò)已經(jīng)得以普及,甚至更高,網(wǎng)絡(luò)對(duì)計(jì)算影響已經(jīng)非常有限。計(jì)算側(cè)Cache采用多種算法,將數(shù)據(jù)緩存在計(jì)算側(cè),可以使得很多場(chǎng)景下計(jì)算與數(shù)據(jù)分離方案的性能甚至高于一體化方式。
- 數(shù)據(jù)快速分析
前述的大量工作實(shí)際上都是為了加速數(shù)據(jù)分析的過程。數(shù)據(jù)快速分析需要提供多種數(shù)據(jù)分析引擎,基于華為FusionInsight 大數(shù)據(jù)方案提供Spark、HBase、ES、LibrA(一種融合數(shù)據(jù)的基于SQL的分布式數(shù)據(jù)關(guān)系型數(shù)據(jù)庫)等多種分析方式,快速分析不僅是能在已經(jīng)被整合后變干凈的保存在LibrA中的數(shù)據(jù),還能直接訪問海量對(duì)象存儲(chǔ)中的數(shù)據(jù),無需數(shù)據(jù)抽取,減少數(shù)據(jù)的轉(zhuǎn)換,支持高并發(fā)讀取,提升實(shí)時(shí)分析效率。同時(shí)可支持自助式的數(shù)據(jù)探索式分析。
華為數(shù)據(jù)湖解決方案提供了完整的數(shù)據(jù)架構(gòu)支持,為企業(yè)構(gòu)建一站式數(shù)據(jù)處理體驗(yàn),目前已在多個(gè)行業(yè)和客戶中使用。例如:華為數(shù)據(jù)湖解決方案支撐平安城市“一云一湖一平臺(tái)”系統(tǒng)架構(gòu),為公安客戶構(gòu)建了物理分散(分散在各地市、區(qū)縣的數(shù)據(jù))、邏輯統(tǒng)一的數(shù)據(jù)治理架構(gòu)。
責(zé)任編輯:售電衡衡
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實(shí)踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進(jìn)這個(gè)行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動(dòng)化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長(zhǎng)期助力儲(chǔ)能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市
-
山西省首座電力與通信共享電力鐵塔試點(diǎn)成功
-
中國電建公司公共資源交易服務(wù)平臺(tái)摘得電力創(chuàng)新大獎(jiǎng)
-
電力系統(tǒng)對(duì)UPS的技術(shù)要求