欧美日操-欧美日韩91-欧美日韩99-欧美日韩ay在线观看-xxxx色-xxxx视频在线

為什么大數(shù)據(jù)需要數(shù)據(jù)湖?

2018-06-08 15:49:05 高端存儲(chǔ)知識(shí)  點(diǎn)擊量: 評(píng)論 (0)
今天西瓜哥作為嘉賓參加了2018中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)銅仁分論壇,感覺銅仁在大數(shù)據(jù)的落地這塊做得非常好,應(yīng)用很多,豐富多彩。但是,這些應(yīng)用各種獨(dú)立,底層的數(shù)據(jù)共享不夠。如果引入數(shù)據(jù)湖的概念,打造一個(gè)高效的數(shù)據(jù)底座,將會(huì)大大提高數(shù)據(jù)的共享,提高數(shù)據(jù)的利用價(jià)值

前言:

2014626日,西瓜哥在高端存儲(chǔ)知識(shí)公眾號(hào)發(fā)表了一篇文章”你知道數(shù)據(jù)湖泊(DATA LAKE)嗎?”一文,首次把數(shù)據(jù)湖這個(gè)概念引入中國。由于那時(shí)還沒有標(biāo)準(zhǔn)的翻譯,為了和數(shù)據(jù)倉庫術(shù)語字?jǐn)?shù)對(duì)齊,翻譯成數(shù)據(jù)湖泊。現(xiàn)在,數(shù)據(jù)湖已經(jīng)得到快速發(fā)展,很多廠商都推出了自己的解決方案。

今天西瓜哥作為嘉賓參加了2018中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)銅仁分論壇,感覺銅仁在大數(shù)據(jù)的落地這塊做得非常好,應(yīng)用很多,豐富多彩。但是,這些應(yīng)用各種獨(dú)立,底層的數(shù)據(jù)共享不夠。如果引入數(shù)據(jù)湖的概念,打造一個(gè)高效的數(shù)據(jù)底座,將會(huì)大大提高數(shù)據(jù)的共享,提高數(shù)據(jù)的利用價(jià)值和效率。

因此,我今天選登一篇文章,幫助大家認(rèn)識(shí)到數(shù)據(jù)湖的價(jià)值,希望以后搞大數(shù)據(jù)前,要提前規(guī)劃好數(shù)據(jù)湖。

匯聚成湖,乘云筑數(shù)

——云上大數(shù)據(jù)的最佳拍檔:數(shù)據(jù)湖

作者:張帥,許鐘生

2011年“數(shù)據(jù)湖”概念被提出,業(yè)界便對(duì)數(shù)據(jù)湖一直有著廣泛而不同的理解和定義。

“數(shù)據(jù)湖是一個(gè)集中化存儲(chǔ)海量的、多個(gè)來源,多種類型數(shù)據(jù),并可以對(duì)數(shù)據(jù)進(jìn)行快速加工,分析的平臺(tái),本質(zhì)上是一套先進(jìn)的企業(yè)數(shù)據(jù)架構(gòu)。”——這是對(duì)數(shù)據(jù)湖比較清晰且完整的定義。然而,從定義上看不出數(shù)據(jù)湖對(duì)企業(yè)的重要性,本文從數(shù)據(jù)湖架構(gòu)的發(fā)展,數(shù)據(jù)平臺(tái)對(duì)企業(yè)的重要性,華為數(shù)據(jù)湖方案等角度闡明數(shù)據(jù)湖的對(duì)企業(yè)的價(jià)值。

一、數(shù)據(jù)湖架構(gòu)的發(fā)展

數(shù)據(jù)湖架構(gòu)一直在不斷變革和發(fā)展,很多場(chǎng)景下,大家很容易將數(shù)據(jù)湖與數(shù)據(jù)倉庫進(jìn)行混淆,數(shù)據(jù)湖方案最初確實(shí)是為解決數(shù)據(jù)倉庫笨重,高成本,冗長(zhǎng)的分析周期等問題而生,但是二者又有著明顯的不同,同時(shí)伴隨著云計(jì)算、大數(shù)據(jù)、人工智能技術(shù)的發(fā)展,數(shù)據(jù)湖與之不斷融合,數(shù)據(jù)湖的架構(gòu)也在不斷完善。

數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別

數(shù)據(jù)湖與數(shù)據(jù)倉庫之間的異同點(diǎn)有很多,很容易混淆,但是最重要的區(qū)別有兩個(gè):

  1. 存儲(chǔ)數(shù)據(jù)類型:數(shù)據(jù)倉庫是存儲(chǔ)數(shù)據(jù),進(jìn)行建模,存儲(chǔ)的是結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)湖以其本源格式保存大量原始數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。在需要數(shù)據(jù)之前,沒有定義數(shù)據(jù)結(jié)構(gòu)和需求。
  2. 數(shù)據(jù)處理模式:在我們可以加載到數(shù)據(jù)倉庫中的數(shù)據(jù),我們首先需要定義好它,這叫做寫時(shí)模式(Schema-On-Write)。而對(duì)于數(shù)據(jù)湖,您只需加載原始數(shù)據(jù),然后,當(dāng)您準(zhǔn)備使用數(shù)據(jù)時(shí),就給它一個(gè)定義,這叫做讀時(shí)模式(Schema-On-Read)。這是兩種截然不同的數(shù)據(jù)處理方法。因?yàn)閿?shù)據(jù)湖是在數(shù)據(jù)到使用時(shí)再定義模型結(jié)構(gòu),因此提高了數(shù)據(jù)模型定義的靈活性,可滿足更多不同上層業(yè)務(wù)的高效率分析訴求。

數(shù)據(jù)湖與新技術(shù)的融合與發(fā)展

1、數(shù)據(jù)湖與大數(shù)據(jù)技術(shù)的融合

Hadoop技術(shù)已經(jīng)經(jīng)歷了十幾年的發(fā)展,而數(shù)據(jù)湖作為第二數(shù)據(jù)平面最重要的數(shù)據(jù)平臺(tái),與Hadoop技術(shù)的融合越來越緊密,相輔相成,相得益彰。例如:HBase可以讓數(shù)據(jù)湖保存海量數(shù)據(jù);Spark 使得數(shù)據(jù)湖可以更快的批量分析海量數(shù)據(jù);StormFlinkNiFi等使數(shù)據(jù)湖能夠?qū)崟r(shí)接入和處理IOT數(shù)據(jù)。Hadoop本身更多的聚焦于數(shù)據(jù)的處理與應(yīng)用,但是對(duì)于底層的數(shù)據(jù)存儲(chǔ)工作則并未過多的關(guān)注。例如:傳統(tǒng)的Hadoop使用三副本技術(shù)保存數(shù)據(jù),數(shù)據(jù)利用率只有33%,數(shù)據(jù)保存成本較高;同時(shí)客戶對(duì)于Hadoop承載的數(shù)據(jù)可靠性要求也越來越高,數(shù)據(jù)保護(hù)(備份、容災(zāi)等)需求越來越明顯,Hadoop3.x 開啟了存儲(chǔ)和計(jì)算分離的趨勢(shì),但這些還不能完全滿足用戶需求,數(shù)據(jù)湖需要從數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)治理等方面繼續(xù)發(fā)展。

2、數(shù)據(jù)湖與云計(jì)算技術(shù)的融合

云計(jì)算采用虛擬化、多租戶等技術(shù)滿足業(yè)務(wù)對(duì)服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)等基礎(chǔ)資源的最大化利用,降低企業(yè)對(duì)IT基礎(chǔ)設(shè)施的成本,為企業(yè)帶來了巨大的經(jīng)濟(jì)性;同時(shí)云計(jì)算技術(shù)實(shí)現(xiàn)了主機(jī)、存儲(chǔ)等資源快速申請(qǐng)、使用,則同樣為企業(yè)帶來了更多的管理便捷性。在傳統(tǒng)建設(shè)模式下,大數(shù)據(jù)采用的都是物理機(jī)部署模式,在應(yīng)對(duì)多業(yè)務(wù)類型彈性計(jì)算資源需求以及計(jì)算性能和存儲(chǔ)容量增幅差異化較大的情況下,計(jì)算和存儲(chǔ)一體化的部署模式,既不夠靈活,同時(shí)也不能提供最優(yōu)性價(jià)比。這時(shí)利用云化技術(shù),將大數(shù)據(jù)計(jì)算部署在云上,把存儲(chǔ)資源與計(jì)算資源獨(dú)立開來,實(shí)現(xiàn)計(jì)算和數(shù)據(jù)各自獨(dú)立擴(kuò)展,彈性伸縮。當(dāng)前數(shù)據(jù)湖架構(gòu)已經(jīng)在公有云上得到了教完美的實(shí)現(xiàn)和應(yīng)用,例如:Microsoft Azure 2016年就推出了Data Lake云服務(wù),Amazon AWS 可以基于S3Glue等多個(gè)基本云服務(wù)快速構(gòu)建出一套數(shù)據(jù)湖服務(wù),Google內(nèi)部對(duì)海量數(shù)據(jù)集的管理和搜索系統(tǒng)也為數(shù)據(jù)湖的數(shù)據(jù)管理指明了道路(詳情參見《Managing Google’s data lake: an overview of the GOODS system》,一篇關(guān)于Google內(nèi)部的海量數(shù)據(jù)集搜索與管理的論文)。

3、數(shù)據(jù)湖與人工智能技術(shù)的融合

近些年,人工智能技術(shù)再一次飛速發(fā)展,訓(xùn)練和推理等需要同時(shí)處理超大的,甚至是多個(gè)數(shù)據(jù)集,這些數(shù)據(jù)集通常是視頻、圖片、文本等非結(jié)構(gòu)化數(shù)據(jù),來源于多個(gè)行業(yè)、組織、項(xiàng)目,對(duì)這些數(shù)據(jù)的采集、存儲(chǔ)、清洗、轉(zhuǎn)換、特征提取等工作是一個(gè)系列復(fù)雜、漫長(zhǎng)的工程。數(shù)據(jù)湖需要為人工智能程序提供數(shù)據(jù)快速收集、治理、分析的平臺(tái),同時(shí)提供極高的帶寬、海量小文件存取、多協(xié)議互通、數(shù)據(jù)共享的能力,可以極大加速數(shù)據(jù)挖掘、深度學(xué)習(xí)等過程。

二、數(shù)據(jù)湖對(duì)企業(yè)的重要性

很多人都說:“數(shù)據(jù)湖是新瓶裝舊酒”,只不過是一個(gè)概念的拼湊罷了,本質(zhì)上并沒有什么技術(shù)創(chuàng)新。其實(shí)數(shù)據(jù)湖這一名詞并不重要,重要的是它能不能在數(shù)字化浪潮下,真正幫助企業(yè)實(shí)現(xiàn)技術(shù)轉(zhuǎn)型,應(yīng)對(duì)快速發(fā)展的商業(yè)環(huán)境下層出不窮的新問題。

數(shù)據(jù)湖的核心價(jià)值是為企業(yè)帶來了數(shù)據(jù)平臺(tái)化運(yùn)營機(jī)制。當(dāng)前很多企業(yè)尚未意識(shí)到數(shù)據(jù)平臺(tái)化為企業(yè)帶來的好處。當(dāng)今的商業(yè)環(huán)境,在日新月異的技術(shù)變革驅(qū)動(dòng)下,正發(fā)生著劇烈的變化,傳統(tǒng)行業(yè)不停的被互聯(lián)網(wǎng)公司顛覆,給很多公司造成了極大的生存壓力。互聯(lián)網(wǎng)公司之所以能不斷顛覆傳統(tǒng)行業(yè),本身除了商業(yè)模式的變革,同時(shí)也是因?yàn)檫@些公司很多都是采用平臺(tái)化戰(zhàn)略,將最新的技術(shù)與競(jìng)爭(zhēng)力整合在平臺(tái)中,去賦能公司的運(yùn)營,使公司的業(yè)務(wù)發(fā)生跳躍式發(fā)展,跨界擠壓其他企業(yè)的發(fā)展空間。傳統(tǒng)企業(yè)急需變革,需要像互聯(lián)網(wǎng)公司一樣,利用信息化、數(shù)字化、新技術(shù)的利器形成平臺(tái)化系統(tǒng),賦能公司的人員和業(yè)務(wù),快速應(yīng)對(duì)挑戰(zhàn)。

三、華為數(shù)據(jù)湖解決方案

華為數(shù)據(jù)湖解決方案緊扣時(shí)代脈搏,幫助企業(yè)利用數(shù)據(jù)平臺(tái)化利器——數(shù)據(jù)湖,助力業(yè)務(wù)飛速發(fā)展。華為數(shù)據(jù)湖解決方案基于先進(jìn)的云上系統(tǒng)架構(gòu),著力解決線下企業(yè)數(shù)字化轉(zhuǎn)型中,數(shù)據(jù)無法驅(qū)動(dòng)業(yè)務(wù)發(fā)展、成本高昂、計(jì)算存儲(chǔ)等基礎(chǔ)設(shè)施資源浪費(fèi)等復(fù)雜問題。

華為數(shù)據(jù)湖解決方案基本架構(gòu)

下文從數(shù)據(jù)集中存儲(chǔ)與共享、數(shù)據(jù)治理、計(jì)算側(cè)Cache,快速數(shù)據(jù)分析這四個(gè)維度詳細(xì)介紹華為數(shù)據(jù)湖解決方案。

  • 數(shù)據(jù)集中存儲(chǔ)與共享

許多企業(yè)通常忽略數(shù)據(jù)積累的價(jià)值,數(shù)據(jù)需要從企業(yè)的各個(gè)方面持續(xù)的收集、存儲(chǔ),才有可能基于這些數(shù)據(jù)挖掘出價(jià)值信息,指導(dǎo)業(yè)務(wù)決策,驅(qū)動(dòng)公司發(fā)展。華為數(shù)據(jù)湖解決方案實(shí)現(xiàn)數(shù)據(jù)集中存儲(chǔ)與共享是基于華為大數(shù)據(jù)解決方案FunsionInsight和華為海量對(duì)象存儲(chǔ)架構(gòu),實(shí)現(xiàn)萬億級(jí)數(shù)據(jù)可靠存儲(chǔ)與高效分析。

使用一套數(shù)據(jù)存儲(chǔ)資源池,可有效解決企業(yè)中的數(shù)據(jù)煙囪問題,提供統(tǒng)一的命名空間,多協(xié)議互通訪問,實(shí)現(xiàn)數(shù)據(jù)資源的高效共享,減少數(shù)據(jù)移動(dòng)。例如:很多的汽車制造企業(yè)都在進(jìn)行無人駕駛/自動(dòng)駕駛研究,車輛上的傳感器、雷達(dá)等IOT設(shè)備產(chǎn)生的文件,通過離線批量導(dǎo)入或者高速訪問網(wǎng)絡(luò)進(jìn)入到存儲(chǔ)集群后通過Hadoop HDFS)進(jìn)行分析處理,再進(jìn)入HPC集群(NFS)進(jìn)行仿真計(jì)算,也可以讀取到GPU集群進(jìn)行訓(xùn)練(S3)。整個(gè)過程中,數(shù)據(jù)無需拷貝和移動(dòng),實(shí)現(xiàn)高效數(shù)據(jù)共享。

數(shù)據(jù)集中存儲(chǔ)與共享實(shí)際上是將存儲(chǔ)資源池化,將計(jì)算和數(shù)據(jù)進(jìn)行分離。當(dāng)前仍然有不少人不能接受大數(shù)據(jù)的計(jì)算和數(shù)據(jù)分離架構(gòu),認(rèn)為一旦采用分離架構(gòu),必然會(huì)導(dǎo)致性能的降低。但實(shí)際上,分離后可極大降低存儲(chǔ)成本,有效提高計(jì)算資源利用率,增強(qiáng)計(jì)算和存儲(chǔ)集群的靈活性。但不是所有情況下都要分離,根據(jù)我們?cè)谡⑦\(yùn)營商、金融、企業(yè)等多個(gè)行業(yè)多個(gè)項(xiàng)目的經(jīng)驗(yàn),如下情況適合分離:

1.隨著數(shù)據(jù)量的增長(zhǎng),存儲(chǔ)和計(jì)算資源的使用率嚴(yán)重不均衡,比如:用戶行為分析中的用戶留存分析,存儲(chǔ)數(shù)據(jù)量不斷增長(zhǎng),但計(jì)算資源基本不變;

2.業(yè)務(wù)部門向平臺(tái)部門單獨(dú)申請(qǐng)計(jì)算或存儲(chǔ)資源,分離架構(gòu)可以更靈活的分配資源。

另外從數(shù)據(jù)生命周期的維度也可以找到適合的階段,綠色部分表示的數(shù)據(jù)的清洗、加工整合和歸檔備份場(chǎng)景適合存儲(chǔ)和計(jì)算的分離。

注意:存儲(chǔ)和計(jì)算分離往往伴隨大數(shù)據(jù)的服務(wù)化,需要從云化、資源彈性調(diào)度的角度管理資源。

  • 數(shù)據(jù)治理

數(shù)據(jù)不僅要存下來,更要治理好,否則數(shù)據(jù)湖將變成數(shù)據(jù)沼澤,浪費(fèi)大量的IT資源。平臺(tái)化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動(dòng)企業(yè)業(yè)務(wù)發(fā)展,數(shù)據(jù)治理至關(guān)重要。企業(yè)中收集的數(shù)據(jù)或從其他行業(yè)中采集數(shù)據(jù)種類多樣,格式不一,多數(shù)以原始格式存儲(chǔ),企業(yè)需要不斷對(duì)這些原始數(shù)據(jù)進(jìn)行整合加工,根據(jù)各業(yè)務(wù)組織、場(chǎng)景、需求形成容易分析的干凈數(shù)據(jù),盡可能多的讓更多的人訪問分析數(shù)據(jù)。數(shù)據(jù)治理是個(gè)一系列復(fù)雜的工作,這里重點(diǎn)介紹下元數(shù)據(jù)的管理。

華為數(shù)據(jù)湖解決方案為企業(yè)中海量的數(shù)據(jù)集提供了一套集中的元數(shù)據(jù)管理系統(tǒng),提供全局的數(shù)據(jù)資源目錄、完整的數(shù)據(jù)元數(shù)據(jù)描述、數(shù)據(jù)血緣關(guān)系,方便員工快速查找了解數(shù)據(jù),更好的支撐數(shù)據(jù)分析,元數(shù)據(jù)管理異步的從數(shù)據(jù)服務(wù)中抽取元數(shù)據(jù),盡量不影響原系統(tǒng)的運(yùn)行。

  • 計(jì)算側(cè)Cache

計(jì)算和數(shù)據(jù)分離后必然會(huì)帶來一定的網(wǎng)絡(luò)I/O開銷,計(jì)算側(cè)Cache可有效減少頻繁的網(wǎng)絡(luò)I/O次數(shù)。同時(shí)萬兆網(wǎng)絡(luò)已經(jīng)得以普及,甚至更高,網(wǎng)絡(luò)對(duì)計(jì)算影響已經(jīng)非常有限。計(jì)算側(cè)Cache采用多種算法,將數(shù)據(jù)緩存在計(jì)算側(cè),可以使得很多場(chǎng)景下計(jì)算與數(shù)據(jù)分離方案的性能甚至高于一體化方式。

  • 數(shù)據(jù)快速分析

前述的大量工作實(shí)際上都是為了加速數(shù)據(jù)分析的過程。數(shù)據(jù)快速分析需要提供多種數(shù)據(jù)分析引擎,基于華為FusionInsight 大數(shù)據(jù)方案提供SparkHBaseESLibrA(一種融合數(shù)據(jù)的基于SQL的分布式數(shù)據(jù)關(guān)系型數(shù)據(jù)庫)等多種分析方式,快速分析不僅是能在已經(jīng)被整合后變干凈的保存在LibrA中的數(shù)據(jù),還能直接訪問海量對(duì)象存儲(chǔ)中的數(shù)據(jù),無需數(shù)據(jù)抽取,減少數(shù)據(jù)的轉(zhuǎn)換,支持高并發(fā)讀取,提升實(shí)時(shí)分析效率。同時(shí)可支持自助式的數(shù)據(jù)探索式分析。

華為數(shù)據(jù)湖解決方案提供了完整的數(shù)據(jù)架構(gòu)支持,為企業(yè)構(gòu)建一站式數(shù)據(jù)處理體驗(yàn),目前已在多個(gè)行業(yè)和客戶中使用。例如:華為數(shù)據(jù)湖解決方案支撐平安城市“一云一湖一平臺(tái)”系統(tǒng)架構(gòu),為公安客戶構(gòu)建了物理分散(分散在各地市、區(qū)縣的數(shù)據(jù))、邏輯統(tǒng)一的數(shù)據(jù)治理架構(gòu)。

大云網(wǎng)官方微信售電那點(diǎn)事兒

責(zé)任編輯:售電衡衡

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
?
主站蜘蛛池模板: 一级二级黄色片| 欧美性色xo在线| 亚洲欧美日韩国产综合高清| 青青国产成人久久91网| 四虎影视久久久免费| 亚洲小视频在线| 亚洲日本天堂在线| 亚洲欧洲成人| 四虎成人免费网址在线| 日本污污网站| 日韩特级毛片| 亚洲欧美视频在线观看| 欧美大片国产在线永久播放| 亚洲快播| 亚洲成a人在线观看| 天天涩综合| 天天操狠狠操| 欧美我不卡| 亚洲黄色第一页| 亚洲伊人色图| 天天久久狠狠色综合| 欧美一级片在线视频| 亚洲国产剧情| 日本jizzjizz| 亚洲精品线在线观看| 四虎永久免费在线观看| 色婷婷狠狠久久综合五月| 四虎精品影院4hutv四虎| 亚洲成人国产| 亚洲天堂一区二区三区四区| 午夜视频福利在线| 亚洲成a人不卡在线观看| 香蕉成人国产精品免费看网站| 亚洲嫩草影院久久精品| 一本一本久久a久久精品综合麻豆| 无码专区aaaaaa免费视频| 日韩欧美亚州| 一本在线免费视频| 亚洲麻豆一区| 亚洲综合色婷婷久久| 亚洲 国产 日产 韩国|