大數據2018:云存儲已在客觀層面扮演數據湖角色
誠然,AI所產生的影響已然無法忽視,其影響所覆蓋的范圍從地緣政治到市井瑣事,甚至還參與了一些舉世聞名的事件。此外,物聯網在當今社會中日益增長的影響也是不容忽視的,具體包括家庭、醫院提供醫療服務的方式、自動駕駛汽車的驅動、工廠的運營以及智能化城市管理等方面。爾后,GDPR將在2018年生效,這將迫使各組織著力解決將涉及隱私與國家主權影響的數據從現有數據庫轉移到數據湖與云存儲的過程中所要面臨的問題。
透過表面看本質,我們發現構造性轉變已經開始,具體包括企業在云領域的管理方式、流數據分析與數據湖戰略等。
目前,已有27.5%的大數據工作負載運行在云端(來源:Ovum ICT Enterprise Insights)
關于未來展望,我們將著眼于數據的管理方式。回顧過去的一年,我們曾表示“大數據——無論其來自于物聯網還是更為傳統的資源——將會逐步實現在云中完成存儲與處理。”去年,我們預計會有35—40%的新生大數據工作負載將在云端完成部署,而到2018年底,新的部署將超過50%。
我們的預測并非不切實際;Ovum針對所有大數據工作負載的最新全球調查研究顯示,在此之中的27.5%已經完成了云端部署。另外,根據Ovum的報告,企業云應用很難將大數據拒之門外,而在各式各樣的工作負載中,企業云應用所占據的比例在26—30%之間。
由于慣性使然,大多數組織已經不再堅持立足云環境復制與其自有數據中心相關的種種功能特性。此外,大多數組織會選擇使用多個家云供應商,這看似是為了取各家之所長。然而,正如以往的類似教訓一樣,這其實只是自上而下的企業標準政策與部門針對相關政策權衡之后所做出的妥協性決策產物。
因此,如同您所在的組織可能面臨SAP的使用成本一樣,不同部門可能同樣面臨著與人力資源相關的日常開銷或CRM銷售壓力,抑或擁有多種尚未與企業遺留方案相融合的ERP系統。在云端,企業電子郵件系統可能通過Office 365實現,而部門IT團隊則將使用AWS進行開發與測試; 與此同時,企業營銷團隊使用的則是Google Analytics。
隨著云從運行獨立工作負載的目標發展至企業關鍵型應用,我們預計在2018年初期,大多數公司將開始正式實施多云策略——正如在2017年,我們將云端部署視為大數據的隱患一般——多云也因此將成為2018年亟待解決的問題。也正因為如此,甲骨文方面決定將運行在亞馬遜RDS服務上的數據庫產品的使用價格進行翻倍; 這也是為何Aurora OLTP數據庫目前能夠成為亞馬遜公司中增長速度最快的服務(在此之前的冠軍為Redshift)。
這不僅僅是云供應商對于此類擔憂的反應性決策,多云的決策將影響有關平臺的選擇。當您選擇在EC 2上運行一套甲骨文的數據庫或Hadoop集群時——若Azure或Google Cloud調整其定價——這同時也成為了一項值得重新審視的抉擇。
當您選擇在IBM云端運行Aurora、Cosmos DB、谷歌BigQuery、甲骨文Autonomous數據庫18c或IBM分析系統時,這不僅意味著需要選擇云,還需要選擇數據平臺。現在,您對于這一選擇是否能夠讓運行一套特定云的數據平臺增值的關注度已經遠勝于是否選擇依賴一家特定的云供應商——這就如同讓您再一次面對甲骨文公司或SQL Server平臺做出決策。
誠然,這也是亞馬遜公司與微軟方面正在以幾乎免費的方式提供數據庫遷移服務的原因——毫無疑問的是這兩家公司想要占領您的企業數據庫。同樣,我們預計Google Cloud、甲骨文與IBM將會在2018年積極以虧損方式搶占數據庫遷移服務份額,并且越來越多的企業會在這一領域拼盡全力。
多云戰略也將在混合云的管理方面發揮至關重要的作用。正如鮮有組織——無論其規模如何——傾向于依賴單一云供應商一般,也很少有組織(除了初創企業之外)會將全部的工作負載轉移至云端。在云計算平臺運行分析時,無論是在設計抑或是數據主權的問題上,維護敏感客戶記錄的透明度將會成為影響云計算平臺選擇的主要因素。
數據管道改變了實時處理的重心
去年,我們預測“物聯網將成為把實時流數據推向前端的應用實例。”今年,谷歌方面的Anadiotis預測,不僅流數據將成為主流,“并且還將逐步實現即時分析。”
流數據分析并非是新鮮術語;在此之前,我們已經投入了大量精力以讓其重拾關注。在進行數據存儲之前,流數據處理可被用于數據的解析與過濾以及模式或事件的檢測。物聯網數據的爆炸式增長自然催生了難題——所有數據是否都需要存儲以及在哪里完成數據的處理。
隨著我們日益增長的技術需求,我們希望能夠在數據運行的同時完成更多的工作負載。這不僅解釋了用于隊列處理的Kafka與分發數據技術的萌生,還表明了數據平臺供應商——諸如SAP、 Hortonworks、MapR與 Teradata——正在采取相關行動的原因。 Amazon Kinesis、 Azure Data Factory以及 Google Cloud Dataflow的崛起亦是這類即時需求的直接產物。數據管道能夠將實時處理從基礎過濾與轉換擴展為協調進程,從而支持高級預測分析與機器學習。因此,我們預計數據管道將在2018年成為流式分析的關鍵性支柱。此外,我們還將在這個領域聽到來自于IBM與甲骨文等供應商所帶來的更多消息。
云存儲已在客觀層面扮演數據湖角色
因為數據湖是專為保存那些不適合于其它位置且易丟失的數據而設計,所以當您想到數據湖時,您可能自然就會想到Hadoop。我們已經將數據湖定義為受管理的存儲庫,并致力于讓其成為數據的默認提取點。但是,我們現在發現數據湖的安裝啟用超過了Hadoop。或者正如Mike Olson在2014年所預言的一般——Hadoop終將消失。
數據湖以聯動查詢工具作為起點,現已成為每個分析數據庫的配套項目。我們已經見證了JSON數據庫通過Spark進行擴展,從而實現分析查詢。此外,我們還目睹了各Hadoop供應商(例如Cloudera 與 Hortonworks)將其數據管理服務與HDFS分離。所以,現在數據湖即是數據存儲的位置所在。
毫無疑問,云供應商享有最后的發言權:在云端,云存儲顯然已成為數據的默認攝取點。所以,云供應商正在致力于讓其云對象存儲配備直接查詢功能。亞馬遜方面現在已可通過S3直接訪問配有Athena 的SQL 實際查詢,并可作為Redshift Spectrum數據倉庫的擴展。Google Cloud早已將其云存儲作為BigQuery的默認來源,而Snowflake——第三方云數據倉庫——也是如此。
此外,頗為諷刺的是,云存儲最初其實專為存儲需求而設計。然而,在云對象存儲占據了大部分數據的世界里,催生了企業要優化訪問需求。所以在2018年,我們預計幾乎所有的數據倉庫與分析數據庫都將對接當下流行的云對象存儲方案,具體包括S3、Azure BLOB Storage與Google Cloud Storage等支持目標。
責任編輯:售電衡衡
-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業
-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報告 | 基于分類監管與當量協同的碳市場框架設計方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉型與經濟發展并進
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
2020年二季度福建省統調燃煤電廠節能減排信息披露
2020-07-21火電環保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規范法律問題研究(上)
2019-10-31能源替代規范法律 -
區域鏈結構對于數據中心有什么影響?這個影響是好是壞呢!