大數據應用:Hadoop沖鋒陷陣
如今,大數據已經成為時代的主題,企業對大數據的應用也愈加深入,隨著大數據的普及,有很多大數據的觀念需要被質疑,首先一點就是人們普遍認為你可以簡單地利用Hadoop,并且Hadoop易于使用。
問題是,Hadoop是一項技術,而大數據和技術無關。大數據是和業務需求有關的。事實上,大數據應該包括Hadoop和關系型數據庫以及任何其它適合于我們手頭任務的技術。
例如,在Hadoop中對一個數據集做廣泛并且探索性的分析是很有意義的,但關系型存儲對于那些尚未發現的東西進行運行分析則更好。Hadoop對于在一個數據集中尋找最低水平的細節也很好用,但關系型數據庫對于數據的存儲轉換和匯總則更有意義。因此底線是,對于你的任何需求,要使用正確的技術。
對于Hadoop如何組合和處理大數據的技巧和方法,數據專家Anoop曾經在另一篇文章中提到過,一般情況下,為了得到最終的結果,數據需要加入多個數據集一起被處理和聯合。Hadoop中有很多方法可以加入多個數據集。MapReduce提供了Map端和Reduce端的數據連接。這些連接是非平凡的連接,并且可能會是非常昂貴的操作。Pig和Hive也具有同等的能力來申請連接到多個數據集。Pig提供了復制連接,合并連接和傾斜連接(skewed join),并且Hive提供了map端的連接和完整外部連接來分析數據。
在大數據/Hadoop的世界,一些問題可能并不復雜,并且解決方案也是直截了當的,但面臨的挑戰是數據量。在這種情況下需要不同的解決辦法來解決問題。一些分析任務是從日志文件中統計明確的ID的數目、在特定的日期范圍內改造存儲的數據、以及網友排名等。所有這些任務都可以通過Hadoop中的多種工具和技術如MapReduce、Hive、Pig、Giraph和Mahout等來解決。這些工具在自定義例程的幫助下可以靈活地擴展它們的能力。
Hadoop是一個框架,不是一個解決方案,在解決大數據分析的問題上人們誤認為Hadoop可以立即有效工作,而實際上對于簡單的查詢,它是可以的。但對于難一些的分析問題,Hadoop會迅速敗下陣來,因為需要你直接開發Map/Reduce代碼。出于這個原因,Hadoop更像是J2EE編程環境而不是商業分析解決方案。”所謂框架意味著你一定要在之上做個性化和業務相關的開發和實現,而這些都需要成本。
Hadoop是一個用來做一些非常復雜的數據分析的杰出工具。但是具有諷刺意味的是,它也是需要大量的編程工作才能得到這些問題的答案。 這一點不止在數據分析應用方面,它其實反映了目前使用開源框架時候不得不面對的選型平衡問題。當你在選型開源框架或代碼的時候,既要考慮清楚它能夠幫到你多少,節省多少時間和成本,提高多少效率。也要知道由此而產生多少新增的成本,比如工程師的學習成本、開發和維護成本,以及未來的擴展性,包括如果使用的框架升級了,你和你的團隊是否要做相應的升級;甚至還要有安全性方面的考慮,畢竟開源框架的漏洞也是眾所周知的。
責任編輯:小沈
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市