大數據關鍵技術分析
Hadoop就是基于這樣的理念設計。Hadoop是一個由Apache基金會所開發的分布式系統基礎架構,計算分析處理所涉及的框架,允許多臺設備一起工作,充分利用集群的威力進行高速運算和存儲,共同完成一項任務,而對于用戶來說這些設備是感知不到了,Hadoop技術屏蔽了底層的細節。
Hadoop最底層是HDFS,也就是Hadoop文件系統,這個是分布式文件系統,由多臺設備提供統一的存儲空間,而用戶感覺不到多臺設備,只看到一個統一的存儲空間,這也是云存儲技術的基礎。構建于HDFS的Hbase是天然的分布式數據庫;MapReduce提供了云計算框架,它的數據來源也是分布式的,可以是HDFS,也可以是Hbase。
HBase是分布式數據產品,多臺設備共同提供類似數據庫的服務,但是這種服務是分布式,由多臺設備來提供的,用戶也完全感覺不到設備的存在,只知道有一個數據庫給他們服務。這個也就是大數據庫的基礎。
在HBase之上,有MapReduce服務框架,也就是并行分析計算服務框架,可以支持各種分析應用并發的在多臺設備上執行,完成一個共同的任務,原來1個人需要10天完成的任務,現在可以10個人1天完成,大大提升了數據分析的效率,這個也就是分布式計算的基礎。
Pig、Hive等是數據分析的引擎,提供快速的數據分析接口和能力。
Hadoop主要有以下幾個優點:
一是高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。
二是高擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
三是高效性。Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非常快。
四是高容錯性。Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
五是低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。
責任編輯:售電衡衡
-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業
-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報告 | 基于分類監管與當量協同的碳市場框架設計方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉型與經濟發展并進
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
2020年二季度福建省統調燃煤電廠節能減排信息披露
2020-07-21火電環保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規范法律問題研究(上)
2019-10-31能源替代規范法律 -
區域鏈結構對于數據中心有什么影響?這個影響是好是壞呢!