欧美日操-欧美日韩91-欧美日韩99-欧美日韩ay在线观看-xxxx色-xxxx视频在线

【應用】撩開分布式存儲神秘面紗

2018-04-13 20:13:17 大云網  點擊量: 評論 (0)
我們在2011年開始研究試驗云計算技術,到2013年形成了長距雙活資源池體系,并引入SDNOverlay技術進行測試和試點,通過SDN實現彈性網絡資源

VBS是計算數據塊存儲位置的重要網元。一個VBS就是一個“機頭”。VBS部署很靈活,有很多種部署方法,可以根據不同的需求進行選擇。比如,在VMWARE虛擬機中,可以在物理機上開設一臺虛擬機部署VBS,在XEN/KVM部署在domain0上;或者部署在每臺OSD服務器上,或專門設置VBS服務器群。

VBS采取一致性哈希算法,如圖3,將數據塊的邏輯地址計算出KEY值。并將計算出來的KEY映射到哈希環上,在哈希環上劃分了N段(Partition),每個Partition對應一個硬盤,并根據出partition主和osd節點的映射關系ioview,和partitio主備對應的osd關系,得到該數據塊的路由,如圖4。在寫入的時候,采用強一致性,即當主和備副本都返回寫成功后,才認為這個IO寫成功了。讀IO時只讀主副本,當主副本故障的時候,會在備副本中選舉出主副本。目前,一個資源池可以支持2000塊硬盤。

操作系統看到的連續的數據邏輯地址(LBA),實際上被打散到資源池內所有硬盤上了,類似所有硬盤都做了raid0,這樣就利用了所有磁盤的性能,提高了存儲的性能。操作系統實際是直接讀寫物理磁盤的塊,并沒有封裝額外的文件系統,是一個raw設備。

OSD是一臺插了較多硬盤的X86服務器,我們采用的是12塊SATA3T的硬盤作為數據的持久化存儲介質。如果VBS不承載在OSD上,那么OSD服務器的計算壓力實際上很小,也沒有必要配置計算能力很強、內存配置很高的服務器。上一篇文章計算過,12塊SATA盤提供的iops或吞吐量其實很有限,需要配置SSD作為緩存,加速存儲的性能。由此看來,分布式存儲的性能是由SSD的性能和熱點數據計算算法決定的。和一般存儲不同,一般分布式存儲的寫性能會好于讀性能。主要是主和備副本寫入SSD就返回成功了,而SSD什么時候寫入硬盤,怎么寫入硬盤,客戶端是不知道的。而讀數據的時候,如果數據是熱點數據,已經在緩存在SSD上,性能會很好,如果沒有在緩存中,就需要到硬盤中直接讀取,那性能就很差了。這也是當分布式存儲在初始化的時候,測試性能指標不如運行一段時間后的指標。所以測試分布式存儲有很多陷阱,大家要注意。

為了提高存儲的安全性,達到6個9以上的安全性,我們采取的是通行的3副本(2副本在96塊盤以下,可以達到6個9)。副本可以根據實際情況設置成為在不同機架、不同服務器、不同硬盤的安全級別。當磁盤或主機故障,會被MDC監控到,會選舉主副本、踢出故障點、重構副本等操作。為了確保數據的安全,副本重構的時間很關鍵,我們要求,每T數據重構時間不超過30分鐘。

為了確保數據重構流量不影響正常存儲IO訪問流量,實現快速數據重構。我們沒有采取華為推薦的網絡方案,而是采用環形虛擬化堆疊的方案,交換機間的堆疊鏈路采用40G光路,如圖5。將存儲的重構流量都壓制在存儲環形網絡中。交換機到服務器采用2*10G連接,可以根據情況采用主備或分擔的模式。

說過了“塊”存儲,再簡單了解一下“對象存儲”。對象存儲是在同樣容量下提供的存儲性能比文件存儲更好,又能像文件存儲一樣有很好的共享性。實際使用中,性能不是對象存儲最關注的問題,需要高性能可以用塊存儲,容量才是對象存儲最關注的問題。所以對象存儲的持久化層的硬盤數量更多,單盤的容量也更大。對象存儲的數據的安全性保障也各式各樣,可以是單機raid或網絡raid,也可以副本。對性能要求不高,可以直接用普通磁盤,或利用raid卡的緩存,也可以配些SSD作為緩存。我們現在使用單機35塊7200轉4TSATA盤+raid卡緩存加速的自研對象存儲,并計劃在今年使用60塊7200轉8TSATA盤。即每臺服務器提供480T的裸容量。Ceph和google基于GFS的存儲就是典型的對象存儲。

Ceph是目前最為熱門的存儲,可以支持多種接口。Ceph存儲的架構和華為的FusionStorage異曲同工,都是靠“算”而不是“查”。一種是為數眾多的、負責完成數據存儲和維護功能的OSD,另一種則是若干個負責完成系統狀態檢測和維護的monitor。OSD和monitor之間相互傳輸節點狀態信息,共同得出系統的總體工作狀態,并形成一個全局系統狀態記錄數據結構,即所謂的clustermap。這個數據結構與特定算法相配合,便實現了Ceph“無需查表,算算就好”的核心機制以及若干優秀特性。

但數據的的組織方法是不同的。首先ceph的核心是一個對象存儲,是以對象為最小組織單位。1、首先文件是被映射成為一個或多個對象。2、然后每個對象再被映射到PG(PlacementGroup)上,PG和對象之間是“一對多”映射關系。3、而PG會映射到n個OSD上,n就是副本數,OSD和PG是“多對多”的關系。

由若干個monitor共同負責整個Ceph集群中所有OSD狀態的發現與記錄,并且共同形成clustermap的master版本,然后擴散至全體OSD以及客戶端。OSD使用clustermap進行數據的維護,而客戶端使用clustermap進行數據的尋址。

Google三大寶之一的“GFS”是google對象存儲的基礎。

核心不同是數據的組織架構:master服務器(即元數據服務器)保存了文件名和塊的名字空間、從文件到塊的映射、副本位置,由客戶端來查詢。是一個典型的信令和媒體分開的架構。

分布式存儲一般情況下都是靠“副本”來確保數據的安全性和完整性。每塊盤記錄的數據內容都不一樣,當某一塊盤出現問題,都需要從其他不同盤內的數據塊中進行快速的數據重構。數據重構是需要時間的,如果大量盤同時故障,將會發生什么?另外,OSD的擴容,也會導致數據的遷移,也會影響存儲。下一篇,我將最終揭開分布式存儲存在的隱患。

大云網官方微信售電那點事兒

責任編輯:蔣桂云

免責聲明:本文僅代表作者個人觀點,與本站無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
?
主站蜘蛛池模板: 天堂草原视频在线观看| 色情www日本欧美| 日韩一区二区视频在线观看| 久久99re6国产在线播放| 秋霞电影网伦大理电影在线观看| 亚洲三级天堂| 日本综合色| 亚洲天堂91| 亚洲国产综合精品| 国产高清精品国语特黄A片| 色婷婷AV99XX| 日本一区二区三区久久精品 | 一级毛片网| 真实迷下药在线观看| 国模啪啪久久久久久久| 亚洲精品久久无码AV片WWW | 天天看天天摸天天操| 亚洲区在线播放| 国内精品伊人久久久影院| 日韩精品卡1卡2三卡四卡乱码| 色综合小说久久综合图片| 欧美视频色| 日韩a级黄色片| 特黄特a级特别特级特毛片| 99久久久A片无码国产精| 久久精品国产亚洲AV麻豆欧美玲 | 久久精品亚洲热综合一本奇米| 亚洲色婷婷久久精品AV蜜桃| 日韩精品视频福利资源站| 天天射天天射天天射| 野外性战 欧美| 国产精品久久国产三级国不卡顿| 人体内射精一区二区三区| 日韩欧美国产成人| 日韩在线www| 亚洲激情成人| yellow片在线观看免费观看动漫| 婷婷五月久久精品国产亚洲| 婷婷综合网站| 天天噜天天干| 伊人色啪啪天天久久网|