中國專業(yè)IT外包服務(wù)

加入收藏??

公司微博

網(wǎng)站地圖??

IT外包價格計算器

您當(dāng)前位置：主頁 > 資訊動態(tài) > IT知識庫 >

Ceph分布式存儲簡介

2020-02-12 20:06 作者：艾銻無限瀏覽量：

迎戰(zhàn)疫情,艾銻無限用愛與您同行

為中國中小企業(yè)提供免費IT外包服務(wù)

這次的肺炎疫情對中國的中小企業(yè)將會是沉重的打擊，據(jù)釘釘和微信兩個辦公平臺數(shù)據(jù)統(tǒng)計現(xiàn)有2億左右的人在家遠程辦公，那么對于中小企業(yè)的員工來說不懂IT技術(shù)將會讓他們面臨的最大挑戰(zhàn)和困難。

電腦不亮了怎么辦？系統(tǒng)藍屏如何處理？辦公室的電腦在家如何連接？網(wǎng)絡(luò)應(yīng)該如何設(shè)置？VPN如何搭建？數(shù)據(jù)如何對接？服務(wù)器如何登錄？數(shù)據(jù)安全如何保證？數(shù)據(jù)如何存儲？視頻會議如何搭建？業(yè)務(wù)系統(tǒng)如何開啟等等一系列的問題，都會困擾著并非技術(shù)出身的您。

好消息是當(dāng)您看到這篇文章的時候，就不用再為上述的問題而苦惱，您只需撥打艾銻無限的全國免費熱線電話:400 650 7820，就會有我們的遠程工程師為您解決遇到的問題，他們可以遠程幫您處理遇到的一些IT技術(shù)難題。

如遇到免費熱線占線，您還可以撥打我們的24小時值班經(jīng)理電話:15601064618或技術(shù)經(jīng)理的電話:13041036957，我們會在第一時間接聽您的來電，為您提供適合的解決方案，讓您無論在家還是在企業(yè)都能無憂辦公。

那艾銻無限具體能為您的企業(yè)提供哪些服務(wù)呢？

艾銻無限始創(chuàng)于2005年，歷經(jīng)15年服務(wù)了5000多家中小企業(yè)并保障了幾十萬臺設(shè)備的正常運轉(zhuǎn)，積累了豐富的企業(yè)IT緊急問題和特殊故障的解決經(jīng)驗，制定了相對應(yīng)的解決方案。我們?yōu)槟钠髽I(yè)提供的IT服務(wù)分為三大版塊:

第一版塊是保障性IT外包服務(wù):如電腦設(shè)備運維，辦公設(shè)備運維，網(wǎng)絡(luò)設(shè)備運維，服務(wù)器運維等綜合性企業(yè)IT設(shè)備運維服務(wù)。

第二版塊是功能性互聯(lián)網(wǎng)外包服務(wù):如網(wǎng)站開發(fā)外包，小程序開發(fā)外包，APP開發(fā)外包，電商平臺開發(fā)外包，業(yè)務(wù)系統(tǒng)的開發(fā)外包和后期的運維外包服務(wù)。

第三版塊是增值性云服務(wù)外包:如企業(yè)郵箱上云，企業(yè)網(wǎng)站上云，企業(yè)存儲上云，企業(yè)APP小程序上云，企業(yè)業(yè)務(wù)系統(tǒng)上云，阿里云產(chǎn)品等后續(xù)的云運維外包服務(wù)。

您要了解更多服務(wù)也可以登錄艾銻無限的官網(wǎng):www.bjitwx.com查看詳細說明，在疫情期間，您企業(yè)遇到的任何困境只要找到艾銻無限，能免費為您提供服務(wù)的我們絕不收一分錢，我們?nèi)w艾銻人承諾此活動直到中國疫情結(jié)束,我們將這次活動稱為——春雷行動。

以下還有我們?yōu)槟峁┑囊恍┘夹g(shù)資訊，以便可以幫助您更好的了解相關(guān)的IT知識，幫您渡過疫情中辦公遇到的困難和挑戰(zhàn)，艾銻無限愿和中國中小企業(yè)一起共進退，因為我們相信萬物同體，能量合一，只要我們一起齊心協(xié)力，一定會成功。再一次祝福您和您的企業(yè)，戰(zhàn)勝疫情，您和您的企業(yè)一定行。

北京艾銻無限告訴您：Ceph分布式存儲簡介

一、Ceph簡介：

        Ceph是一種為優(yōu)秀的性能、可靠性和可擴展性而設(shè)計的統(tǒng)一的、分布式文件系統(tǒng)。ceph 的統(tǒng)一體現(xiàn)在可以提供文件系統(tǒng)、塊存儲和對象存儲，分布式體現(xiàn)在可以動態(tài)擴展。在國內(nèi)一些公司的云環(huán)境中，通

常會采用 ceph 作為openstack 的唯一后端存儲來提高數(shù)據(jù)轉(zhuǎn)發(fā)效率。

   Ceph項目最早起源于Sage就讀博士期間的工作（最早的成果于2004年發(fā)表），并隨后貢獻給開源社區(qū)。在經(jīng)過了數(shù)年的發(fā)展之后，目前已得到眾多云計算廠商的支持并被廣泛應(yīng)用。RedHat及OpenStack都

可與Ceph整合以支持虛擬機鏡像的后端存儲。

二、Ceph特點：

高性能：

   a. 摒棄了傳統(tǒng)的集中式存儲元數(shù)據(jù)尋址的方案，采用CRUSH算法，數(shù)據(jù)分布均衡，

        并行度高。

    b.考慮了容災(zāi)域的隔離，能夠?qū)崿F(xiàn)各類負載的副本放置規(guī)則，例如跨機房、機架

        感知等。

    c. 能夠支持上千個存儲節(jié)點的規(guī)模，支持TB到PB級的數(shù)據(jù)。

高可用性：

    a. 副本數(shù)可以靈活控制。

    b. 支持故障域分隔，數(shù)據(jù)強一致性。

    c. 多種故障場景自動進行修復(fù)自愈。

    d. 沒有單點故障，自動管理。

高可擴展性：

    a. 去中心化。

    b. 擴展靈活。

    c. 隨著節(jié)點增加而線性增長。

特性豐富：

    a. 支持三種存儲接口：塊存儲、文件存儲、對象存儲。

    b. 支持自定義接口，支持多種語言驅(qū)動。

三、Ceph應(yīng)用場景：

Ceph可以提供對象存儲、塊設(shè)備存儲和文件系統(tǒng)服務(wù)，其對象存儲可以對接網(wǎng)盤（owncloud）應(yīng)用業(yè)務(wù)等；其塊設(shè)備存儲可以對接（IaaS），當(dāng)前主流的IaaS運平臺軟件，如：OpenStack、CloudStack、

Zstack、Eucalyptus等以及kvm等。

Ceph是一個高性能、可擴容的分布式存儲系統(tǒng)，它提供三大功能：

   對象存儲（RADOSGW）：提供RESTful接口，也提供多種編程語言綁定。兼容S3、Swift；

   塊存儲（RDB）：由RBD提供，可以直接作為磁盤掛載，內(nèi)置了容災(zāi)機制；

   文件系統(tǒng)（CephFS）：提供POSIX兼容的網(wǎng)絡(luò)文件系統(tǒng)CephFS，專注于高性能、大容量存儲；

什么是塊存儲/對象存儲/文件系統(tǒng)存儲？

1.對象存儲：

    也就是通常意義的鍵值存儲，其接口就是簡單的GET、PUT、DEL 和其他擴展，代表主要有 Swift 、S3 以及 Gluster 等；

2.塊存儲：

    這種接口通常以 QEMU Driver 或者 Kernel Module 的方式存在，這種接口需要實現(xiàn) Linux 的 Block Device 的接口或者 QEMU 提供的 Block Driver 接口，如 Sheepdog，AWS 的 EBS，阿里云的盤古系統(tǒng)，還

有 Ceph 的 RBD（RBD是Ceph面向塊存儲的接口）。在常見的存儲中 DAS、SAN 提供的也是塊存儲；

3.文件系統(tǒng)存儲：

     通常意義是支持 POSIX 接口，它跟傳統(tǒng)的文件系統(tǒng)如 Ext4 是一個類型的，但區(qū)別在于分布式存儲提供了并行化的能力，如 Ceph 的 CephFS (CephFS是Ceph面向文件存儲的接口)，但是有時候又會把

GlusterFS ，HDFS 這種非POSIX接口的類文件存儲接口歸入此類。當(dāng)然 NFS、NAS也是屬于文件系統(tǒng)存儲；

四、Ceph核心組件：

（1）Monitors：監(jiān)視器，維護集群狀態(tài)的多種映射，同時提供認證和日志記錄服務(wù)，包括有關(guān)monitor 節(jié)點端到端的信息，其中包括 Ceph 集群ID，監(jiān)控主機名和IP以及端口。并且存儲當(dāng)前版本信息以及最新更

改信息，通過 "ceph mon dump"查看 monitor map。

（2）MDS（Metadata Server）：Ceph 元數(shù)據(jù)，主要保存的是Ceph文件系統(tǒng)的元數(shù)據(jù)。注意：ceph的塊存儲和ceph對象存儲都不需要MDS。

（3）OSD：即對象存儲守護程序，但是它并非針對對象存儲。是物理磁盤驅(qū)動器，將數(shù)據(jù)以對象的形式存儲到集群中的每個節(jié)點的物理磁盤上。OSD負責(zé)存儲數(shù)據(jù)、處理數(shù)據(jù)復(fù)制、恢復(fù)、回（Backfilling）、再

平衡。完成存儲數(shù)據(jù)的工作絕大多數(shù)是由 OSD daemon 進程實現(xiàn)。在構(gòu)建 Ceph OSD的時候，建議采用SSD 磁盤以及xfs文件系統(tǒng)來格式化分區(qū)。此外OSD還對其它OSD進行心跳檢測，檢測結(jié)果匯報給Monitor

（4）RADOS：Reliable Autonomic Distributed Object Store。RADOS是ceph存儲集群的基礎(chǔ)。在ceph中，所有數(shù)據(jù)都以對象的形式存儲，并且無論什么數(shù)據(jù)類型，RADOS對象存儲都將負責(zé)保存這些對象。

RADOS層可以確保數(shù)據(jù)始終保持一致。

（5）librados：librados庫，為應(yīng)用程度提供訪問接口。同時也為塊存儲、對象存儲、文件系統(tǒng)提供原生的接口。

（6）RADOSGW：網(wǎng)關(guān)接口，提供對象存儲服務(wù)。它使用librgw和librados來實現(xiàn)允許應(yīng)用程序與Ceph對象存儲建立連接。并且提供S3 和 Swift 兼容的RESTful API接口。

（7）RBD：塊設(shè)備，它能夠自動精簡配置并可調(diào)整大小，而且將數(shù)據(jù)分散存儲在多個OSD上。

（8）CephFS：Ceph文件系統(tǒng)，與POSIX兼容的文件系統(tǒng)，基于librados封裝原生接口。

五、Ceph存儲系統(tǒng)的邏輯層次結(jié)構(gòu)：

六、RADOS的系統(tǒng)邏輯結(jié)構(gòu)：

七、Ceph 數(shù)據(jù)存儲過程：

無論使用哪種存儲方式（對象、塊、文件系統(tǒng)），存儲的數(shù)據(jù)都會被切分成Objects。Objects size大小可以由管理員調(diào)整，通常為2M或4M。每個對象都會有一個唯一的OID，由ino與ono生成，雖然這些名詞看上
去很復(fù)雜，其實相當(dāng)簡單。

ino：即是文件的File ID，用于在全局唯一標(biāo)識每一個文件

ono：則是分片的編號

比如：一個文件FileID為A，它被切成了兩個對象，一個對象編號0，另一個編號1，那么這兩個文件的oid則為A0與A1。

File —— 此處的file就是用戶需要存儲或者訪問的文件。對于一個基于Ceph開發(fā)的對象存儲應(yīng)用而言，這個file也就對應(yīng)于應(yīng)用中的“對象”，也就是用戶直接操作的“對象”。

Object —— 此處的object是RADOS所看到的“對象”。Object與上面提到的file的區(qū)別是，object的最大size由RADOS限定（通常為2MB或4MB），以便實現(xiàn)底層存儲的組織管理。因此，當(dāng)上層應(yīng)用向RADOS存入

size很大的file時，需要將file切分成統(tǒng)一大小的一系列object（最后一個的大小可以不同）進行存儲。為避免混淆，在本文中將盡量避免使用中文的“對象”這一名詞，而直接使用file或object進行說明。

PG（Placement Group）—— 顧名思義，PG的用途是對object的存儲進行組織和位置映射。具體而言，一個PG負責(zé)組織若干個object（可以為數(shù)千個甚至更多），但一個object只能被映射到一個PG中，即，PG

和object之間是“一對多”映射關(guān)系。同時，一個PG會被映射到n個OSD上，而每個OSD上都會承載大量的PG，即，PG和OSD之間是“多對多”映射關(guān)系。在實踐當(dāng)中，n至少為2，如果用于生產(chǎn)環(huán)境，則至少為3。

一個OSD上的PG則可達到數(shù)百個。事實上，PG數(shù)量的設(shè)置牽扯到數(shù)據(jù)分布的均勻性問題。關(guān)于這一點，下文還將有所展開。

OSD —— 即object storage device，前文已經(jīng)詳細介紹，此處不再展開。唯一需要說明的是，OSD的數(shù)量事實上也關(guān)系到系統(tǒng)的數(shù)據(jù)分布均勻性，因此其數(shù)量不應(yīng)太少。在實踐當(dāng)中，至少也應(yīng)該是數(shù)十上百個的\

量級才有助于Ceph系統(tǒng)的設(shè)計發(fā)揮其應(yīng)有的優(yōu)勢。

基于上述定義，便可以對尋址流程進行解釋了。具體而言， Ceph中的尋址至少要經(jīng)歷以下三次映射：

（1）File -> object映射

（2）Object -> PG映射，hash(oid) & mask -> pgid（哈希算法）

（3）PG -> OSD映射，CRUSH算法

CRUSH，Controlled Replication Under Scalable Hashing，它表示數(shù)據(jù)存儲的分布式選擇算法， ceph 的高性能/高可用就是采用這種算法實現(xiàn)。CRUSH 算法取代了在元數(shù)據(jù)表中為每個客戶端請求進行查找，它

通過計算系統(tǒng)中數(shù)據(jù)應(yīng)該被寫入或讀出的位置。CRUSH能夠感知基礎(chǔ)架構(gòu)，能夠理解基礎(chǔ)設(shè)施各個部件之間的關(guān)系。并CRUSH保存數(shù)據(jù)的多個副本，這樣即使一個故障域的幾個組件都出現(xiàn)故障，數(shù)據(jù)依然可

用。CRUSH 算是使得 ceph 實現(xiàn)了自我管理和自我修復(fù)。

RADOS 分布式存儲相較于傳統(tǒng)分布式存儲的優(yōu)勢在于:

1. 將文件映射到object后，利用Cluster Map 通過CRUSH 計算而不是查找表方式定位文件數(shù)據(jù)存儲到存儲設(shè)備的具體位置。優(yōu)化了傳統(tǒng)文件到塊的映射和Block MAp的管理。

2. RADOS充分利用OSD的智能特點，將部分任務(wù)授權(quán)給OSD，最大程度地實現(xiàn)可擴展

八、Ceph IO流程及數(shù)據(jù)分布：

（1）正常IO流程圖：

步驟：
1. client 創(chuàng)建cluster handler。
2. client 讀取配置文件。
3. client 連接上monitor，獲取集群map信息。
4. client 讀寫io 根據(jù)crshmap 算法請求對應(yīng)的主osd數(shù)據(jù)節(jié)點。
5. 主osd數(shù)據(jù)節(jié)點同時寫入另外兩個副本節(jié)點數(shù)據(jù)。
6. 等待主節(jié)點以及另外兩個副本節(jié)點寫完數(shù)據(jù)狀態(tài)。
7. 主節(jié)點及副本節(jié)點寫入狀態(tài)都成功后，返回給client，io寫入完成。
（2）新主IO流程圖：

說明：如果新加入的OSD1取代了原有的 OSD4成為 Primary OSD, 由于 OSD1 上未創(chuàng)建 PG , 不存在數(shù)據(jù)，那么 PG 上的 I/O 無法進行，怎樣工作的呢？
新主IO流程步驟：
1. client連接monitor獲取集群map信息。
2. 同時新主osd1由于沒有pg數(shù)據(jù)會主動上報monitor告知讓osd2臨時接替為主。
3. 臨時主osd2會把數(shù)據(jù)全量同步給新主osd1。
4. client IO讀寫直接連接臨時主osd2進行讀寫。
5. osd2收到讀寫io，同時寫入另外兩副本節(jié)點。
6. 等待osd2以及另外兩副本寫入成功。
7. osd2三份數(shù)據(jù)都寫入成功返回給client, 此時client io讀寫完畢。
8. 如果osd1數(shù)據(jù)同步完畢，臨時主osd2會交出主角色。
9. osd1成為主節(jié)點，osd2變成副本。
九、Ceph Pool和PG分布情況：
pool：是ceph存儲數(shù)據(jù)時的邏輯分區(qū)，它起到namespace的作用。每個pool包含一定數(shù)量(可配置) 的PG。PG里的對象被映射到不同的Object上。pool是分布到整個集群的。 pool可以做故障隔離域，根據(jù)不同的用戶場景不統(tǒng)一進行隔離。