售前咨詢電話:
NAS儲存-為您的數(shù)據(jù)保駕護航
新一代網(wǎng)絡(luò)存儲服務(wù)器/一站式數(shù)據(jù)管理平臺
小數(shù)點后11個9都避免不了人為錯誤。
隨著越來越多的企業(yè)將重點任務(wù)數(shù)據(jù)轉(zhuǎn)移到云端,云端平臺必須提供高層次的可用性和持久性,保證您的數(shù)據(jù)在需要時保持可訪問性和完整性至關(guān)重要。
以99.999999999999999999的耐久性和99.99%的對象可用性為目的。AmazonS3引用數(shù)字9(9s)作為數(shù)據(jù)保護和運營業(yè)績水平的指標。
但是,各大云商之間似乎正在進行軍備競賽,每個供應(yīng)商都試圖達到盡可能多的九成。微軟Azure有12個9個,AmazonS3、Backblaze和谷歌CloudPlatform有11個9個。但比較棘手的是,關(guān)于這些數(shù)字怎么算,還沒有公認的公式。在詳細介紹之前,從這9個意思開始基本知識吧。
數(shù)據(jù)持續(xù)性:保持存儲的數(shù)據(jù)一致,具有完全不腐爛、驅(qū)動故障或任何形式損壞的能力。99.9999999999%(11個9)的持續(xù)性意味著如果保存1000萬個對象,預(yù)計每10,000年就會失去數(shù)據(jù)對象。
服務(wù)可用性:確保斷電或系統(tǒng)故障的連續(xù)無中斷服務(wù)(即正常運行時間)的能力。SLA(服務(wù)水平協(xié)議)保證99.99%的可用性,意味著每年可能經(jīng)歷約53分鐘的停機時間。
可用性(%)=正常運行時間/總時間(正常運行時間+停%)=正常運行時間/總時間(正常運行時間+停止時間)在數(shù)據(jù)持續(xù)性方面要復(fù)雜得多。以下是我們數(shù)學(xué)運算前應(yīng)該知道的三個重要因素
1.AFR(年度故障率):給定年度的平均故障率。AFR=(24*365)/MTBF(hr)BF(hr)。MTBF(平均無故障時間)是指設(shè)備到壽命為止的平均運轉(zhuǎn)時間。
2.MTR(平均維護時間):指發(fā)生故障后,系統(tǒng)恢復(fù)正常運行所需的平均時間。MTTR是重點指標之一,因為數(shù)據(jù)的持久性完全取決于重建過程中另一個驅(qū)動器發(fā)生故障的可能性。
3.刪除代碼(里德-所羅門代碼):數(shù)據(jù)保護方法可以將對象分為m+n帶布局的片段(m:數(shù)據(jù)片段、n:奇偶檢查片段)。這些碎片在儲存池中均勻分布。以12+3擦碼方案為例。這意味著存儲的對象最多可以容忍3個損壞的段落,至少需要12個段落來恢復(fù)數(shù)據(jù)。
在灰**域內(nèi)。
盡管數(shù)據(jù)的持久性如何計算尚未達成共識,但云存儲行業(yè)有兩種可用公式。一個。
這是第一個公式的樣子
1–(AFR/(365/MTTR)^(奇偶檢查數(shù))
假設(shè)AFR為5%,MTTR為3.4天的4個驅(qū)動器容錯能力,重建故障驅(qū)動器時發(fā)生4個驅(qū)動器故障的概率如下
(AFR*MTTR)4=(.05/年*3.4天*1/365年/天)4=4.66*10-4)4=4.7*10-14。
數(shù)據(jù)的持續(xù)性等于:
1–(4.7*10-14)=.999999999999530(13個9)
接下來的第二個公式是遵循泊松分布,這個泊松分布用于顯示在給定時間段內(nèi)發(fā)生的事件數(shù)的概率。
在哪里?
k=1、2、3…(事件數(shù))
e=2.7182818284。
λ=給定時間間間隔內(nèi)連續(xù)事件的平均數(shù)。
網(wǎng)絡(luò)存儲服務(wù)的EC方案為17+3,AFR為0.41%,MTTR為156小時,lambda為(((0.0041*20)/(365*24)/156)=0.00146027397。
4個驅(qū)動器在156小時內(nèi)發(fā)生故障的概率如下
P=(2.7182818284-0.00146027397)*(0.001460273974)/(4*3*2*1)=1.89187284e-13)。
換句話說,(1-P)沒有并發(fā)驅(qū)動器故障的概率為0.9999999999999810812715(12個9)。一年有56個156小時間隔,年耐久性實際上等于(1-1.89187284e-13)56=0.99999999999(11個9)。
SynologyC2對象的耐久性。
Synology選擇第二個公式來計算SynologyC2的耐久性,因為我們相信泊松分布比第一個公式更能準確地反映耐久性。驅(qū)動器故障應(yīng)視為連續(xù)事件,而不是離散事件。當一個驅(qū)動器發(fā)生故障時,同時安裝的其他驅(qū)動器很可能很快發(fā)生故障。
目前,SynologyC2的EC方案為12+3,AFR為0.8%,MTTR為286(hr),數(shù)據(jù)持續(xù)性為9個。我們在這些關(guān)鍵因素上做了很多努力。AFR顯著下降(從1.79%下降到0.8%)。為提供數(shù)據(jù)的任何人提供可靠性,持久的云服務(wù)是我們不懈的追求,所以我們一直在思考如何提高持久度。
選項之一是增加數(shù)據(jù)條的寬度。如下表所示,添加奇偶校驗片段在實現(xiàn)9s方面效果較好。我們還發(fā)現(xiàn),16+4條帶的布局效果最好,因為它可以從9個9到12個9,不影響存儲效率。因此,將數(shù)據(jù)從12+3添加到16+4是我們近期要做的事情。
現(xiàn)實的場景。
在我們擴展群暉SynologyC2云存儲的三周內(nèi),六個驅(qū)動器出現(xiàn)故障,其中兩個驅(qū)動器擊中了同一個對象。幸運的是,由于我們的容錯存儲基礎(chǔ)設(shè)施,我們可以幸免。
那么,同時發(fā)生的驅(qū)動器故障需要幾個九個問題。并發(fā)驅(qū)動器發(fā)生故障的可能性接近奇偶檢測驅(qū)動器的RAID陣列。因此,如果一卷有六個以上的驅(qū)動器,建議配置RAID6。你將有兩個奇偶測試驅(qū)動器,可以實現(xiàn)更高的數(shù)據(jù)冗余。
避免數(shù)據(jù)丟失。
如前所述,在數(shù)據(jù)持久性的精準計算上并未達成共識,在一定程度上,各大云商通過夸大一些數(shù)字來濫用它作為云服務(wù)的賣點。
聽起來不錯,但沒有九位數(shù)可以防止數(shù)據(jù)丟失。事實上,三分之二的數(shù)據(jù)丟失事件不是由硬件故障引起的。不管基礎(chǔ)架構(gòu)存儲多久,你的數(shù)據(jù)仍然會受到人為錯誤的影響。
為了最大限度地減少數(shù)據(jù)丟失的風(fēng)險,最好的實踐是建立可靠的數(shù)據(jù)保護戰(zhàn)略。對于重要的任務(wù)數(shù)據(jù),不必太小心。確保采用3-2-1備份戰(zhàn)略,確保重要數(shù)據(jù)的服務(wù)可用性和數(shù)據(jù)完整性。保留三份數(shù)據(jù)復(fù)印件,存儲在兩種不同的介質(zhì)中,一種存儲在異地。
數(shù)據(jù)保護從當?shù)財U展到云?使用SynologyC2邁出堅實的備份計劃第一步,在社區(qū)里告訴我們你的想法。
地址:北京市海淀區(qū)白家疃尚品園? ? ? ? ? ? ?1號樓225
北京群暉時代科技有限公司