重復數據刪除 釋放企業備份資源
隨著數據的重要性深入人心,數據備份成為企業營運發展的“必需品”,大多數企業都會通過定期備份來預防意外宕機、數據受損等“天災人禍”。但數據存儲規模每12到18個月就會翻一番,這就造成了虛擬服務器的占地空間、虛擬機密度與吞吐量的持續增長。
因此,數據保護基礎設施的花費、性能和效率成為了每個企業所關心的問題。正是因為備份和恢復已經成為了企業的基礎措施,它的數據量就更值得重視。數據量越大,數據保護處理所花費的時間和資源就越多。
研究表明,如果備份中僅傳輸和存儲唯一數據,則企業最多能夠將其存儲容量和網絡需求降低50倍。如果同一數據多次存儲和傳輸到同一存儲設備,就是對時間和資源的浪費,而人工去查驗這些重復數據將耗費大量的時間和人力。基于這種需求,數據備份保護過程中的重復數據刪除技術應運而生。
什么是重復數據刪除?
重復數據刪除(data deduplication)是一種通過檢測數據重復并將同一數據僅存儲一次來最大程度地減少存儲空間的技術。本質上講,重復數據刪除就是消除數據集中的非唯一數據段。從這個定義來看,重復數據刪除似乎與壓縮功能并無二致。不過,它們真正區別在于,重復數據刪除還可以縮減歷史數據的大小,從而節省大量存儲成本,并防止未來從多個來源復制類似數據。
重復數據刪除的邏輯
重復數據刪除可優化冗余,而不會損壞數據保真度或完整性。啟用重復數據刪除后,它可以對數據進行分段,對照之前已寫入的數據矩陣進行檢查。最終的結果是,它保證發送到存儲的數據段都是獨一無二的,而重復的部分則引用類似數據段的唯一實例。
除此之外,重復數據刪除還能夠在文件級、子文件級(文件片段)或塊級運行,通常可以與備份解決方案支持的所有操作系統一起使用。
重復數據刪除的工作原理
簡而言之,重復數據刪除首先會將待刪除重復內容的數據集分割成數據塊。一個數據塊包含一個或多個連續的數據片段。一旦流程開始創建數據塊,它就會將數據塊與重復數據刪除系統之前已經創建和發現的全部數據塊進行對比。
系統將會通過運行確定性加密哈希(Hash)算法來比較各個數據塊。如果兩個不同數據塊的哈希相匹配,則系統會認為它們完全一致,因為哪怕是最細微的更改,數據塊的哈希也會發生更改。
重復數據刪除流程可消除重復的數據塊,僅存儲獨一無二的數據塊。它依靠指紋 — 數據塊獨特的數字化簽名來識別數據塊。因此,內聯重復數據刪除會在系統寫入數據(內存數據結構)時,檢查傳入的數據塊,為每個數據塊制定一個指紋,并存儲在哈希存儲中。
計算指紋后,該流程在哈希存儲中進行查詢。然后檢查數據塊是否與緩存中的指紋(供體數據塊)有重復。如果在哈希存儲中找到匹配項,則會出現如下兩種情況:
如果存在匹配,它會將新的數據塊(接收數據塊)和供體數據塊進行比較,這類似于一種驗證。系統會在兩個數據塊間驗證數據,但不會將接收數據塊寫入磁盤。然后更新元數據以跟蹤相同部分的細節。
如果緩存中沒有供體數據塊,則系統會預先從磁盤中提取,然后將其與緩存中的接收數據塊進行逐個字節的比較。如果完全匹配,則系統會將接收數據塊標記為重復,不寫入磁盤,但會更新元數據以跟蹤相同部分的細節。
后臺復制引擎的工作原理基本相同。它以批量方式搜索所有數據塊,然后比較指紋,并進行逐個字節的比較,消除誤報,刪除重復內容。該流程不會丟失任何數據。
鴻翼備份重復數據刪除技術
鴻翼備份的重復數據刪除技術能夠在備份過程中識別并消除重復的數據塊,對Windows、Linux等系統中的所有數據類型實現重復數據刪除,從而減少所需的備份存儲空間。采用源端去重技術,同時極大程度地節省數據傳輸帶寬和傳輸時間。
鴻翼內容保護重刪方案的處理流程
同時,鴻翼備份能夠保障即使在長距離或網絡帶寬很低的情況下,遠程站點的備份文件在經過去重和壓縮后,也能被高效地傳輸。以往遠程分支機構的備份需要數小時,通過充分利用中央備份系統的架構,如今已經能夠縮短至幾分鐘。
隨著業務的擴張,每天都有海量數據等待著企業的管理和利用。只有合理地對企業內的數據進行管理,做好備份容災,才能保障企業運行的長治久安。鴻翼備份的重復數據刪除能力能夠支持企業以自動、高效的方式處理大量數據,保證數據安全與迅速恢復,助力企業降本增效。