重複數據刪除

重複數據刪除（英語：data deduplication）是一種節約數據存儲空間的技術。在計算機中存儲了很多重複數據，這些數據佔用了大量硬盤空間，利用重複數據刪除技術，可以只存儲一份數據。另外一項節約存儲空間的技術是數據壓縮，數據壓縮技術在比較小的範圍內以比較小的粒度查找重複數據，粒度一般為幾個比特到幾個字節^{[需要解釋]}。而重複數據刪除是在比較大的範圍內查找大塊的重複數據，一般重複數據塊尺寸在1KB以上。^[1]重複數據刪除技術被廣泛應用於網絡硬盤、電子郵件、磁盤備份介質設備等。

功能原理

例如，典型的電子郵件系統可能包含100個1 MB(兆字節)的相同文件附件實例。郵件平台每次進行備份時，將保存所有附件實例，所需100mb的存儲空間。使用重複數據刪除技術後，實際上只存儲一個附件實例，後續所有實例被引用回保存的副本，重複數據刪除比大約為100:1。通常情況下，重複數據刪除與數據壓縮能一起使用以節省額外存儲空間——首先運用重複數據刪除技術消除重複數據的大塊，然後使用壓縮對每個存儲部分進行高效編碼。^[2]

在計算機代碼中，重複數據刪除通過將信息存儲在變量中，每次更改只需更改一個中心引用位置，不需要單獨寫入。相關例子包括CSS類和MediaWiki中的命名引用。

優點

節約硬盤空間：由於不必存儲重複數據，因此大大節約的磁盤空間。
提升寫入性能：數據寫入存儲設備的主要性能瓶頸在於硬盤，由於硬盤是機械設備，一般單塊硬盤只能提供100MB/s左右的連續寫性能。在線重複數據刪除在數據存入硬盤之前就把重複的數據刪除掉了，因此存入硬盤的數據量變小了，數據的寫入性能也就提高了。例如：DataDomain重刪備份介質設備就採用在線重刪技術，因此數據寫入性能較好。
節約網絡帶寬：對於使用了源端重刪技術的應用來說，數據上傳到存儲設備之前，已經去掉了重複的數據塊，因此重複的數據塊不需要經過網絡傳輸到存儲介質，從而節約了網絡帶寬。例如：Dropbox就採用了源端重刪技術，因此佔用網絡帶寬很小，還有開源的數據同步工具rsync也採用了源端重刪技術節約網絡帶寬。

分類

按數據處理時間重複數據刪除可以被分為：

在線重刪

在線重刪（Inline Deduplication）指的是在數據存儲到存儲設備上的同時進行重複數據刪除流程，在數據存儲到硬盤之前，重複數據已經被去除掉了。

後重刪

後重刪（Post Deduplication）指的是在寫到存儲設備的同時不進行重刪處理，先把原始數據寫到硬盤上，隨後啟動後台進程對這些原始數據進行重刪處理。與在線重刪相比較，後重刪需要更高的硬盤性能，需要更多的硬盤數量。

按照數據處理粒度可以被分為：

文件級重刪
塊級別重刪

按照數據塊分塊方法，可以分為：

變長分塊重刪
定長分塊重刪

按照數據處理位置，可以分為：

源端重刪
目的端重刪

參考文獻

^ "Understanding Data Deduplication （頁面存檔備份，存於互聯網檔案館）" Druva, 2009. Retrieved 2013-2-13
^ Crocetti, Paul; Bigelow, Stephen J. Compression, deduplication and encryption: What's the difference?. SearchDataBackup. [2022-10-01]. （原始內容存檔於2022-12-14）（英語）.

外部連結

Biggar, Heidi（2007.12.11）. WebCast: The Data Deduplication Effect
Fellows, Russ（Evaluator Group, Inc.）Data Deduplication, why when where and how? （頁面存檔備份，存於互聯網檔案館）
Using Latent Semantic Indexing for Data Deduplication.
A Better Way to Store Data.
What Is the Difference Between Data Deduplication, File Deduplication, and Data Compression?^{[失效連結]} - Database from eWeek
SNIA DDSR SIG （頁面存檔備份，存於互聯網檔案館） * * Understanding Data Deduplication Ratios
Data Footprint Reduction Technology Whitepaper
Doing More with Less by Jatinder Singh

[1] "Understanding Data Deduplication （頁面存檔備份，存於互聯網檔案館）" Druva, 2009. Retrieved 2013-2-13

[2] Crocetti, Paul; Bigelow, Stephen J. Compression, deduplication and encryption: What's the difference?. SearchDataBackup. [2022-10-01]. （原始內容存檔於2022-12-14）（英語）.

[1]

[2]