重复数据删除技术分析及分类

发布时间：2020-06-30 17:16:08 阅读：次来源：矩阵厂家

重复数据删除也称为智能压缩或单一实例存储，是一种可自动搜索重复数据，将相同数据只保留唯一的一个副本，并使用指向单一副本的指针替换掉其他重复副本，以达到消除冗余数据、降低存储容量需求的存储技术。

本文首先从不同角度介绍重复数据删除技术的分类，然后分别介绍相同数据重复数据删除技术和相似数据重复数据删除技术，并介绍重复数据消除的性能提升方法，最后分析重复数据技术的应用场景。

1 重复数据删除技术的分类

1.1 基于重复内容识别方法的分类

(1)基于散列识别

该方法通过数据的散列值来判断是否是重复数据。对于每个新数据块都生成一个散列，如果数据块的散列与存储设备上散列索引中的一个散列匹配，就表明该数据块是一个重复的数据块。Data Domain、飞康、昆腾的DXi系列设备都是采用SHA-1、MD-5等类似的散列算法来进行重复数据删除。

基于散列的方法存在内置的可扩展性问题。为了快速识别一个数据块是否已经被存储，这种基于散列的方法会在内存中拥有散列索引。随着数据块数量增加，该索引也随之增长。一旦索引增长超过了设备在内存中保存它所支持的容量，性能会急速下降，同时磁盘搜索会比内存搜索更慢。因此，目前大部分基于散列的系统都是独立的，可以保持存储数据所需的内存量与磁盘空间量的平衡。这样的设计使得散列表就永远不会变得太大。

(2)基于内容识别

该方法采用内嵌在数据中的文件系统的元数据识别文件，与其数据存储库中的其他版本进行逐字节地比较，找到该版本与第一个已存储版本的不同之处并为这些不同的数据创建一个增量文件。这种方法可以避免散列冲突，但是需要使用支持该功能的应用设备以便设备可以提取元数据。

(3)基于ProtecTier VTL的技术

这种方法像基于散列的方法产品那样将数据分成块，并且采用自有算法决定给定的数据块是否与其他数据块的相似，然后与相似块中的数据进行逐字节的比较，以判断该数据块是否已经被存储。

1.2 基于去重粒度的分类

(1)全文件层次的重复数据删除

以整个文件为单位来检测和删除重复数据，计算整个文件的哈希值，然后根据文件哈希值查找存储系统中是否存在相同的文件。这种方法的好处是在普通硬件条件下计算速度非常快；这种方法的缺点是即使不同文件存在很多相同的数据，也无法删除文件中的重复数据。

(2)文件块消冗

将一个文件按不同的方式划分成数据块，以数据块为单位进行检测。该方法的优点是计算速度快、对数据变化较敏感。

(3)字节级消冗

T恤定做

东营防静电工作服定制

东营西服订做