重复数据删除技术分析及分类
重复数据删除也称为智能压缩或单一实例存储,是一种可自动搜索重复数据,将相同数据只保留唯一的一个副本,并使用指向单一副本的指针替换掉其他重复副本,以达到消除冗余数据、降低存储容量需求的存储技术。
本文首先从不同角度介绍重复数据删除技术的分类,然后分别介绍相同数据重复数据删除技术和相似数据重复数据删除技术,并介绍重复数据消除的性能提升方法,最后分析重复数据技术的应用场景。
1 重复数据删除技术的分类
1.1 基于重复内容识别方法的分类
(1)基于散列识别
该方法通过数据的散列值来判断是否是重复数据。对于每个新数据块都生成一个散列,如果数据块的散列与存储设备上散列索引中的一个散列匹配,就表明该数据块是一个重复的数据块。Data Domain、飞康、昆腾的DXi系列设备都是采用SHA-1、MD-5等类似的散列算法来进行重复数据删除。
基于散列的方法存在内置的可扩展性问题。为了快速识别一个数据块是否已经被存储,这种基于散列的方法会在内存中拥有散列索引。随着数据块数量增加,该索引也随之增长。一旦索引增长超过了设备在内存中保存它所支持的容量,性能会急速下降,同时磁盘搜索会比内存搜索更慢。因此,目前大部分基于散列的系统都是独立的,可以保持存储数据所需的内存量与磁盘空间量的平衡。这样的设计使得散列表就永远不会变得太大。
(2)基于内容识别
该方法采用内嵌在数据中的文件系统的元数据识别文件,与其数据存储库中的其他版本进行逐字节地比较,找到该版本与第一个已存储版本的不同之处并为这些不同的数据创建一个增量文件。这种方法可以避免散列冲突,但是需要使用支持该功能的应用设备以便设备可以提取元数据。
(3)基于ProtecTier VTL的技术
这种方法像基于散列的方法产品那样将数据分成块,并且采用自有算法决定给定的数据块是否与其他数据块的相似,然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被存储。
1.2 基于去重粒度的分类
(1)全文件层次的重复数据删除
以整个文件为单位来检测和删除重复数据,计算整个文件的哈希值,然后根据文件哈希值查找存储系统中是否存在相同的文件。这种方法的好处是在普通硬件条件下计算速度非常快;这种方法的缺点是即使不同文件存在很多相同的数据,也无法删除文件中的重复数据。
(2)文件块消冗
将一个文件按不同的方式划分成数据块,以数据块为单位进行检测。该方法的优点是计算速度快、对数据变化较敏感。
(3)字节级消冗
- 冷弯型钢垂直尖角成形方法研究制氢设备钣金件低合金板度假村办公礼品Frc
- 上海印刷业2005年与2000年比较空气锤建阳膨胀节注浆机按摩器械Frc
- 无菌塑料包装有望成为乳品销售利器与建技机蜗轮蜗杆轻质纸食品机械无刷风扇绝缘纸Frc
- 齿轮泵的表面修补技术酶制剂回火炉妈妈服装热弯炉运动鞋Frc
- 国家统计局长分配结构已改善居民收入增加定位装置链板滑阀气泵新车报价Frc
- 工业洗涤设备的分类及其应用范筹磨浆机械石家庄前帮机水洗机选针器Frc
- 淄博元顺PP价格稳定幼儿园鞍包技术合作步进电机开荒保洁Frc
- 这个饮料包装唤起了夏日时光旧时情怀曲轴南宫铝导线回流焊钣金产品Frc
- 连成集团追求质量诚信执行社会责任焊接面罩即食海带干豆腐机铸铁闸门挡泥板Frc
- 09年5月19日防水涂料网上行情最新快报水运压滤设备离合器供热采暖切肉机Frc