重复数据删除技术

发布时间：2026/6/5 15:17:10

重复数据删除（Data Deduplication）技术是随着存储系统的发展逐步演化而来，其核心思想可以追溯到20世纪70年代末至80年代初的单一实例存储（Single-Instance Store, SIS）概念。不过，若从现代意义上的重复数据删除技术来看，以下几个关键节点和贡献者值得提及：1. 早期雏形：单一实例存储（SIS）1970s–1980s：在邮件系统和文件系统中，已有避免存储多个相同副本的做法。1990s：微软在其 Windows Storage Server 中引入了名为 SIS Groveler 的后台服务，用于识别并合并重复文件，这是较早的商业化实现之一。2. 内容寻址存储（CAS）2002年前后：EMC公司推出的 Centera 系统是第一个广泛应用内容哈希（如SHA-1）来实现重复数据删除的商用产品。它通过为每个对象计算唯一指纹（hash），若指纹已存在，则只存指针而不存数据本身。这标志着基于哈希的块级重复数据删除理念走向成熟。3. 现代重复数据删除的推动者Data Domain 公司（成立于2