这段时间以来,重复数据删除已经成为非常热门的话题,特别是在EMC最近非常高调地收购Data Domain以后。上周,George Crump曾经对重复数据删除的动向进行了一番预测。在他的名为《专家博客 重复数据删除产品日趋成熟》的文章中,他表示重复数据删除将需要许多不同的方式--就好像许多不同厂商所提供的不同的解决方案--以便更好地削减在主存储上发现的各种类型的数据。我同意他的大部分观点,不过我认为在重复数据删除上还应该有进一步的思考。
首先,从一般的观察来说,在每个新兴的主要市场,总是会有一个早期赢家,然后这个早期赢家通常会被采用2.0方式的并且解决第一代问题的企业所超过。这种例子有许多。比如,浏览器。Netscape原来主导着市场,后来被Internet Explorer所淘汰。在文件服务市场,Auspex创造了这个市场,但是NetApp后来将它扫地出门。这种例子还有很多。
在记住了这一点以后,我认为有重复数据删除2.0(Dedupe 2.0)将有四个优胜点:
1. 全局重复数据删除:重复数据删除将可以跨节点和存储池发现重复数据。无论进入重复数据删除系统的数据流来自哪里,只要是重复的数据,都可以被发现。
2. 后处理:第二代重复数据删除将采用后处理架构。Data Domain在他们最新产品(800系列)上进行不遗余力地营销,告诉我们为什么带内解决方案是正确的解决方案。这一点告诉了我们很多信息。Data Domain是市场领导者,他们有非常快的新产品--他们在发布的信息中重点提到了后处理,为什么他们如此担心后处理方式呢?他们在担心谁?他们所担心的并不是已经被他们所打败的厂商。他们之所以担心是因为他们知道2.0的重复数据删除将采用这种方式。他们已经在做好准备,以便面对未来将要出现的新竞争对手;他们处于守势,因为他们比其他人都更清楚自己的局限。
为什么重复数据删除将采用后处理架构?这里面有几个理由,但是主要的理由就是它能带来更好的数据削减结果。重复数据删除2.0将不仅仅是重复数据删除--它将是重复数据删除加上内容感知的数据压缩。这意味着二维或三位的压缩器必须见到数据的内容,而不仅仅是通过在带内设备中通过的数据窗口。只要处理得当,后处理解决方案没有理由不能和带内解决方案一样快,而且数据削减结果将有很大的提升。
3. 向外扩展处理:在重复数据删除2.0,你将可以向外扩展吞吐能力,做法就是在重复数据删除集群上增加更多的节点以便处理进入系统的数据流。重复数据删除2.0集群将看起来像是面向备份(或其他)来源的一个单一的目标端。它将有一个负载均衡的全局命名空间,但是在这背后,你可以使用一个廉价的服务器也可以使用32个大型快速的服务器。你将可以从小规模开始然后发展为大规模,在这个过程中不需要在备份软件或写入方面进行任何修改。数据流可以在负载均衡后进入任何一个其他节点。你不必再考虑哪种型号最符合你的吞吐量要求,你可以先从一个节点开始,如果你原来只需要每小时0.5TB的吞吐能力,现在需要每小时5TB的吞吐能力,那么你只需要增加更多的节点就可以了。
4. 向外扩展容量:随着备份(数据保留期窗口短)和归档(数据保留期可能比较长)之间的界限逐渐模糊,重复数据删除2.0希望能够向外扩展以获得大量的存储。这种扩展应该要独立于处理能力的扩展。例如,每天不需要备份那么多的单位用不着为了有足够的存储使备份保留7年的在线状态而购买顶级的型号。
就像处理能力和吞吐能力一样,容量应该要独立地扩展。你还应该可以根据需要增加随意数量的存储--在重复数据删除2.0节点里面,在SAN(存储局域网)上,或网络附加的--无论你购买的是小型的廉价的重复数据删除节点还是大型快速的节点或节点的集群。
一些厂商将推出重复数据删除2.0集群解决方案来满足这四个必须的要求。这种厂商也有可能是Data Domain--第一代重复数据删除的赢家。但是这种厂商也有可能是其他厂商。
对于已经重复数据删除了的数据流应该怎么做是另一个有趣的话题。就大多数而言,多数客户不喜欢进行在备份上进行数据来源式重复数据删除。毕竟,即使EMC已经有了基于数据来源的重复数据删除技术Avamar,它还是选择收购Data Domain。
此外,一个趋势就是,一些文件服务器,甚至是数据库服务器,开始进行主存储或近线文件系统的重复数据删除。它们的重复数据删除不是为了备份,而是为了提高主存储的存储效率。这意味着,进入带重复数据删除功能的备份解决方案的数据流可能已经在某种程度上重复数据删除过了。
这种情况带来了更多的问题。面对这种情况,应该采取何种方式?我们是否应该在数据来源端进行某种处理还是说应该在备份这边进行某种处理?