归档方法:智能元标记、就地归档和FLAPE

Jon Toigo概述了几种存档技术,这些技术使它们能够顺利运行,并解释了为什么数据分类是至关重要的。

你知道什么是FLAPE吗?如果不这样做,您可能跟不上最新的归档方法。看看Jon Toigo是怎么说的,你必须做什么来保持最新的存档,以及如何避免不小心填满存储垃圾的抽屉。

存档数据的想法——把它放在一个安全、节能、组织合理的存储库中,以便在未来某个时候使用——听起来很简单。然而,即使是这样一个简单的想法也充满了需要事先深思熟虑的问题。本文将讨论一些决定归档项目成败的决策。

这是最典型的问题归档的讨论是数据的组织方案和格式能否经受住时间的考验。如果数据分类的方式需要随着时间的推移而改变——例如,当管理某些类型数据的保留的法律发生变化时,该怎么办?如果用于写入数据的应用程序在10年内不再受到任何操作系统或硬件平台的支持,该怎么办?在可预见的未来,你必须将当前的应用程序和处理器保存在“玻璃下”吗?这些都是需要简单有效地解决的有效问题。

从数据归档方法的发展角度来思考这些问题的答案是很有帮助的。在过去,通过使用元数据或关于数据的数据对数据进行分类,以便包含到存档中。根据其元数据,数据集或文件在30天、60天、90天或更长时间内没有被访问或修改,只需将其从生产存储迁移到归档中。然而,这种方法缺乏任何类型的粒度。它没有提到数据的重要性,它与特定业务流程的相关性,或者它与任何监管或法律的关联保留要求.所以这个过程很可能包括垃圾文件、Internet cookie和浏览器垃圾,甚至是临时虚拟机的旧虚拟机磁盘文件,这些文件可能是在过去很长时间的测试/开发工作中创建的。

底线是,除非您有一个“数据卫生”程序来清除混乱,否则随着时间的推移,您的存档注定会成为与主要存储一样的垃圾抽屉。这使得在未来搜索和使用档案更具挑战性。

非粒度数据选择的一个选项是根据创建类数据的个人绑定类数据。如果乔工作在会计,所有的数据从乔的工作站可以处理为“会计数据”,并受到档案政策为该类数据建立。然而,这种做法为以后的麻烦打开了大门,例如,当Joe改变职位,从会计转到销售(不同的政策适用于数据),或者当乔对社交媒体上瘾,他所有关于孩子和爱好的推特和博客开始和他的合法工作文件一起存储在档案中。再次,结果将是一个档案垃圾抽屉,将证明很难搜索或使用。

关联到部门工作流的数据类

最好的方式对数据进行分类是将概念最大的粒度:创建与部门工作流程的数据类,而不是系类用户角色,包括触发像去年访问日期和最后修改日期在元数据来识别相关文件存档。一些新兴的分层存储架构,如FLAPE (flash +磁带)使您能够存储数据立即进入档案如经上所记主存储器(flash,磁盘或两者的结合),而不是将数据移动到存档以后,文件已达到其存档点可以被删除从主存储。

作为一项规则,今天的档案管理员会尽量避免那些有“时间限制”的数据格式。文件系统看起来很稳定,但“容器”用于存储数据的方式会让他们访问没有原来的软件用于创建它们——例如,商业格式如Adobe PDF或一些实验性质的“标准的”XML容器——仍然有问题。几年前,一个主要的国家档案馆选择了Adobe PDF作为其数据容器,然后又后悔当初的决定,因为在最初的两年里,Adobe对PDF格式进行了30多次更改,而他们不得不“取消注入”、重新格式化,然后重新吸收所有的数据。

另一个挑战可能源自先前关于文件系统的稳定性和持久性的假设。事实上,文件系统一直在变化,新的文件系统包括一些特性,如作为存储方法的一部分的重复数据删除和压缩,或作为数据保护方法的擦除编码,这些特性正在为当今使用的每个流行操作系统引入。伴随Web开发而来的文件系统的扁平化可能预示着在相对较短的时间内,层次结构或基于树的模型将被新的范例所取代将所有数据保存为对象,可以是自描述的,也可以是索引到一种类似数据库的结构中。

用于归档的对象存储

较新的商业技术,如Caringo Software的SWARM技术或Spectra Logic的Black Pearl,说明了一些正在成熟的替代方案,成为对象存储市场的真正解决方案。也就是说,在撰写本文时还没有主流模型,基于标准的工作还处于起步阶段。在某一时刻,对象存储和归档将在很大程度上相交。

将所有数据集视为对象的承诺有两个方面:
1.丰富的元数据可以与数据集一起存储,以更精确地识别和分类数据对象,因此可以应用非常细粒度的保留和维护策略。
2.整个存储基础设施和整体管理的数据就可以,没有任何需要特殊的软件或设备提供数据保护或保存服务,因为保护数据的规则是烤到metadata-linked政策给定类的所有对象。

例如,Caringo的SWARM技术能够通过元数据对存储的数据进行标记,并将其包含在擦除编码方案中,该方案可以在存储基础设施周围传播对象的复制部分。这允许在特定存储设备故障时,从其他存储设备上的可用部件重建对象。对于不需要此类保护的其他数据类,可以通过它们的元数据句柄为对象分配简单得多的镜像策略。可以同样方便地分配保存策略,使数据存储成为归档和主存储的公共基础设施。

采用这种“归档到位”策略的一个原因是方便大数据分析。另一个是控制存储服务的成本。然而,对于档案保管员来说,承诺是简化数据分类和随时间保存的方法。

深入挖掘长期归档

搜索灾难复苏
搜索数据备份
搜索聚合基础设施
关闭
Baidu