Artur marcinec - Fotolia
大数据如何改变数据归档战略?
分析师Jon Toigo解释了为什么对大数据集进行分析意味着数据不再被视为冷冰冰的,从而降低了档案的重要性。
当我们考虑归档策略时,我们经常谈论过去以及我们对数据的了解。当它。。。
继续阅读本文
欣赏本文以及我们的所有内容,包括电子指南、新闻、提示等。
谈到未来,我们不可能知道所有事件、趋势和变化,这些都将影响我们的信息归档需求,包括我们需要保存的数据、我们用来保存数据的平台,以及使未来用户和系统能够访问这些数据所需的工具。不幸的是,这种“未知未知因素”的领域使归档战略在许多公司的销售人员看来更像是一种思维实验,而不是有助于控制成本、降低风险或提高生产率的真正战略计划的一部分。
当档案项目得到批准和资助时,它们通常被理解为一个独立的项目。在许多情况下,归档项目都有自己的员工、处理器、网络和存储基础架构,与生产数据中心相去甚远。甚至像Amazon Web Services或Google这样的云服务提供商也为档案存储提供独立的服务,这些服务与托管托管和存储服务是分开的。
然而,随着对大数据分析的兴趣的出现,以及服务器端和软件定义的存储基础设施的出现,独立归档策略的模型正受到质疑。大数据分析是一种应用一系列技术来检查多个数据集的持续趋势,除此之外,这些数据集之间没有任何关联。相反,所有数据都是活动的,对日常业务决策或问题解决都有价值。在这样的框架下,档案没有真正的意义。
此外,将存储体系结构从集中式池或存储库转移到一系列离散的、服务器端直接连接的配置,这些配置连接到集群中的单个服务器节点——是否支持联合处理使用Hadoop策略和MapReduce或工作负载虚拟化策略,如VMware Virtual SAN或Microsoft Cluster Storage Spaces——正在挑战传统的存储分层概念,在这种概念中,第三层包含归档数据。在基础设施设计中采用这些所谓敏捷理念的公司无法设想独立的归档实践。显然,我们构想档案的方式需要改变。我们需要停止将归档视为一组独立于生产运营和基础设施的运营和基础设施——一组“附加”技术和服务——的集合,而是寻找一种就地归档的策略。从根本上说,归档意味着将归档数据保留在其物理位置,但要标记数据,并可能对适合其归档类的数据应用特殊服务。