shyshka——Fotolia

顶级数据湖架构关注

虽然IT可能更关心其数据湖架构的成本,但数据持久性和安全性应该是最重要的问题。

一个数据湖设计存储各种来源的信息,包括物联网设备和人类。大数据分析或大数据档案然后访问数据湖,处理或交付一个子集的请求用户。但数据湖架构必须不仅仅是一个巨大的磁盘驱动器。

虽然大多数IT计划人员首先担心的是数据湖的成本,但数据的持久性和安全性应该是最优先考虑的。很多选项都可以提供合理的每gb的成本,但没有多少选项能够满足数据湖的长期数据存储需求。挑战在于,存储在数据湖中的许多数据永远不会被删除。这些数据的价值在于它能够年复一年地与数据进行分析和比较,这可以抵消产能成本。

这就是数据持久性的作用所在——为了让数据在最初存储5年或10年后仍有价值,它必须是可读的。所有形式的媒体都会随着时间的推移而退化。一个数据湖存储系统必须通过不断检查来防止这种退化。如果它发现一个损坏或降级的数据集,它必须使用复制或擦除编码生成一个新的副本。

在数据湖架构中保护信息是另一个经常被忽视的挑战。对于这种类型的存储,安全性可能比其他类型的存储更重要。根据定义,数据湖试图将所有数据鸡蛋放在一个篮子里。如果单个存储库的安全性被破坏,那么不受欢迎的一方可能会访问组织的所有数据。大部分数据也以非常容易阅读的格式保存,如JPEG或PDF文件——如果您的数据湖体系结构不安全,很容易使用这些信息。

因此,建议实现多级安全,例如:

  • 加密数据湖中的所有数据。生成加密通过数据类别使用单独的键限制公开,并在需要时仍然允许应用程序完全访问。
  • 数据湖中所有数据的副本应该存储在断开连接和脱机的位置。脱机拷贝可以在磁带上,也可以在另一个基于磁盘的磁盘上系统它的物理连接被删除,除非复制或更新。

下一个步骤

检查Hadoop数据湖的潜力

四个步骤制作一个数据湖建筑平面图

提出反对项数据湖

存储云中的数据湖

深入挖掘数据存储策略

搜索灾难复苏
搜索数据备份
搜索聚合基础设施
关闭
Baidu