cutimage——Fotolia
为什么对象存储是一个很好的HDFS替代方案有三个原因
HDFS管理跨分散节点的数据,但利用商品存储的对象存储系统可能是一个引人注目的替代方案。
Hadoop创建使组织能够跨非常大的非结构化数据集执行大规模的分析处理。该数据可能包含数百万(如果不是数十亿)需要读取的文件。为了保持低成本和高处理性能,数据和应用程序驻留在相同的物理硬件上。这样做可以消除数据移动,允许本地处理,并支持使用廉价的服务器类存储。Hadoop分布式文件系统(HDFS)用于跨这些分散的节点管理数据。但现代的存储架构现在提供了一个引人注目的HDFS替代方案:对象存储.以下是为什么对象存储系统可能是一个Hadoop分析的可行选项为你的组织。
原因一:对象存储可以提供更好的数据保护
而HDFS利用了内部的服务器类存储,它会将所有数据复制三份作为它的一部分标准数据保护策略.因此,尽管使用内部的服务器级硬盘驱动器比较便宜,但当容量需求乘以3时,它可能不像最初希望的那样经济。
一种选择是使用基于对象的存储系统提供Amazon Simple Storage Service协议访问除了HDFS外,Hadoop还支持它。这些系统可以是纯软件的,因此使用商用服务器和服务器类存储。但不像默认的HDFS,许多对象存储系统擦除提供编码.这种数据保护类似于RAID,但更细粒度,在对象或子对象级别操作,跨节点分散数据和奇偶校验在存储集群中.这样做的结果是,可以以大约25%到30%的开销来维护类似或更好的数据冗余,而不是HDFS标准的三向复制的200%开销。
原因2:HDFS暴露主节点
HDFS有一个主节点和一系列从节点。奴隶节点过程将数据和结果发送给主服务器。主节点也保证了数据复制策略和一般集群管理一样得到维护。如果主节点故障,则无法访问集群的其他节点。HDFS仅对主节点提供有限的保护,因此组织需要采取特殊步骤在主节点上实现自己的高可用性。
对于对象存储系统,如上所述,主节点与从节点享受相同的擦除编码数据保护。此外,主节点维护的所有元数据管理Hadoop集群可存储在集中的对象存储系统上。这允许从节点或备用节点在主节点故障时迅速成为主节点。
原因3:HDFS不允许独立伸缩
与其他架构一样,Hadoop将对计算和存储能力有不同程度的需求。问题是,使用HDFS时,计算能力和存储容量需要同步扩展,这意味着你不能只添加一个资源而不添加另一个资源。
这种情况最常见的表现是当Hadoop架构耗尽存储空间时,因为增加更多的容量意味着增加另一个充满硬盘的节点,这也增加了更多的计算能力。另一种选择也是正确的,因为Hadoop基础设施通常需要更多的处理能力,但有足够的容量。大多数情况下,当一个新的计算服务器被购买时,它都是满容量的。其结果是Hadoop架构总是在一种资源上浪费金钱,而可能没有足够的另一种资源。
对象存储支持容量和计算按比例缩小的独立.计算节点现在可以1U或2U机箱用固态驱动器引导。对象存储系统可以使用高容量驱动器,以保持每gb的成本在最低水平。更重要的是,随着环境的发展,每个层都可以独立地扩展。
HDFS给Hadoop带来的优势是典型的低成本以及高性能,这得益于数据的局部放置。利用商品存储的对象存储系统可以提供类似的价格节省,特别是如果使用擦除编码来提高数据保护效率。高速10gbe网络现在非常便宜,这应该会消除HDFS通过计算存储数据所享有的任何性能优势。对象存储提供了一种更经济、更可靠、至少具有同等性能的基础设施,应该被视为一种可行的HDFS替代方案。