Hadoop集群:大数据分析的好处和挑战
Brien Posey解释了Hadoop集群如何对大量非结构化数据非常有利,但并不适合所有环境。
在过去几年里,大数据分析变得非常流行。即便如此,许多组织发现……
继续阅读本文
享受这篇文章以及我们所有的内容,包括电子指南,新闻,提示和更多。
他们现有的挖掘和分析技术根本无法胜任处理大数据的任务。这个问题的一个可能解决方案是构建Hadoop集群,但它们并不适合每一种情况。让我们来看看使用Hadoop集群的优缺点。
什么是Hadoop集群?
Hadoop集群是专门为存储和分析大量非结构化数据而设计的一种特殊类型的集群。Hadoop集群本质上是一个跨数据分析工作负载分布的计算集群多个集群节点并行处理数据。
构建Hadoop集群的好处
使用Hadoop集群的主要好处是,它们非常适合分析大数据。大数据往往是广泛分布的,而且基本上是非结构化的。Hadoop适合这种类型数据的原因是Hadoop通过破坏数据来工作并将每个“块”分配给特定的集群节点进行分析。数据不必是统一的,因为每一段数据都是由单独集群节点上的单独进程处理的。
Hadoop集群的另一个好处是可伸缩性。其中一个问题是大数据分析就像其他类型的数据一样,大数据总是在增长。此外,大数据最有用当它被实时分析时,或者尽可能接近实时。Hadoop集群的并行处理功能当然有助于分析的速度,但随着要分析的数据量的增长集群的处理能力可能会变得不足。值得庆幸的是,可以通过添加额外的集群节点来扩展集群。
Hadoop集群的第三个好处是成本。当你考虑到这一点时,这可能听起来很奇怪大数据分析是一项企业IT功能,从历史上讲,企业IT中很少有东西是便宜的。然而,Hadoop集群可以被证明是一种非常划算的解决方案。
Hadoop集群之所以便宜有两个主要原因。所需的软件是开源的,所以这很有帮助。事实上,你可以下载Apache Hadoop发行版免费的。此外,Hadoop的成本可以被商品化的硬件压低。不需要在服务器硬件上花一大笔钱,就可以构建一个强大的Hadoop集群。
多一个Hadoop集群的好处他们对失败有很强的适应力。当数据被发送到一个节点进行分析时,数据也被复制到其他集群节点。这样,如果某个节点发生故障,该节点数据的附加副本就会在集群的其他地方存在,并且数据仍然可以被分析。
决定使用Hadoop集群
尽管他们的很多好处, Hadoop集群并不是每个组织的数据分析需求的好解决方案。例如,一个数据相对较少的组织可能无法从Hadoop集群中获益,即使该数据需要密集的分析。
使用Hadoop集群的另一个缺点是,集群解决方案基于这样一种思想,即数据可以被运行在独立集群节点上的并行进程“分解”并进行分析。如果分析不能适用于并行处理环境,那么Hadoop集群就不是合适的工具。
可能是最重要的使用Hadoop集群的缺点在构建、运营和支持集群方面有一个重要的学习曲线。除非您的IT部门恰好有Hadoop专家,否则您需要花一些时间来学习如何构建集群并执行所需的数据分析。
那么,您应该考虑构建Hadoop集群吗?答案取决于您的数据分析需求是否适合Hadoop集群的功能。如果您不确定Hadoop集群是否对您的组织有益,那么在构建大规模集群之前,您可以下载一个免费的Apache Hadoop副本,并将其安装在一些备用硬件上,看看它是如何工作的。