- 与您的网络分享此项目:
- 下载
存储
Maksim Samasiuk - Fotolia
导航数据湖,管理大数据
虽然数据湖的概念对今天的业务很有吸引力,但IT管理员在全面实现之前必须谨慎行事。
对于商业人士来说,大数据无疑是令人兴奋的,因为各种杀手级应用都在等待被发现。毫无疑问,你有越来越多的数据您当前的存储基础设施,有大量的请求来挖掘更大的数据流。你不是一直在收集所有客户和潜在客户的微秒终端用户行为吗,更不用说整理从测试系统到第n度所排放的pb级数据了吗?想象一下,如果管理层能够一次查看所有数据,他们会有怎样的洞察力。忘记数据治理,数据管理,数据保护以及所有其他IT方面的担忧——您只需要将所有数据放到一个相对廉价的Hadoop集群中!
不过,说真的,大数据的湖泊能够满足日益增长的数据挑战,并为您的业务提供有价值的新服务。通过在一个地方收集与业务相关的各种各样的数据集,并基于易于扩展的大数据方法实现多人才分析,可以创造许多新的数据挖掘机会。一个数据湖的总潜在价值随着它所拥有的可供分析的有用数据的数量而增长。大数据和大数据湖概念的一个关键原则是,你不需要提前创建一个主模式,所以非线性增长是可能的。
企业数据湖或中心概念是由大数据首先提出的供应商比如Cloudera和Hortonworks,表面上使用的是基于hdfs的普通扩展商品存储。但碰巧的是,你手头的数据越多,你需要的各类存储空间就越多。最终,所有的企业数据都可能被视为大数据。然而,并不是所有的企业数据都最好托管在一个可扩展的商品HDFS集群上。
所以,今天,传统的存储供应商正在与大数据湖的愿景签约。从存储营销的角度来看,数据湖似乎是一种新的云。“每个人都需要一个数据湖。没有一个(两个或三个),你怎么竞争?”大数据有多种企业存储选择,包括企业存储,可以提供类似HDFS的远程存储,Hadoop虚拟化可以将其他存储协议转换成HDFS,且可扩展软件定义存储选项.
大,快,现在
数据湖的部分价值在于将不同的数据汇集在一起。它的另一部分是支持不需要预定义模式的大数据分析。而且,大数据架构现在可以扩展,并为用户提供更多的实时性能。虽然BI和传统的数据仓库并没有消亡,但大数据分析和大数据湖正朝着支持“实时”决策的更实时的操作智能方向发展。
很明显,Hadoop及其生态系统已经超越了科学项目阶段,并已准备好投入生产。从管理和分析到应用程序开发和部署,一切都变得对IT和业务用户友好。甚至先进的大规模机器学习技术也正在被烘焙并嵌入指向点击式大数据挖掘软件中。然而,IT仍然需要负责湖中的所有数据,因此我们在下面概述了一些关键功能。企业数据湖应:
托管可用的数据(和元数据)库存的集中索引,包括来源、版本、准确性和准确性。如果在这一领域没有自动化支持,大数据湖将很快变得势如力敌。
安全地授权、审计和授予访问数据子集的权限。Hadoop生态系统在这一领域正在迅速发展,因为坚如磐石的安全性是IT企业的绝对需求。目前有一些新兴产品可以帮助大规模保护大数据资产,其中许多产品旨在帮助保护新数据量大、用户多、需要保护的资产价值不断增长的数据湖用例。
支持对数据湖中的内容进行IT治理,并协助执行保留和处理策略(重要的是跟踪个人身份信息)。最好的产品将强制执行监管和合规要求,无论有多少数据或哪种类型的数据集找到进入数据湖(如Dataguise)。
确保大规模的数据保护,以满足操作可用性和BC/DR需求。曾经需要远程复制所有东西吗?一个拥有实时数据流的关键运营业务平台,需要进行远程同步。
使用多种分析方法(例如,不仅仅是Hadoop)和数据工作流,为数据湖提供敏捷分析。在某些方面,Hadoop和HDFS是真正的软件定义的存储产品,它们“数据感知”到足以提供内置分析。还有一些像Spark和专有分析(比如OLAP,或者在线分析处理),比如HP Haven中的HP Vertica,它们也在数据湖环境中发挥了良好的作用。
在今天的企业存储产品中可以找到许多这样的功能,因此提供了一些线索,说明厂商为什么要加入数据湖的行列。由于云计算和大数据也需要类似的经济扩展,因此,企业质量存储的软件定义存储版本将成为该领域的领先存储产品。
一个黑暗和暴风雨的数据湖
数据湖真的是个好主意吗?有人可能会问,我们是否真的应该一开始就保留所有这些数据。而且,为整个企业创建一个庞大的单一数据摄取点可能会造成巨大的漏洞。目前还不清楚这是否真的是一种成本效益高的方法。特别是没有谷歌或Facebook这样的资源和规模。
数据湖的想法可能最好是慢慢来,而不是大规模的数据中心重建。尽管如此,我们的数据所蕴含的潜在价值,以及大规模共享扩展方法的经济效益,将导致许多组织从数据湖——或者至少是一个数据池中汲取信息。
下一个步骤
数据的湖泊充满了分析
数据湖功能作为企业数据仓库的替代方案