定义

大数据存储

大数据存储是一种收集和管理大数据集并实现实时性的计算和存储架构数据分析

企业利用大数据分析技术从元数据中获取更大的智能。在大多数情况下,大数据存储使用的是低成本的硬盘驱动器,尽管闪存价格的放缓似乎为在服务器和存储系统中使用闪存作为大数据存储的基础打开了大门。这些系统可以是全闪存或混合盘和闪存

大数据中的数据本身就是非结构化,这意味着主要是基于文件和对象存储。

虽然没有正式定义特定的卷大小或容量,但大数据存储通常指的是指数级增长到tb或pb规模的卷。

大数据背后的巨大承诺

有几个因素促成了大数据.由于在企业中广泛使用的纸质记录数字化技术,人们现在存储和保存的信息比以往任何时候都多。基于传感器的物联网(物联网)的设备导致基于人工智能(AI)的应用数量相应增加,这是一种机器学习的使能技术。这些设备无需人工干预就能产生自己的数据。

关于大数据的一个误解是,这个术语仅仅指数据集的大小。虽然大体上是这样,但大数据背后的科学更有重点。目的是从多个大数据中挖掘特定的子集存储卷.这些数据可能广泛分布在不同的系统中,可能没有明显的相关性。其目标是将数据与结构和智能相统一,使其能够快速分析。

能够从各种来源收集不同的数据,并将这些关联置于可理解的上下文中,这使得组织能够收集在其他情况下不那么明显的细节。这种分析被用于指导决策,比如检查在线浏览行为,根据客户的习惯或偏好定制产品和服务。

大数据分析为DevOps在许多企业中,组织作为一个战略分析机构出现。金融、医疗和能源行业的公司需要分析数据,以确定趋势并改善业务功能。在过去,企业仅限于使用数据仓库或高性能计算(HPC)集群来并行处理结构化数据的批处理,这一过程可能需要数天或数周才能完成。

相比之下,大数据分析处理的工作量很大半结构化或非结构化数据,并在数秒内流化结果。例如,谷歌和Facebook利用快速的大数据存储,在用户上网时向他们提供定向广告。数据仓库或HPC集群可以单独作为大数据系统的辅助使用。

分析公司IDC估计,大数据存储硬件、服务和软件市场在2017年将产生1510亿美元的收入,到2020年的复合年增长率接近12%,收入预计将达到2100亿美元。

大数据存储需求将接近163字节IDC和希捷(Seagate)在2017年发布的另一份报告显示,到2025年,这一目标将实现。该报告将增长归因于使用的增加认知计算、嵌入式系统、机器学习、移动设备和安全。

大数据存储基础设施组件

大数据存储系统将大量的商用服务器聚集在大容量硬盘上,支持编写分析软件来处理大量数据。该系统依赖于大规模并行处理数据库来分析从各种来源获取的数据。

大数据通常缺乏结构,来源多种多样,不适合使用关系数据库进行处理。Apache Hadoop分布式文件系统(HDFS)是最流行的大数据分析引擎,通常与NoSQL数据库相结合。

Neuralytix Inc.的总编辑Ben Woo讨论了大数据项目的Hadoop和存储。

Hadoop是开源用Java编程语言编写的软件。HDFS将数据分析扩展到数百甚至数千个服务器节点,而不会影响性能。通过其MapReduce组件时,Hadoop以这种方式分发处理,以防止灾难性故障。多个节点是网络边缘的数据分析平台。当查询到达时,MapReduce直接在数据所在的存储节点上执行处理。一旦分析完成,MapReduce从每个服务器收集集合结果,并“减少”它们以呈现一个单一的内聚响应。

大数据存储与传统企业存储相比如何

大数据可以通过对数据或元数据的大规模统计分析,给组织带来竞争优势。在大数据环境中,分析主要使用一系列基于数据挖掘的有限数据集进行操作预测建模预测客户行为或未来事件发生的可能性。

统计大数据分析和建模正在各个行业得到广泛采用,包括航空航天、环境科学、能源勘探、金融市场、基因组学、医疗保健和零售业。与传统的企业存储相比,大数据平台的规模、速度和性能都要大得多。此外,在大多数情况下,大数据存储针对的是它所运行的一组非常有限的工作负载。

例如,您的企业资源规划系统可能连接到专用存储区域网络(SAN)。同时,集群网络连接存储(NAS)支持事务性数据库和公司销售数据私有云处理本地存档。

对于大型组织来说,拥有多个支持离散工作负载的SAN和NAS环境并不罕见。每个企业存储竖井都可能包含与大数据项目相关的数据片段。

《计算机周刊》网站编辑安东尼·艾德赫德讨论了大数据的定义以及大数据存储所需的关键属性。

遗留存储系统处理更多的应用程序工作负载。在主存储领域,业界普遍接受的做法是为每个应用程序分配单独的服务级别,以管理可用性、备份策略、数据访问、性能和安全性。用于生产的存储——公司每天用来产生收入的活动——要求很高正常运行时间,而大数据存储项目可以承受更高的延迟。

大数据存储技术的三大v

大数据存储的目的是收集由多个来源以不同速度、不同格式产生的大量数据。行业专家将这一过程描述为三对:数据的种类、速度和量。

多样性描述要挖掘的数据的不同来源和类型。来源包括音频文件、文档、电子邮件、文件存储、图像、日志数据、社交媒体帖子、流媒体视频和用户点击流。

速度是指存储空间能够吸收大数据量并对其运行分析操作的速度。Volume承认,现代应用程序脚本越来越大,超过了现有遗留存储的存储能力。

一些专家建议,大数据存储需要包含第四个V:准确性。这涉及到确保被挖掘的数据源是可验证的可信的。大数据分析的一个主要缺陷是,由于腐败、用户错误或其他原因,错误往往会加剧。准确性可能是最重要的因素,也是最难解决的问题,在许多情况下,只有在彻底调查之后才能做到数据清理的数据库。

机器学习如何影响大数据存储

机器学习是人工智能的一个分支,其日益突出的地位与大数据分析相似。从汽车、油井到冰箱等物联网设备,每天都有数万亿的人工智能传感器产生。

在机器学习中,计算设备无需人工干预就能进行分析。迭代统计分析模型应用了一系列的数学公式。通过每次计算,机器学习不同的智能片段,并使用它来微调结果。

机器学习的理论是,随着时间的推移,分析将变得更加可靠。谷歌的自动驾驶汽车是企业界机器学习的一个例子,但当消费者点击推荐的流媒体视频或收到银行的欺诈检测警报时,他们就会使用它。

大多数机器数据以非结构化格式存在。仅凭人类的智慧是无法将这些数据呈现在上下文中的。要理解它,需要大规模可伸缩、高性能的存储,并覆盖强大的软件智能,这些软件将结构强加于原始数据,并以易于消化的方式提取数据。

定制大数据存储

大数据存储架构通常采用地理上分布的服务器节点(Hadoop模型)或使用扩展的NAS或对象系统。每一种都有其优点和缺点。根据大数据存储需求的性质,可以使用多个系统的混合来构建基础设施。

大数据存储架构

超大规模的云提供商通常围绕使用直接连接存储的巨型服务器集群设计大数据存储架构。在这个协议中,PCI Express闪光可能是为了提高性能而放置在服务器上,并围绕着一堆磁盘来控制存储成本。这种类型的体系结构适用于寻找和打开数百个小文件的工作负载。因此,这种设置也有局限性,比如无法在用户之间提供共享存储,以及需要添加第三方数据管理服务。

随着大数据实施开始成熟,diy大数据存储平台的前景不再像以前那样令人生畏,尽管这不是一项轻松的任务。这需要评估内部It部门,以确定构建大数据存储环境是否有意义。

企业IT人员将承担起草硬件规格和从头开始构建系统的责任,包括采购组件、测试和管理总体部署。对于习惯于关系数据库平台的企业来说,Hadoop集成可能是一个挑战。

大数据存储还需要一个开发团队为内部分析软件编写代码,或集成第三方软件。企业还需要权衡为有限的应用程序集创建系统与处理更多样化的主要工作负载范围的企业数据存储之间的成本效益比。

购买大数据存储:扩展NAS、对象存储

集群和扩展NAS提供对并行基于文件的存储的共享访问。数据分布在许多人之间存储节点容量可以扩展到数十亿个文件,计算和存储可以独立扩展。对于涉及大文件的大数据任务,建议使用NAS。大多数NAS供应商提供数据的自动分层冗余降低每千兆字节的成本。

Data Direct Networks SFA、Dell EMC Isilon、NetApp FAS、Qumulo QC和Panasas ActiveStor都是领先的横向扩展NAS阵列。

与扩展NAS类似,对象存储归档系统可以扩展到可能支持数十亿个文件。对象存储系统为每个文件附加一个唯一标识符,而不是文件树。对象被表示为平面地址空间中的单个托管系统。

大部分的遗产块存储文件存储供应商已经将对象存储添加到他们的投资组合中。许多新的供应商出售带有本机文件支持的基于对象的存储。

一个数据湖有时被认为是对象存储的产物,尽管批评者嘲笑这个术语是一种营销策略。数据湖经常与基于Hadoop的大数据存储相关联,它简化了分散在众多Hadoop集群中的非关系数据的管理。

大数据存储安全策略

大数据存储安全存在诸多问题,尚无单一解决方案。NoSQL数据库因其吸收、管理和快速处理大量复杂数据的能力而受到欢迎。除了嵌入一些内在的安全基础之外,NoSQL的安全性还不如更成熟的关系数据库健壮,这突出了围绕大数据项目进行数据管理的必要性数据保护关键数据的工具。

由于机器学习,大数据项目经常从元数据中挖掘信息,而这些信息在检查源数据时并不明显。这可能导致无意中暴露客户、合作伙伴或其他人的个人身份信息。更强的访问控制、网络加密和外围安全都发挥着作用,以及定期检查,以确保持续的数据完整性。

大数据存储可能需要对内部数据治理进行持续审计,此外还需要强制合规。新兴技术,如同态加密——迄今为止主要与公共云服务的数据安全有关——可能是解决大数据存储安全难题的另一个方面。

无论是建设还是购买,大数据存储项目的成功取决于选择相关数据进行分析。一个预测模型很快就会偏离轨道,如果确认偏误或其他错误影响选择的数据。责任应放在开发最准确的数据模型,以避免“垃圾输入,垃圾输出”综合症。

这是最近更新的2017年12月

关于大数据存储

深入挖掘大数据存储

搜索灾难复苏
搜索数据备份
搜索聚合基础设施
关闭
Baidu