存储
对象存储用例以满足新兴的需求
计算和存储的进步正在将对象存储的作用从传统的高性能计算和云扩展到新兴的数据分析、机器学习和深度学习用例。
对象存储是三种主要存储技术中最新的一种,与块卷和文件系统互补。随着技术进步的发展,对象存储已经找到了新的和不同的用例,超越了它最初的优势。
起源于20世纪90年代高性能计算研究人员的追求为他们的海量数据集提供更可扩展的替代方案随着大规模可伸缩云服务的兴起,基于对象的存储变得流行起来。在描述他们的动机时,谷歌研究人员在谷歌文件系统(GFS)中设计了最早的对象存储实现之一,详细的设计需求在20年后仍然引起共鸣。
即,对象存储系统应做到以下几点:
- 通过持续监控、错误检测、容错和自动恢复,适应数百或数千节点的存储系统部件频繁故障;
- 容纳大量的,多tb的数据集和多gb的文件;和
- 对于主要是只读的、顺序读的、“几乎不存在”的随机写的文件进行优化,并允许新的数据追加到文件中,而不是覆盖现有数据。
工程师为在线服务提供商优化了早期的对象存储形式,如GFS。但是,随着时间的推移企业工作负载的存储需求呈现出相似的特征
对象存储的变化面貌
不仅组织采用云基础设施和云本地应用程序设计,而且以下趋势表明企业数据足迹正在演变有利于对象存储的方法:
- 文本、图像、音频和视频等非结构化数据量的巨大增长;
- 来自系统日志、电子邮件存储库和标记信息(如HTML和JavaScript Object Notation文档)的半结构化数据量的类似扩展;
- 海量数据存储库的积累,可以跨越数百tb甚至pb;
- 来自多个地点的数百个用户的并发、实时存储访问;
- 更多地使用数据湖或其他以不同格式汇总来自不同来源的数据的技术;和
- 伴随而来的数据与特定应用程序的解耦,许多工作负载使用相同的存储库。
每一个企业存储趋势倾向于对象格式在块或文件存储上,因为对象存储天生是可伸缩的、高度分布式的、在空间和成本方面更高效的,并且支持粒度安全策略,并针对存储库的子集定制访问控制。此外,越来越多地使用AWS、Azure、谷歌云平台(GCP)和其他平台的“基础设施即服务”资源(对象存储服务是可扩展的、成本最低的选择),鼓励使用本地对象存储作为集成的混合云环境的一部分。
变化背后的原因
极高的可伸缩性和固有的分布式冗余系统吸引了高性能计算和云研究人员拥抱对象存储。然而,这项技术相对于文件和屏蔽替代品的成本优势吸引了企业用户和云服务的注意,值得一提的是,AWS S3提供了这项技术。
随着企业在过去十年开始涉足云服务,他们寻求既低风险又易于实现的用途:备份和归档成为了答案,云对象存储成为了工具。备份和归档成为主要的用例仍然是对象存储的主要企业应用程序很多年了。
对象存储市场
目前还没有任何广泛可用的公共措施来跟踪对象存储市场的规模。通过一个估计今年的销售额约为40亿美元,同比增长14%,至2023年的60亿美元。EMC十年前收购Isilon时曾预测,到2012年,Isilon和Atmos的销售额将达到10亿美元,考虑到这一点,这些数字似乎太低了。不管怎样,毫无疑问,企业对象存储的市场仍然比块或网络文件存储产品小得多。
三大云服务提供商——AWS、Azure和GCP——在计算实例和对象存储等大宗商品服务方面偶尔会打价格战。规模经济使得对象存储供应商很难基于每gb的成本进行竞争,所以他们借鉴了市场营销101中的一页:当你不能在价格上竞争时,专注于特性和性能。
大多数专门从事对象存储技术的公司意识到,试图赢得与亚马逊或谷歌的价格战是一个失败的主张将重点转向人工智能、机器学习和大数据分析工作可以利用更快的I/O和新的嵌入式特性。事实上,这就是“廉价”一词的污名对象存储有一些转移的术语,强调数据平台,通用存储和分布式数据管理。
尽管如此,这些供应商必须承认云对象存储服务(特别是S3)在IT和开发人员中的主导地位。因此,与S3 API的兼容性已经成为公司添加数据分析特性的基础。
对象存储的最先进用例:开发、分析、人工智能
现代对象存储平台是为几个新兴的用例而设计的:
- 用于流数据的数据湖,如系统事件和日志、应用遥测、传感器读数、金融交易、在线互动、社交媒体活动和其他元数据;
- 用于元数据、非结构化内容和二进制大型对象的对象存储数据库;
- 使用Spark、Flink、Hive等软件进行大数据分析存储;
- 机器和深度学习训练数据和输入流,使用以前训练过的模型进行分析;
- 搜索引擎库;
- 富媒体流;
- 持久数据存储对于基于容器和云本地的应用程序;和
- 软件开发环境的存储库,包括源代码管理、持续集成和持续交付管道、问题跟踪和文档。
由于许多开发工具使用网络挂载的文件共享,对象存储也通过NFS和SMB协议公开。
技术进步促成了这些变化
对象存储受益于计算和存储技术的更广泛趋势。以下是一些最重要的趋势:
- 操作系统(虚拟机实例)、应用(容器)和存储资源(软件定义的存储)的软件虚拟化,在硬件实现和应用之间建立抽象层。通过解耦存储数据和控制平面,虚拟化支持任意大小和容量的分布式、可扩展的集群。
- 通用cpu的能力得到了极大的提升,再加上虚拟化,使得商用服务器集群能够管理巨大的存储容量。
- 持续下降的SATA ssd和NVMe驱动器每字节的价格适用于大容量、高吞吐量的大容量对象存储系统。
- 持久内存技术的商业化Optane——从英特尔和微米技术和磁阻的RAM——从供应商Everspin技术和雪崩技术——高密度填补差距但相对缓慢的存储使用磁磁盘或3 d NAND闪存和快速、低延迟,但动荡的DRAM缓存。
大多数对象存储产品包含了一些(如果不是全部的话)这些进步。然而,这些产品通常是从旧的、基于hdd的系统发展而来的核心存储控制软件。这种遗留软件使得它们在人工智能、机器学习和分析工作负载中处于次优状态,这种I/O模式是随机和顺序读写,也需要低延迟和高吞吐量。
针对现有实现的不足,英特尔和其他公司开发了一种新的软件平台,称为分布式异步对象存储。dao是一个开源的努力开发一个对象存储系统,该系统将数据和控制平面解耦,同时也将I/O元数据和索引工作负载从批量数据存储中分离出来。
DAOS实现了为NVMe和Optane持久存储设计的轻量级协议,并具有一个低延迟、高吞吐量的消息传递接口,可以绕过OS。它将元数据存储在快速、持久的内存中,将大容量数据存储在NVMe ssd上,并内置了对大数据接口的支持,包括hierarchy data Format version 5、Apache Arrow和Spark。
根据Intel的说法,DAOS读写I/O性能几乎是随着客户机I/O请求数量的增加而线性增长的——大约为32到64个远程客户机——这使得它非常适合云和其他共享环境。DAOS的第一个重要生产部署是为美国能源部的阿贡国家实验室名为“极光”的百亿亿次超级计算机。
尖端技术,尤其是计算存储——它将小型、高效的处理器嵌入到单个ssd中——最终将进入对象存储设计,因为它的扩展特性非常适合在数百个设备上分布存储处理。
特定的供应商和产品使这一切成为可能
对象存储市场的主要厂商包括但不限于以下厂商。
Caringo Swarm软件和服务器.Swarm是一个软件定义的存储对象平台,支持异构系统环境,提供统一的命名空间,通过NFS、SMB、AWS S3和Swarm自带的HTTP API公开。
clouddian HyperStore对象存储通过三种产品(使用hdd从1U和168tb到4U和1.5 pb)上提供的集成软硬件平台,公开了一个兼容s3的API和NFS和SMB NAS接口。
DataDirect Networks Web Object Scaler是一个s3兼容的对象系统可以达到pb的容量以及数万亿的物体。
戴尔EMC ECS,是一套集成硬件设备,有三种尺寸,从12 1tb到8 TB驱动器到90 12tb hdd。
日立Vantara内容智能是日立对象存储产品的一个值得注意的补充。该产品提供数据处理工作流和分析、提取、转换和报告功能库,用户可以应用到传入数据。然后,可以将转换和提取的数据转发到应用程序或存储层,以便长期保存。
IBM红帽Ceph存储是一个支持S3和OpenStack对象api、block (iSCSI)和NFS文件协议的存储平台。
MinIO是开源的、云优化的对象软件,支持运行在Kubernetes集群上的S3 API。MinIO可以替代Hadoop分布式文件系统,专为分析和人工智能工作负载设计,包括Spark、Presto、TensorFlow和H2O.ai。
NetApp StorageGrid是公司的s3兼容对象产品。不过,NetApp也在NetApp Ontap AI平台上与英伟达合作,该平台将其AFF a系列全闪存阵列(AFA)存储系统与Ontap 9、AI控制平面软件与英伟达的新DGX A100 AI服务器集成在一起。
纯存储FlashBlade AFA提供对象存储软件和可扩展的4U机箱,支持15个可热插拔存储模块。Pure还与英伟达合作提供AIRI AI平台,该平台将两个或多个DGX-1或-2计算服务器与一个或两个flashblade和一个融合以太网- ib网络结构集成在一起。
Qumulo文件系统支持在所有Qumulo存储设备、惠普企业和富士通合格的第三方产品或AWS或GCP上的公共云基础设施上的多云部署。
Scality环是面向x86服务器的pb级软件存储控制平面,同时提供S3对象接口和文件接口。该供应商的Zenko软件为Ring和其他对象平台(包括S3、Azure Blob、GCP和Ceph)提供了一个单一的管理界面。
SwiftStack,最近被英伟达收购,是对象存储软件,支持SwiftStack基于策略的工作流,如添加元数据、标签和标签等,可用于预处理数据,方便搜索和分析。SwiftStack的1space管理软件支持多个云,而1space File Connector提供跨异构环境的统一命名空间。
庞大的数据将其扩展存储环境描述为仅可用软件、硬件和容器软件的混合或打包的硬件设备的通用存储。Vast的高I/O性能和NAS支持使其非常适合机器学习和深度学习工作负载。
评估标准
在评估对象存储产品时,买家应该考虑几个关键因素,因为一个领域的优势可能会以另一个领域的劣势为代价。
其中包括容量和存储效率与性能、弹性和冗余与容量,以及互操作性与专有特性(如对人工智能和分析功能的嵌入式支持)。可管理性与便利性之间的区别也很重要,安全性与多租户灵活性之间的区别也很重要。
针对AFAs和混合HDD/SSD硬件进行优化设计的对象存储软件的进步显著提高了性能,同时分解控制和数据平面支持跨多个云环境的异构部署。这些发展使得分布式、可扩展的对象系统成为新兴数据分析、机器学习和深度学习工作负载的首选存储环境。
DAOS、持久内存支持和集成数据处理工作流等方面的进步,为未来出现的更多对象存储用例提供了更高的性能和灵活性。请继续关注。
相关资源
- 计算机周刊- 2020年6月2日:IT安全的优先事项是什么?-ComputerWeekly.com
- OpenStack:基本指南-ComputerWeekly.com
- 10大备份挑战和专家建议-SearchStorage.com
- OpenStack存储指南-ComputerWeekly.com