买方手册:

评估你的机器学习和人工智能数据存储需求

dampoint——stock.adobe.com

选择正确的人工智能数据存储的6个标准

购买错误的存储AI平台可能会产生严重影响。了解影响组织产品选择和战略的六个考虑因素。

人工智能和机器学习将成为帮助企业利用其核心数字资产创造竞争优势的两个最重要工具。但在购买人工智能数据存储之前,企业必须考虑机器学习平台如何获取、处理和保留数据的一系列要求。

让我们首先检查一下所使用的数据的生命周期机器学习软件,因为这有助于企业理解在选择时应该考虑什么存储为人工智能.首先,一个组织必须获取数据来训练机器学习或人工智能算法。这些软件工具通过处理数据来学习任务,比如识别物体、处理视频和跟踪动作。数据可以从各种来源产生,而且是典型的非结构化例如对象和文件。

训练过程使用数据资产,并使用机器学习或人工智能软件创建算法来处理未来的数据源。在训练或开发算法的过程中,人工智能软件将处理源数据,开发一个模型,可以创建洞察力或好处一个业务需要利用。

发展中机器学习算法很少作为一个单独的过程来完成。随着企业积累新的数据,算法也会得到完善和改进。这意味着很少有数据会被丢弃,相反,它会随着时间的推移增长并被重新处理。

购买人工智能数据存储的标准

在为AI平台选择存储之前,组织必须首先考虑以下问题:

1.成本。对于企业来说,人工智能数据存储的价格是一个关键因素。显然,管理层和那些参与采购决策的人希望存储尽可能具有成本效益,在许多情况下,这将影响组织的产品选择和战略。

2.可伸缩性。我已经强调了收集、存储和处理大量数据以创建机器学习或人工智能模型的必要性。机器学习算法需要指数增长源数据只实现精度上的线性改进。创造可靠和准确机器学习模型可能需要数百tb甚至pb的数据,而且这只会随着时间的推移而增加。

构建pb级存储系统通常意味着使用对象存储或扩展文件系统。现代的对象存储肯定能满足人工智能工作负载,但他们可能无法跟上其他标准,如高性能。扩展文件系统可以提供高性能和良好的可伸缩性,但在单个平台上存储整个数据集的代价可能很高。块存储对于机器学习或人工智能来说,这通常不是正确的选择,因为可扩展性要求和高容量产品的成本。这里唯一的例外是在公共云中,这将在后面讨论。

存储成本的变化引入了分层或使用多种存储类型来存储数据的想法。例如,对象存储库是存储大量非活动AI数据的好对象。当需要处理数据时,可以将数据移动到高性能文件存储集群或对象存储中为高性能而设计的节点,并在处理完成后将数据移回。

3.的性能。AI数据的存储性能有三个方面。首先,可能也是最重要的一点是延迟.这定义了软件处理每个I/O请求的速度。低延迟很重要,因为改善延迟直接影响创建机器学习或人工智能模型所需的时间。复杂的模型开发可能需要几周或几个月的时间来运行。通过缩短这个开发周期,组织可以更快地创建和细化模型。在检查延迟能力时,对象存储引用第一个字节的时间,而不是单个I/O请求的延迟,这是由于对象访问的流特性。

性能的另一个方面是吞吐量以及数据写入或从存储平台读取的速度。系统吞吐量很重要,因为人工智能训练要处理巨大的数据集,经常反复读取相同的数据,以准确地开发一个模型。机器学习和人工智能数据的来源,如自动驾驶汽车上的传感器,每天可以生成数兆兆字节的新数据。所有这些信息必须添加到现有数据存储中,并且对任何现有处理的影响最小。

正确地使用存储平台是至关重要的,因为涉及的数据量非常大。

性能的最后一个方面是并行访问。机器学习和人工智能算法并行处理数据,运行多个任务,可以多次读取相同的数据,并跨多个并行任务。对象存储很擅长并行读I/O处理,因为不需要管理对象锁定或属性。文件服务器跟踪内存中打开的I/O请求或文件句柄。因此,活动I/O请求的数量取决于平台上可用的内存。

机器学习数据可以由大量的小文件组成。在这个领域,文件服务器可以提供比对象存储更好的性能。一个关键问题人工智能存储供应商是如何改变其产品的性能特征在大和小的文件类型。

4.可用性和耐久性。机器学习和人工智能学习模型可以长时间连续运行。通过培训开发算法可能需要几天或几周的时间。存储系统必须在这段时间内持续可用。这意味着任何升级、技术替换或系统扩展都需要在不停机的情况下进行。

在大型系统中,部件故障是正常的,必须这样处理。这意味着任何用于人工智能工作的平台都应该能够从设备(如HDD或SSD)和节点或服务器故障中恢复。对象存储使用擦除编码将数据广泛分布在多个节点上,并将组件故障的影响降到最低。有一些擦除编码技术可以向外扩展文件系统,以提供同等水平的弹性。擦除编码方案的效率非常重要,因为它直接关系到读写I/O的性能,特别是对于小文件。

由于大多数大型对象存储太大,无法定期备份,可靠的擦除编码成为人工智能存储平台的基本特性。

5.公共云。开发机器学习和人工智能算法需要高性能存储和高性能计算。许多人工智能系统都是基于gpu的,比如英伟达的DGX,这就省去了开发精确算法所涉及的许多复杂的数学计算。

公共云服务提供商已经开始提供gpu加速的虚拟实例,可以用于机器学习。在公有云中运行机器学习工具降低了构建机器学习开发基础设施的资本成本,同时提供了开发机器学习模型所需的基础设施规模化的能力。

使用公共云计算的挑战是如何以一种经济有效的方式将数据放到公共云中。基于云的对象存储速度太慢,跟不上机器学习的I/O需求;因此,必须使用本地块存储。移动数据的每一分钟延迟都代表着运行基础设施的成本,以及执行机器学习的延迟。

公共云的另一个问题是数据输出的成本.尽管云服务提供商不收取将数据转移到其平台的费用,但他们会对从其平台之外的公共网络访问的任何数据收取费用。因此,尽管公共云提供了计算方面的灵活性,但以一种及时且经济有效的方式进出云并不总是那么简单。

供应商正在开发在公共云中运行其产品的存储产品,跨越场地和云。这些产品可以有效地复制数据或将数据移动到云中,并且只在完成后将结果移动回来。这些复制技术是有效的带宽,使其实际存储数据的前提下,并导入到云分析工作。

6.集成。在本文中,我们将机器学习和人工智能的存储方面与计算分离开来。构建人工智能数据存储可能很困难,因为存储网络和调优存储必须考虑其他因素,以便与机器学习应用程序一起工作。

正如我所写的融合基础设施例如,产品的预包装可以让供应商在将产品运送给客户之前对产品进行测试和优化。如今,有一些存储产品将流行的AI软件、计算(如通用cpu和gpu)、网络和存储结合在一起,从而提供一个AI就绪的平台。许多详细的调优工作都是在部署这些系统之前完成的。尽管成本可能是个问题,但对许多客户来说,预包装系统可以减少采用人工智能存储的障碍。

显然,选择合适的AI数据存储平台需要平衡性能、可扩展性和成本等参数。正确地使用存储平台是至关重要的,因为涉及的数据量非常大。选择错误的产品可能是一个代价高昂的错误。与任何存储产品决策一样,重要的是与供应商进行沟通,以准确了解他们的产品如何满足需求人工智能和机器学习.这个engagement过程应该包括演示和评估,作为任何可能的购买决定的前奏。

深入挖掘人工智能存储

搜索灾难复苏
搜索数据备份
搜索聚合基础设施
关闭
Baidu