买方手册:

评估你的机器学习和人工智能数据存储需求

AI工具的领先存储解决了工作负载能力和性能问题

今天的人工智能存储平台为组织提供独立的和预包装的产品,旨在解决其人工智能工作负载的数据存储和容量需求。

人工智能供应商的存储要么提供融合的基础设施产品,要么提供组织可以构建到其人工智能项目中的产品。一些供应商,包括DataDirect Networks、Dell EMC、惠普企业、IBM、NetApp和Pure Storage,提供带有服务器和网络合作伙伴的打包产品或参考架构。这些产品增加了与CPU和GPU计算一致的存储性能和容量。

其他供应商,包括Excelero、Vast Data和WekaIO,提供可扩展存储性能和容量的软件产品。客户使用这些组件执行集成工作人工智能平台.这三家供应商还与合作伙伴合作,将其产品作为预包装的设备交付。

在这里,我们深入了解一下这九家供应商提供的人工智能产品的存储类型。

DataDirect网络

DataDirect Networks (DDN)有两个产品系列,AI200和AI400存储型号,均由英伟达和惠普企业服务器驱动。Nvidia的参考架构由一个、四个或九个DGX-1设备或一个或三个DGX-2设备组成。系统使用100千兆以太网(GbE)或InfiniBand网络和两个设备提供存储。这两个模型是所有的flash NVMe实现并行文件系统.两种型号都支持多达24个双端口2.5英寸NVMe驱动器。DDN对AI200模型的性能报价高达25gb的读写和750,000 IOPS。对于AI400型号,厂商报价为33gb读写,150万IOPS,最大容量为360tb。

HPE系统使用阿波罗6500 Gen10服务器平台,每台服务器最多支持8个gpu和NVLink 2.0。支持的存储配置包括AI200、AI400和AI7990混合存储提供最大可达5.4 PB,最大IOPS为75万IOPS,读性能为23gb,写性能为16gb。DDN推荐两种基于Apollo的参考架构,使用一台AI400和一台或四台具有多种GPU配置的6500服务器。

戴尔EMC

Dell EMC提供三种存储人工智能产品集基于Nvidia gpu、Dell服务器或带Hadoop的Dell服务器。Dell EMC-Nvidia产品部署了一个PowerEdge R740xd头节点和4个PowerEdge C4140 worker节点,每个节点使用4个Nvidia Tesla V100 gpu。组网由Mellanox InfiniBand交换机提供,存储由Isilon F800全flash NAS提供。F800可以从单框扩展到25000iops和15gb吞吐量,在一个252node集群,58pb容量下,全配置为1575万IOPS和945gb。

没有gpu的戴尔服务器部署了一个PowerEdge R740xd头节点和16个PowerEdge C6420节点,每个节点都有两个Xeon Gold 6230处理器,192 GB动态RAM和250 GB本地内存M.2存储.Isilon H600混合存储提供共享存储。H600系统每机箱提供高达120,000 IOPS和12gb吞吐量。

Dell EMC面向AI的Hadoop产品部署了一个PowerEdge R640头节点和两个PowerEdge R640工作节点,使用Dell 25gbe网络连接。Worker节点使用本地SSD存储。Hadoop基础设施由多达10台提供共享存储的PowerEdge R740xd服务器构建而成。

Excelero

Excelero是一家开发了扩展功能的初创公司块存储适用于高性能和低延迟需求,如机器学习和人工智能。Excelero nvmeesh软件使用一种名为远程直接驱动器访问(Remote Direct Drive Access,简称RDDA)的专利协议。该协议类似于远程直接内存访问(RDMA),使nvmeesh集群中的节点或服务器能够与另一个节点中的NVMe驱动器通信,而不涉及目标服务器的CPU。这使得NVMesh能够作为专用存储产品或超融合配置提供高线性可伸缩性。NVMesh可以与IBM Spectrum Scale结合使用水平扩展用于机器学习和人工智能的文件系统。

Excelero不提供性能数据,但提供供应商与合作伙伴与经销商共同开发综合软硬件产品。例如,英国波士顿公司的Talyn平台可以在2U全闪存设备中提供高达490万IOPS和23 GB的吞吐量,时延小于200微秒(µs)。

惠普企业

HPE与WekaIO和Scality合作,提供满足容量和性能要求的分层产品。HPE提供了两种参考架构,分别基于用于WekaIO Matrix的HPE Apollo 2000服务器和用于scalality Ring的Apollo 4200服务器。它还提供了一个组合产品,使用阿波罗4200为Matrix和Ring在同一硬件上。单台阿波罗4200 Gen10服务器支持高达46 TB的NVMe存储或288tb硬盘容量。典型配置至少包括6个Apollo 4200服务器(用于混合集群)或6个Apollo 4200服务器和6个Apollo 2000服务器(用于分解集群)。

人工智能供应商的存储要么提供融合的基础设施产品,要么提供组织可以构建到其人工智能项目中的产品。

HPE提供了一个AI参考架构,该架构使用WekaIO软件部署在带有NVMe ssd的ProLiant DL360 Gen10服务器上。网络通过Mellanox 100gb InfiniBand交换机交付,而阿波罗6500 Gen10服务器提供多达8个Nvidia Tesla V100 gpu。

IBM

IBM的人工智能参考体系结构是人工智能的频谱存储。该产品使用IBM Power System服务器或Nvidia DGX-1和DGX-2服务器。Power System AC922变体在一台服务器上使用IBM Power9处理器和多达6个Nvidia Tesla V100 gpu。DGX变体支持每个机架多达9台DGX-1或3台DGX-2服务器。在这两个实例中,产品使用Mellanox InfiniBand交换机或100gbe和IBM Elastic Storage Server (ESS)全闪存设备。典型的DGX配置将3台DGX-1服务器与一台全闪存设备或1台DGX-2与一台全闪存设备配对。

IBM ESS结合了NVMe块存储和IBM Spectrum Scale(以前称为通用并行文件系统或GPFS)。每个ESS设备能够以100µs的延迟提供40gb的吞吐量,并使三个DGX-1系统的gpu饱和。

NetApp

Ontap AI结合了NetApp All Flash Fabric-Attached Storage (AFF)所有的flash存储使用Nvidia DGX-1服务器和思科网络。该产品使用NetApp AFF A800存储和DGX-1服务器的测试组合作为有效的参考架构。典型配置使用单个AFF A800和一个、四个或七个DGX-1系统。单台AFF A800可支持最大25gb的顺序读吞吐量和100万IOPS, 24节点集群可扩展到300gb和1140万IOPS。

NetApp使用一个AFF A800系统和四台Nvidia DGX-1服务器的参考架构,声称在行业标准ResNet-50、ResNet-152、incept -v3和VGG16图像处理训练模型上运行gpu的利用率超过95%,接近理论最大处理能力。

NetApp设计的一个优势是,它允许企业使用现有的Ontap功能,并与NetApp数据结构集成,提供数据移动进出专用人工智能产品。

三类产品从存储为人工智能供应商

  1. 随参考体系结构交付的存储产品。这包括直接封装AI计算和存储或提供验证可伸缩性和性能的参考架构的产品。

    几乎所有这些类型的产品都是基于Nvidia DGX平台和Tesla V100 gpu构建的。DGX服务器系统在内部使用一种称为NVLink的互连方式,在平台中的多个gpu和cpu之间提供高带宽网络。NVLink可以在DGX-2服务器上扩展到300gbps的内部带宽,拥有16个gpu,并提供每秒2petaflops的人工智能计算能力。DGX系统确实有一些本地存储,但为了提供容量和性能可伸缩性,它们还需要快速共享外部存储。

    来自人工智能存储供应商的打包和参考架构产品提供了经过验证的配置,确保特斯拉gpu的带宽能力得到充分利用。通常,这是通过快速共享存储、100gb网络(Ethernet或InfiniBand企业数据复制)和一个或多个DGX-1或DGX-2系统实现的。使用这些架构提供的大多数存储系统使用全flash媒体以低延迟提供高吞吐量。

  2. 高性能的文件存储。这包括作为软件定义的存储交付的存储,可以是软件,也可以是与合作伙伴绑定的硬件。在本例中,性能验证是通过白皮书和内部测试提供的,而不是通过参考体系结构。
  3. 对象存储。最后,对象存储供应商正在为机器学习和人工智能提供存储大量非结构化数据的能力,并与其他供应商合作,提供在快速和容量层之间移动数据的集成产品。

纯粹的存储

Pure Storage AIRI是一个融合了Pure Storage FlashBlade、Nvidia DGX-1服务器和Arista 100 GbE交换机的基础架构式封装。AIRI允许管理员通过在FlashBlade配置中添加更多刀片来扩展存储容量和性能,并通过额外的DGX-1服务器扩展计算性能。FlashBlade配置15片刀片,可提供约17gbps带宽和150万NFS IOPS。

Pure已经扩展了AIRI,提供更小和更大的配置。AIRI Mini集成了双以太网交换机,支持以太网或InfiniBand, 7个17 TB FlashBlades和2个使用特斯拉V100 gpu的Nvidia DGX-1系统。

标准的AIRI配置包括双交换机、4台Nvidia DGX-1服务器和15台17tb flashblade。Hyperscale AIRI提供三种配置,每种配置都采用双以太网或InfiniBand结构。用户可以选择9个Nvidia DGX-1系统和30个17 TB FlashBlades跨两个机箱。第二种配置使用三台Nvidia DGX-2服务器,在两个机箱上配置30台17tb FlashBlades。第三种配置使用两个Nvidia DGX-2系统和15个17tb FlashBlades。

Pure Storage最近宣布FlashStack为人工智能该产品基于思科统一计算系统C480 ML服务器、思科Nexus交换机和FlashBlade,使组织能够构建端到端数据管道来管理人工智能应用程序。

庞大的数据

海量数据是相对的新存储启动.该公司开发了一种基于廉价的四级单元NAND闪存和英特尔Optane的扩展架构,旨在取代企业中的混合和基于hdd的系统。巨量通用存储系统提供机器学习和人工智能工作负载,具有低成本的每千兆字节容量和亚毫秒的延迟。在当前版本中,协议支持提供了NFSv3或NFS over RDMA,这使得数据传输能够超越传统的NFS-over- ip网络的限制。Vast打算将其系统作为大型非结构化企业的主要存储库数据的湖泊机器学习和人工智能基础设施直接进行。

WekaIO

WekaIO Matrix软件实现了一个可扩展的分布式文件系统。Matrix可以部署在公共云中,也可以使用本地基础设施(使用NVMe存储和NVMe- of将数千个节点链接到一个巨大的并行文件系统中)。尽管Matrix可以提供NFS支持,但对文件系统的主要协议访问路由是通过客户机代理,该客户机代理向应用程序公开本地文件系统。

WekaIO并不直接出售人工智能产品的全部存储空间,而是与合作伙伴和经销商合作。例如,HPE提供基于支持Nvidia gpu的HPE Apollo 6500 Gen10服务器的产品。矩阵在存储节点上实现,如Apollo 4200和ProLiant DL360服务器。

矩阵具有广泛的适用性机器学习和人工智能的工作量,具有既支持小文件又支持大文件数的设计特征。通过对S3协议的支持,矩阵使组织能够将数据分层到成本更低的存储形式。这包括公共云和Scality这样的合作伙伴。

编者按

通过对人工智能存储市场的广泛研究,TechTarget编辑将这篇文章系列聚焦于用于运行高负荷人工智能和机器学习必威 安全分析负载的存储系统。我们的研究数据来自TechTarget的调查和其他知名研究公司的报告,包括Gartner。

深入挖掘人工智能存储

搜索灾难复苏
搜索数据备份
搜索聚合基础设施
关闭
Baidu