谢尔盖·尼文斯-福托利亚
WekaIO首席执行官表示,重点将放在人工智能和生命科学上
WekaIO首席执行官Liran Zvibel认为,与惠普、Mellanox和AWS的合作是这家初创公司的关键,因为该公司在人工智能和生命科学领域寻求增长机会。
WekaIO首席执行官Liran Zvibel有一个双管齐下的计划来启动并行文件系统初创公司以获得成功:他打算。。。
继续阅读本文
欣赏本文以及我们的所有内容,包括电子指南、新闻、提示等。
最大化与大型合作伙伴的关系,满足人工智能网络的存储需求。
Zvibel指出,最近与惠普企业(Hewlett-Packard Enterprise)、Mellanox和亚马逊网络服务(Amazon Web Services,AWS)的合作可能是WekaIO矩阵的发射台并行文件系统.
他说,他认为Matrix非常适合传统NAS工作负载,如媒体渲染和生命科学,但他将专注于任何有助于初创公司发展的市场。其中包括对大量小文件构成挑战的AI应用程序。
WekaIO的横向扩展文件系统可以跨越内部部署和公共云存储。它为热数据层汇集高性能闪存存储,并将较冷的数据卸载到Amazon Simple storage Service(S3)和OpenStack Swift-顺从的对象存储它使用硬盘驱动器。
WekaIO总部位于加利福尼亚州圣何塞,在以色列特拉维夫设有工程办公室。去年年底,兹维贝尔从首席技术官转为首席执行官。他取代了前首席执行官迈克尔·拉姆(Michael Raam),后者于2015年底加入WekaIO,负责美国办事处的建立和运营。
“他带领公司完成了我们的发射,”Zvibel谈到Raam时说。
在这次问答中,Zvibel讨论了最近的WekaIO新闻、客户趋势和他对未来的预测。
自7月WekaIO推出矩阵文件系统以来,最重要的进展是什么?
Liran Zvibel:作为一家公司,最让我们兴奋的事情是我们与HP Enterprise的协议。他们将在他们的平台上转售WekaIO。我们将成为他们的高性能文件系统。我们直接与HPC(高性能计算)和机器学习集团合作,我们非常适合他们的许多客户。我们已经为此工作了一年多。
另一个重大变化是与Mellanox的合作在InfiniBand. 现在,我们支持以太网或InfiniBand,我们看到很多非常有趣的用例实际上都是围绕着InfiniBand的高端应用生命科学工作量或机器学习。
我们在公共云上增加的一件大事是,我们正式加入了AWS市场。现在,客户可以通过自己的AWS账户提供自己的WekaIO集群,一切都是自动生成的。
另一个改变是我们的快照到对象存储功能。多年来,客户一直在向其他存储供应商索要该产品。当您将快照分层到对象存储时,您现在可以拍摄快照并以不需要原始集群的方式将其完全推送到对象存储。我们允许您利用对象存储作为第三方存储解决方案,并启用灾难恢复[灾难恢复]如果可以从其他数据中心获取。
它还支持公共云用例。现在,我们允许客户分层到AWS S3,并将快照推送到S3。另一个是云爆炸。您可以在prem群集上使用。你做这项工作。现在,你意识到你需要更多的资源。假设你拍了一张快照。你把它推到AWS S3。现在,您可以在AWS上配置计算和存储集群。我们的性能可以线性扩展,因此,将实例增加一倍将使性能增加一倍,并在一半的时间内得到结果。你可以决定你想要结果的速度。
您是否希望与更多云提供商合作?
兹维贝尔:我们目前正在积极地与其他云提供商进行对话。我们的愿望是拥有这三个,所以你可以迁移工作负载在AWS、[谷歌云平台]GCP和[微软]Azure之间。有相当多的商业细节围绕着事情。这不仅仅是技术问题。
你们有多少顾客?
兹维贝尔:我们大约有10个客户,大约有40个处于先进的概念验证阶段。
您的客户想要解决什么样的问题?
Zvibel:对于第一个用例,我们关注的是从CPU过渡到CPU的客户图形处理器.人们在三四年前就意识到了GPU的效率要高得多用于运行深度学习,人工智能网络。厂商以10万美元的价格出售gpu服务器,而客户希望能够扩展这些服务器。因此,他们在计算机方面花费了数百万美元。然后,他们无所事事,或者无法进一步扩大规模。我们要让他们知道,我们可以填满他们的管道。很多用例都是InfiniBand。
今天[人工智能网络]的训练涉及到微小的文件——文本样本、语音样本、图像。上一代并行文件系统可以从大文件中获得吞吐量,但它们无法从小文件中获得吞吐量,因为它们的元数据不够好。我们向这些客户展示,我们实际上可以为他们提供所需的吞吐量。
我们正在寻找的另一类客户是生命科学客户。新的基因组学数据集包含大量非常小的文件。而旧的文件系统无法处理它们。我们已经解决了当前的问题元数据问题. 我们可以非常高效地读写这些小文件。因此,我们向这些仍然主要使用CPU(中央处理器)的基因组客户展示,我们允许他们线性扩展他们的项目。
WekaIO是否有一个真正的并行文件系统,在客户端和存储之间具有同步、协调的I/O?
Zvibel:你可以把它想象成一个双并行文件系统。我们有一个针对热层的flash优化并行文件系统。然后,在flash和对象存储之间,我们也是一个并行文件系统。您可以并行地运行大型对象和对象存储。我们取大文件。我们把它切成小块。WekaIO集群的每个服务器处理该文件的不同部分,我们将将其与其他节点并发地从对象存储中放置或获取。
WekaIO的矩阵文件系统与Lustre或GPFS(IBM现在称之为Spectrum Scale)之间的主要区别是什么?
Zvibel:对于成吨的小文件,我们可以获得非常高的吞吐量。另一个区别是,我们取消了他们对元数据的任何限制。我们可以拥有数十亿个文件的目录,这些目录和包含一千个文件的目录一样有效。如果你去看电影光泽例如,尝试将一百万个文件放在这个目录中——现在,人们这样做了——元数据操作变得非常缓慢,基本上无法使用。
你的大多数潜在客户现在都用什么?
Liran ZvibelWekaIO首席执行官
兹维贝尔:以标准来看超级计算他们把我们比作光泽队。我们看到了很多GPFS。机器学习有纯粹的闪光点,这是非常流行的,尽管它不是平行的,甚至没有扩展。它只是一个基于闪存的NAND。它能够在一定程度上解决小文件的高吞吐量,但不允许扩展。所以,在最好的情况下,他们可以用闪灯开始项目,然后他们就有问题了。
在生命科学中,我们经常看到伊西隆。如果他们被I/ o束缚,那么Isilon[全闪]硝基稍微推动一下,但它在某个点上也会和Nitro绑定I/O。相当多的客户仍然有Panasas跑步. 我不认为他们会考虑购买未来的产品,但这并不像Pasasas从市场上消失。
您是否打算超越HPC和生命科学市场,进入普通企业?
兹维贝尔:人工智能将无处不在。人工智能是新的大数据。Hadoop的案例开始于小型的超级计算者,然后转移到企业。所有的企业现在都意识到,他们必须开始解决超级标度器解决的同一个问题。最终,它们将会有同样的I/O问题。这是最简单的方法。
你对今年最大的存储趋势有什么预测?
兹维贝尔:今年将有越来越多的人投入到严肃的人工智能项目中。另一件大事是,越来越多的组织将开始利用云的弹性,然后再全面推进云计算。完全转向云这是非常困难的。我们将看到人们所做的是与云同步,移动到云上任何不总是运行的东西——因此,你的月度报告或对云进行灾难恢复。