存储

管理和保护所有企业数据

Scanrail——Fotolia

智能存储系统为商业智能

Mike Matchett解释了数据感知存储与应用感知的结合是如何引领智能数据存储的新浪潮的。

不久以前,存储阵列被深埋在数据中心中,无需对实际存储在其中的数据有太多了解就可以管理。例如,存储管理员可能知道这是需要高性能和可靠备份的关键应用程序的数据库数据,但数据库管理员负责所有特定于数据的细节。如今,这堵人造墙将数据信息和存储空间分隔开来,而且变化迅速。

聚合不仅缩小了基础设施竖井之间的差距,还缩短了存储后端持久性工作与存储数据在前端的实际含义和用途之间的距离。对于在数据中心的内部深处存储和保护位模式,您不再需要,甚至不再足够,现在必须以直接推进业务操作的方式管理存储。

事实上,在整个持久性的每一层或每一层利用数据正成为一种竞争的必要数据的生命周期. 这对IT人员有好处,因为新的数据感知存储正帮助IT走到关键业务流程的最前沿。

智能存储系统由大量的CPU/核驱动,更便宜的闪存和内存,敏捷软件定义存储功能以及从大数据分析世界学到的经验教训。在内部,智能存储系统可以通过智能重复数据删除和压缩方案、应用对齐的缓存和分级、策略可定义的服务质量(QoS)和数据保护方案,更好地优化容量和性能。在外部,智能存储系统可以创建和服务关于内部数据的新类型元数据,提供更好的管理和治理、应用程序QoS报告和对齐,甚至可以帮助创建直接的业务价值。

数据感知的根源

数据感知存储起源于早期的旧归档“内容可寻址存储”体系结构基于对象的档案这保留了额外的元数据(即关于数据的数据),以便准确地管理留存需求(并可能有助于合法的发现行动)。系统经常建立索引,并使这些元数据在内容本身之外可以访问,最终,甚至内容也建立了索引,并使其可用于电子发现处理。然而,对于归档冷存储来说,这种数据智能是在后处理过程中脱机创建的,只应用于静态归档数据集,因此很少使用。

十年前,大数据方法的出现表明,大量活的、非结构化的、高度多样化的数据可能具有巨大的首要商业价值。如今,在云计算中流行的、用于生产网络和移动应用程序的大规模网络对象存储通常存储各种元数据。事实上,这些商店支持用户定义的元数据,开发人员可以任意扩展这些元数据,以进行高级应用程序特定的标记或数据标记。一些高级文件系统直接在数据摄取上合并内容索引,使最终用户能够查询包含特定单词或短语的内容的主存储。

作为这种发展的一个例子,考虑两种流行的在线文件共享服务,Dropbox和Evernote.两者都可以用于跨设备存储和同步各种文件,并在用户组之间共享它们。Dropbox是基线标准定义在线文件共享和协作,但是Evernote更远——尽管对于窄的一组用例通过成为天生content-aware完整内容搜索、内联观众和编辑共同的文件类型,额外的元数据(例如,URL或引用来源如果可用,用户标签)和“类似内容”的推荐。虽然我每天都使用这两种工具,但我认为Dropbox只是另一种文件共享选择,而Evernote对我的工作流程至关重要。

它的数据意识

公司律师(用于电子取证)和侦探(用于安全)要求在线系统能够主动识别异常行为,对可能的违规行为发出早期警告。聪明的数据感知存储系统可以折叠审核类型信息,并帮助将文件、数据和元数据与“事件”模式关联起来,例如应用程序崩溃、文件系统填满、新用户被授予根访问权限以及共享或隐藏的密钥目录。

我记得有一次特别明显的存储误用(在12月的一次活动中!),我们抓到有人在一个访问量很小的文件系统上囤积了大量NSFW材料。如今,内容感知能力更强的智能存储系统可以提醒安全部门注意此类违规行为,并警告(甚至阻止)创造性边界,从一开始就将用户推向终止工作的领域。

数据感知存储的好处

细粒度的数据保护:例如,知道VM文件或卷所属的存储,或者更确切地说,知道强制执行该VM数据的特定策略的存储可以直接确保适当的数据保护(例如,正确的RAID或复制级别)。

细粒度的QoS类似地,知道哪些数据库文件需要哪些类型的性能加速的存储可以直接对I/O和缓存资源进行优先级排序,以获得最佳的应用程序性能。

内容索引和搜索:用于基于文本的数据的大型存储可以提供额外的价值,通过对内容进行索引,并支持内置的管理和(甚至)终端用户搜索。

社会存储分析:存储可以作为元数据跟踪用户和组的使用和访问。然后其他用户可以很容易地找出组织中谁最近对某些内容感兴趣,确定小组协作模式,并基于协作过滤接收新事物的研究推荐(例如,“喜欢我喜欢的东西的人也喜欢X”)。

积极的产能和利用率管理:存储还可以跟踪关于“每数据”系统资源性能、容量和利用率指标的元数据。这使得存储管理员可以直接查看IT基础结构中直接跟踪到最终用户、部门和应用程序的任何数据片段或组的情况。智能存储还可以帮助优化自己的配置和工作负载的行为对齐。

分析和机器学习随着存储越来越智能化,预计将有越来越多的低级计算处理和自动机器学习直接集成到存储层中。存储端功能可以用于自动分类、评分、翻译、转换、可视化和报告数据,即使它正在创建和存储。

在治理和保护之外,大型“平面”文件集合往往隐藏许多有趣的信息,这些信息不仅对按关键字、术语或短语搜索内容很有价值,而且对查找有关概念的资料也很有价值(可能通过特定于域的“分类法”)。例如,用户可以在搜索蔬菜时找到有关西红柿和黄瓜的文档,或者对“谁”创建了一些数据、谁复制并共享了这些数据、甚至他们查看了多少次和多长时间感兴趣。他们还可以找出哪些群体是某些数据集的最大用户,哪些人在文档集上进行协作,哪些人可能对他们感兴趣,或者哪些人有相似的兴趣等等。

一些数据感知存储还在细粒度的“每数据”级别跟踪元数据的使用情况和它自己的I/O服务的质量。这些智能存储系统不仅可以自我意识到每段数据在逻辑上是如何使用的,还可以记录I/O访问模式(由用户或应用程序)和随时间变化的性能。有了关于访问模式、交付性能和每条数据所需容量的时间序列元数据,这样的智能存储系统就可以报告、优化和努力确保大规模的QoS承诺,以及学习如何自我优化和“驱动”自己。

一个新的数据感知时代

今天,我们正处于智能数据感知阵列时代的开端。因此,尽管我们长期以来一直采用分层电子发现(Lucene/Solr是DIYers的开源产品),但一些成熟的分布式存储供应商现在正将搜索引擎功能直接集成到跨功能堆栈中。Tarmin GridBank包括一个完全分布式的元数据服务,例如,为身份、安全和应用程序存储调整活动提供信息。Hewlett-Packard Enterprise一直在利用技术将其IDOL内容直接集成到存储中——今天,它与StoreAll对象存储以及更新的高速摄取以及名为Express Query的搜索数据库。两年前,Data Gravity推出了一个中档数组,可以自动索引内容(在双控制器的被动端),用于内置文本搜索和发现社交使用模式。

还有Qumulo,这是一个数据感知存储的好例子,它可以跟踪用户、应用程序和数据对象的性能和容量指标。这使Qumulo能够应用和实施数据级别的QoS策略,并提供对以各种方式使用存储的用户和内容的清晰了解。Qumulo让管理员可以看到存储系统中一直到文件级别的活动情况,从而可以很容易地看到哪些文件和目录在不同时间处于或曾经处于热状态,哪些客户端正在访问文件结构的哪些部分。这一点特别有用,因为Qumulo可以扩展到存储数十亿个对象,而外部管理工具可能会在这一点上一蹶不振。

提高数据意识的另一个领域是改进如何根据预期使用情况最佳缓存、存储和虚拟呈现数据的产品。例如,Riverbed的SteelFusion充分了解远程办公室/分支办公室本地所需的数据——运行应用程序和虚拟机(VM)——它可以持久化和保护数据中心中的所有数据,同时在边缘位置投影所需的数据(使用Riverbed的WAN优化)技术).这种边缘“虚拟化”的存储智能需要关于数据内容、数据服务需求和所需的数据保护级别的知识。

应用意识

存储还可以变得更能感知应用程序,以便在更高的层次上与存储客户端一起工作提供加速应用和降低运营费用的数据服务。因此,存储服务的不是lun、二进制对象或文件,而是应用程序级的数据构造,如虚拟机映像或数据库表(或数据库记录的“块”)。用于数据保护、可用性和性能的存储设置可以在应用程序术语中进行管理。

Tintri开创了直接为虚拟机监控程序提供虚拟机服务的存储,并提供虚拟机方面的存储管理。与此同时,VMware有API(VAAI等)来帮助传统阵列供应商更广泛地采用这种方法,甚至还提供了在VM级别工作的VSAN软件定义的存储。

与此同时,一些应用程序已经变得更加关注存储。这基本上是Hadoop和大数据的一个关键设计原则,它从根本上将定制存储聚合在应用级。例如,Hadoop的HDFS与主要的作业调度服务携手工作,将计算作业发送到特定的“存储”节点,在那里存储所需的数据分区。

数据智能即将到来

随着价格合理的非易失性存储器、快速闪存和持久存储器(如MRAM)的出现,存储将更接近于计算,并将变得更能感知数据。而且,我毫不怀疑,即将到来的物联网及其伴随的数据爆炸将进一步催生高度智能的存储/计算融合功能。

底线:数据总是有价值的,但这些价值必须被挖掘、利用和获取。因此,存储架构变得更加智能,可以帮助识别各种数据的内在价值。最具竞争力的组织将拥有最智能的存储系统。

关于作者:
迈克·马是Taneja Group的高级分析师。

第八条第1条

下一个步骤

数据存储系统变得更聪明

数据意识存储智能化

在搜索的智能数据存储技术

深入了解存储优化

获得更多的存储空间

查阅我们所有的过期杂志 查看所有
搜索灾难复苏
搜索数据备份
搜索聚合基础设施
关闭
Baidu