采用分级存储模式,提高存储容量利用率
在本文中,Jon Toigo讨论了与实现分层存储模型相关的挑战,以及它如何帮助管理存储容量需求。
你将从这个技巧中学到什么:存储专家Jon Toigo讨论了与实现分层存储模型相关的挑战,以及它如何帮助管理存储容量需求,从而实现更高效的数据中心。
存储分层这不是一个新想法。它指的是将数据存储基础设施配置为一组“层”,其中每一层由具有不同性能、容量和成本特征的媒体(内存、磁盘或磁带)的集合组成。
一旦建立了这些层,分层存储就会扩展到将数据迁移到更慢、更大、成本更低的存储层。这种变化可以由文件等简单标准驱动元数据属性例如“最后一次访问日期”或“最后一次修改日期”(标识很少访问且可以安全地移到较低性能层的文件),或者通过对数据的业务上下文进行更细粒度的分析,以及应用预定义的信息生命周期管理策略。
这种对存储分层的解释可以追溯到大型机计算的早期。早期的IBM大型机操作系统通过系统管理存储等工具提供了对分层的直接支持分级存储管理(HSM).随着分布式计算体系结构的出现,这种存储分层模型不再被使用。早期网络互连和服务器背板施加的实际限制限制了数据移动,从而削弱了分层。此外,分布式存储往往缺乏与供应商无关的存储服务或存储资源管理(SRM)范例,这些范例支持来自不同供应商的存储产品之间管理良好的数据移动。
虽然近年来互连的带宽有所提高,但在不同存储套件(特别是来自不同供应商的存储套件)之间迁移数据的挑战仍然是传统分层存储模型和其可能实现的有效容量利用率(正确类型的存储上正确的数据)的一个障碍。尽管有这样的挑战,最近在存储方面的发展,包括速率存储容量需求增长而在完成阵列的存储水平上不断增加的成本,正在刺激对分层存储的新兴趣。
这种兴趣只是现在提供分级存储产品的厂商的动机之一。一些供应商热衷于推广零级存储,即由全闪存、基于内存的固态硬盘(ssd)组成的阵列。对于I/O密集型应用程序,零级阵列被视为一个初始写目标,用于提高I/O性能,特别是在虚拟服务器工作负载之后。
其他供应商正在为他们的客户提供多层存储阵列——阵列的架子上有ssd,其他架子上有低容量/高速磁盘,还有一些架子上有高容量/低速磁盘,所有这些都在同一个盒子里——作为一站式商店。不足为奇的是,每个架子上的存储介质(快速硬盘驱动器、大容量硬盘驱动器和ssd)比传统阵列中提供的相同介质贵得多,这在很大程度上是因为供应商对阵列控制器中包含的分级软件收取了高昂的费用。
分层在一些供应商的文献中也有了新的含义,描述了使用由DRAM或flash SSD组成的读缓存来临时存储写入磁盘的数据,这些数据现在正在接收多个并发访问请求。这些“热数据”被临时写入第0层(内存),在那里它可以提供更高的I/O访问多用户请求比单独使用磁盘可能。当请求减少时,数据被确定为“冷的”,访问请求被重新指向原始磁盘介质。使用这种用于增强磁盘性能和内存的混合技术,就有可能获得行业领先的读写性能,而无需部署过多的磁盘驱动器进行并行访问。
从分层存储模型开始
如果希望在存储基础设施中实现某种hsm风格的分层,需要考虑一些事情。
1.您需要了解需要移动哪些数据。基于简单的“最后访问日期”标准移动所有数据可能不是一个好主意,因为应用程序软件和其他文件可能需要被排除在外。运行来自任何像样的SRM软件包的报告,以确定要包含在HSM方案中的候选数据。然后与所有者或所有者/经理检查,如果有必要,以确保数据是安全的移动。即使是90天内没有被碰过的文件,也可能会被提出异议。
2.你需要知道你的存储空间和你移动数据的位置。一些阵列允许轻松地进行数据交换,而另一些阵列则要求存储目标来自与首次存储数据的阵列相同的供应商。对于某些数组,供应商使用“开放api”来允许任何应用程序向数组写入数据,但实现“封闭api”来限制将数据从主轴移到另一个数组的能力。确保您了解HSM方案中每个目标数组的功能和限制。
3.建模、模拟和实验。有一些HSM软件包可以免费使用一段时间,并提供测试您的HSM方案的方法。在上线之前,使用这些设置一个测试HSM环境。缺席这推进工作,就有可能将文件移动到较低的层,填充的空间他们曾经占领了上层,然后发现运行关键年终报告,你需要促进数据回层你降级但缺乏空间。为了防止存储层成为“存储的眼泪”,要有耐心并测试一切。
分层存储的真正挑战是:理解术语
在最后的分析中,除了混合技术,存储分层是一个被广泛使用的术语,几乎没有证明价值。在某些情况下,它被描述为一种降低容量需求或提供容量分配效率的策略。从技术上讲,分层存储模型两者都不具备。虽然将数据移动到较低的层可能会为上面层上的新数据释放空间,但这不是存储分层的中心目的。相反,从数据访问频率和媒体成本的商业角度来看,分层努力将存储放在一个最合理的层次上。因此,它的目的是提供利用效率,而不是分配效率。
相比之下,其他供应商将存储分层描述为归档,这是误导。在HSM模式中,数据根据访问频率从较快的层转移到较慢的层。归档文件通常由数据集组成,这些数据集根据业务标准而不是简单的访问频率分组在一起。使用信息生命周期管理策略,考虑数据的业务上下文,可以生成适当的归档;HSM没有。
值得一提的是,IBM的线性磁带文件系统(Linear Tape File System, LTFS)的到来提高了人们对使用分层存储模型的兴趣。对于目前创建和存储的超过一半的新数据,基于磁带的文件存储利用支持ltfs的服务器的前端磁带库,可以提供一个超高容量的存储平台,拥有成本比磁盘阵列低得多。考虑到用户文件的重新引用率在创建10天到30天之后会急剧下降,将旧文件移动到类似于NAS平台的磁带存储库可能非常有意义。
虽然LTFS的支持者包括一个名为Active Archive Alliance的组织,但事实是,LTFS磁带是关于存储分层和产能利用率由访问频率测量。随着LTFS文件存储的到来,存储分层可能已经准备好开始交付其长期承诺的业务价值案例。