- 与您的网络共享此项目:
- 下载
贮存
Carloscastilla - Fotolia.
冷数据存储需求升温
非结构化数据的指数上升是对经济高效的冷库产品,服务和媒体的需求上升的许多原因之一。
当数据不常被访问或从未被访问时,数据就会进入冷库。冷存储是用于存储数据的。。。
继续阅读本文
享受本文以及所有内容,包括电子指南,新闻,提示等。
合规的原因;有可能的未来价值;或者因为IT部门担心一旦数据被删除,就会需要它。这种类型的存储通常比主存储和辅助存储成本低得多,相应的性能也较低。
冷数据经常与冷数据存储合并在一起,但实际上可以存在于任何存储媒体上和系统。另一方面,冷数据存储是专门为存储冷数据而设计的系统。对于冷存储,从数据访问的频率和性能到介质寿命、数据恢复能力和耐久性,所有方面都有很大的差异。如果用户突然需要,冷数据可能会再次变热或变热。事件的这种转变使系统本身的使用变得复杂,并可能增加意外的成本。
近来,冷数据存储成为一个热门话题,原因有以下几个方面:
指数数据增长.国际数据公司(IDC)的分析师预计,到2020年,每年产生的数据量将令人难以置信地超过44 zettabytes,并将在此基础上继续加速。其中大部分数据都不是活动的,也不是经常被访问的,大约80%或更多的数据是非结构化数据,其中很多是由安全视频和日志文件之类的机器生成的。
主要存储消耗。存储是数据中心消耗的唯一技术。大多数数据将在其生命周期中停留在它到达的第一个存储上,本质上是永远的。即使主存储被刷新,冷数据也会转移到新系统,并继续消耗昂贵的主存储和NAND闪存SSD介质.
使用这些资产进行活动数据是完美的感觉,但不适用于很少的冷数据,如果有的话,访问。当使用冷数据消耗主存储时,必须为活动数据购买和实现更多内容。冷数据不需要主存储系统的高性能,低延迟和功能。
不幸的是,冷数据占用了主存储的大量数据。占用数据中心75% ~ 90%的存储空间。随着时间的推移,跟踪数据的热图显示,数据在创建后的72小时内是最热的。它从那里迅速冷却,30天后变得相当冷,90天后实际上是冷的。
包鼠综合症。IT组织不愿意丢弃数据。有一种潜在的焦虑,即任何扔掉的数据都会突然被需要。这与所有数据都有价值的看法(对或错)密切相关。
法规遵从性。要求数据相关遵从性的新标准和法规正在增加。其中包括欧盟一般资料保护规例;纽约州针对金融机构的银行和网络安全法规;医疗保险可携性和责任法案;高科技的行为;巴塞尔协议I、II和III;萨班斯-奥克斯利法案;和OSHA。其中许多规定要求将某些类型的数据保存数十年甚至数百年。
非结构化数据分析。对于所有新数据的80%非结构化,找到一种方法可以为可操作的见解来找到一种方法。这导致了一个非结构化数据分析的爆炸据国际数据公司(IDC)称,2015年,来自这些产品的收入增长到了1250亿美元以上。为将来的分析存储这些非结构化数据必须具有成本效益。
成本效益:冷存储是实用的,因为存储冷数据的成本与其低价值相称。有几种冷数据存储系统和媒体选项可用,还有许多云服务选项。尽管每种方法都有其优缺点,但都降低了冷藏的成本,使其价格合理。
冷数据存储系统
冷数据存储系统已经存在了几十年,最初是大型组织使用的带有可移动媒体的自动化磁带库和光点唱机。正如非结构化数据呈指数级增长一样,冷藏系统也在不断进化以应对这一挑战。新的基于线性磁带文件系统(LTFS)和对象存储的冷系统已经出现。Facebook和开放计算项目该公司创立的开源硬件设计组织,已经成为这些新系统的主要驱动力(参见“冷库先驱”)。这些和其他的发展导致了四种类型的冷数据存储系统:
- LTFS前端自动磁带库(ATL)。对于ATL来说,LTFS或对象存储前端是一个小型的、相对可伸缩的本地缓存,对于应用程序和用户来说,它看起来和磁盘存储系统很像。在某些情况下,它可以提高写和读的速度,并提供与基于hdd的NAS或对象存储相似的性能。供应商包括Dell EMC、Fujifilm-StrongBox Data Solutions、富士通、惠普企业(hp Enterprise)、IBM、Oracle、Quantum、西门子和Spectra Logic。
- 瘦对象存储或扩展NASHDD系统。传统的对象存储具有无限的可伸缩性,并一直用于廉价、大容量的活动归档。精简版的存储服务器节点更少,用于冷数据存储。通过使用复杂的擦除代码,它提供了异常的数据持久性——通常高达99.999999999%,而且它所消耗的开销远低于多副本镜像。例如,在Hadoop存储中使用三重副本镜像,每个副本会消耗100%的存储空间。三份拷贝会消耗300%的存储空间。用擦除码防止三次并发故障最多消耗33%的存储空间,通常更少。无论底层媒体硬件如何,擦除编码也提供了极高的数据持久性。
供应商包括Caringo、Cloudian及其Aquari产品、DataDirect Networks、Dell EMC、Elastifile、Hitachi Data Systems、HPE、IBM Cleversafe、,NooBaa Inc .)、OpenIO、Quantum、Qumulo、Red Hat Ceph Storage、Rozo Systems、Scality、SwiftStack和Western Digital HGST。
- 瘦对象存储或扩展NAS 3D四层单元(QLC)闪存系统。这些新增冷数据存储系统将于2018年上半年上网。它们与瘦身对象存储硬盘系统类似,但具有关键差异。这三维QLC固态硬盘比hdd快得多,密度也大得多,是hdd的10到20倍,更重要的是,它们存储数据的方式非常不同。
SSD上最小的可写单元是PE (program erase)块,大小为512 ~ 256kb。当写入PE块时,数据不能被改变;必须先擦除PE块,并且只能发生有限次数的擦除。同时,写的次数是由每个单元的位数决定的。QLC flash被限制为每个PE块100到1,000个写操作。PE块比整个SSD硬盘更容易发生故障。擦除编码可以像处理驱动器一样处理PE块,但要做到这一点,需要在flash转换层进行修改。这种方法使得使用3D QLC固态硬盘的对象存储或扩展NAS在冷藏方面非常实用和经济。
Tachyum是目前唯一一家致力于3D QLC flash的供应商。
- 高度可扩展的光学档案冷库系统。光存储系统,又名光点唱机,已经跟上了冷数据爆炸的步伐。从历史上看,它们使用的是容量小、流性能慢的媒体。现在已经不是这样了。
光盘容量从100gb增加到300gb,预计在几年内将有500gb和1tb的光盘。十二个光盘捆绑在磁带样的墨盒中,每个墨盒可作为一个单独的存储驱动器寻址。一个自动点唱机可以使用几十到几百个这样的墨盒,并并行处理它们。这种方法提高了与竞争对手磁盘、磁带和ssd的传输或吞吐量性能,最高可达360 MBps。
高度可扩展的光学档案系统供应商包括松下和索尼。
冷藏成本效益
具有成本效益的冷库系统需要具有成本效益的冷库介质。这取决于容量密度——硬盘或SSD驱动器、磁带或光驱的原始容量——以及总拥有成本.TCO包括收购费用和支持基础架构成本,例如电源,冷却,维护和操作。
可移动介质,如磁带和光学墨盒,比hdd和ssd需要更少的电源和冷却。与hdd相比,高密度3D QLC闪存使用的是这两种设备的一小部分。在3.5英寸的尺寸下,hdd主要运行7200转/分,最高可达12tb。这些容量从4tb到12tb不等,俗称脂肪驱动器。
冷数据存储媒体选项
HDDS.每GB相对便宜,对于搜索或分析非常有效,并且与擦除编码配合使用时具有较高的数据持久性。但它们是机电设备,耗电量大,产生的热量过多,需要相应的大量冷却。它们的磨损寿命相对较短,且无动力驱动器无法将数据维持约四年以上。希捷、东芝和Western Digital提供高容量fat硬盘。
3D QLC闪存SSD令人难以置信的原始容量密集,需要更少的驱动器,机架,电源,冷却和人员支持。他们使用数据减少和擦除编码工作。制造厂的3D产量相对较低,与高需求相结合,保持闪存SSD价格高于预期,这反过来减少了3D QLC值主张。产量和供应量应增加2018年,导致价格符合冷库要求的价格。3D QLC闪存驱动器将可从SK Hynix,Micron-Intel,三星和Western Digition提供,其中首批在2017年送货。
LTO带墨盒是价格最低的冷库介质。随着LTO-10指定的磁带技术,性能随着每一个版本不断提高。fujifiland和IBM最近宣布的磁带密度的改进将使LTO在未来10年的某个时间将原磁带容量增加到330 TB,每盒压缩磁带容量增加到825 TB,使磁带更具成本效益。然而,使用磁带时,可搜索性和交互性能有限且缓慢,任何大量数据都需要大型机器人磁带库。当磁带从磁带库中移除时,搜索和分析变得更加困难,速度也慢得令人难以忍受。LTO-7磁带盒可从富士,IBM,索尼和这些供应商的oem。
光学媒体墨盒是最不可改变的媒体。它们具有最长的寿命,无数据丢失,范围从50到1,000年。吞吐量性能一直赶上HDD和LTO磁带盒电平。在缺点,供应商仅限于MDISC,松下和索尼,后者只有半停止致力。交互式性能仍然很慢,所有光学数据都有效永久。
LTO磁带目前为LTO-7,最高原始容量为6 TB,压缩容量为15 TB。3D QLC(每个单元4位)SSD还没有上市,但它承诺在2.5英寸的外形尺寸下可以提供128 TB的原始容量。光盘——蓝光、档案光盘和MDISC——的容量大幅增加。
冷藏云服务
冷库的复兴通常被认为是Facebook的功劳,但亚马逊网络服务(Amazon Web Services,简称AWS)可能更有推动作用。当AWS首次以每月1美分/千兆字节(现在是每月0.4美分/千兆字节)的低价推出冰川冷云存储时,它引发了云存储服务提供商之间的巨大竞争。
冷库先锋
Facebook,作为一个巨大的超大型,经历了冷数据的异常增长。它率先在HDD和3D四层单元(QLC)闪存SSD上实现了高度可扩展的光学瘦对象存储。Facebook继续努力提高其透明处理和管理PB到EB冷数据存储的能力,并将其开发的所有内容发布到OpenCompute.org。
该公司在hdd上使用了可大规模扩展的光点唱机和精简的对象存储。瘦身对象存储最小化存储服务器节点的数量,并最大化每个节点的驱动器数量,同时利用擦除代码。Facebook仍在用3D QLC固态硬盘完善瘦身对象存储。
Facebook的冷库系统设计已经商业化。这款高容量光点唱机由合作伙伴松下公司提供,目前可扩展到1.9 PB / 19英寸机架,预计到2020年将增加到6pb以上。合作伙伴Tachyum计划将Facebook正在开发的瘦身对象存储与3D QLC固态硬盘商业化。
今天,数十家公司提供各种类型的冷存储服务,包括hdd上瘦对象存储的变体。其他人使用LTFS磁带系统。所有这些都很便宜,从每月每gb 1美分到每月每gb 0.1美分不等。然而,根据系统读取和检索数据的速度,费用可以翻倍、三倍、甚至四倍。不过,这是一种冷数据存储,因此假设任何数据检索都是微不足道且很少的。冷云存储可以从所有主要的云供应商,包括AWS,谷歌,IBM, Microsoft, Oracle和更多。
非结构化数据管理和运动
非结构化数据必须从存储中移动,它最初存储到冷存储器上。这往往是劳动密集型手动数据迁移的临时挑战。每个数据移动都成为需要大量人员或专业服务或两者的主要项目。这样的项目可以花费超过将数据的节省到冷库,这解释了为什么冷库为寒冷市场。
然而,管理非结构化数据的软件已经改变了冷冰冰的数据格局。它根据访问次数和频率、数据的年龄和上次访问后的时间等策略,透明地将数据从主存储转移到冷数据存储。从原始存储中复制、移动和删除文件和对象,为活动的热数据释放该存储空间。用户和应用程序会自动链接到他们的数据。
该软件可以根据需要创建任意多的文件和对象副本,将它们推送到云冷数据存储、LTFS前端atl、光学点唱机和瘦身对象存储,而不管介质是什么。提供该软件的供应商包括Actifio, catalog, ClarityNow, Cohesity, Commvault, Enmotus, Komprise, Moonwalk Universal, NTP software,主要数据、Rubrik、海星、StrongBox数据解决方案和Veritas。
特别是非结构化的数据管理和移动软件,与新的具有成本效益的冷库系统和媒体相结合,使冷库变得实用。这让一度冻结的市场升温。
下一步
更多关于冷云存储选项
是云存档适合你的组织吗?
下一个是什么公共云存储?
相关资源
- 为不断增长的数据集创建数据归档过程-searchdatabackup.com.