- 与您的网络共享此项目:
- 下载
存储
.休克-足趾痛
建立一个IT弹性计划,使之成为一个永远在线的世界
在当今的24/7业务周期中,多管齐下的方法是防止无法承受和不可接受的停机的最佳保护。
恢复点目标和恢复时间目标的概念越来越过时。当今高度互联的世界迫使大多数组织确保IT弹性并使其资源持续可用。更重要的是停机时间继续增加对许多组织来说已经变得无法接受,甚至负担不起。
A.2016年研究据Ponemon Institute估计,数据中心停机的总成本约为每小时740357美元,略高于类似的成本2015年研究通过云备份和灾备服务提供商Infrascale。该研究还指出,宕机可能非常昂贵,它计算出数据中心宕机平均每分钟给企业造成的损失为8851美元。
对于大公司来说,损失可能是惊人的。2016年一次大修费用达美航空公司1.5亿美元。
该研究还指出,企业从灾难中恢复平均需要18.5小时。考虑到停电每小时的价格,从灾难中恢复的成本可能是惊人的。因此,it行业正从旧式备份和恢复计划向灾难恢复或恢复计划过渡,这并不奇怪业务连续性规划.
使资源持续可用,并专注于IT弹性为了避免失败,需要广泛的计划。关键是确定可能发生故障的点,然后制定应急计划。没有什么灵丹妙药可以完全防止失败。相反,它优点应侧重于建立深入保护的多层流程。
实现数据中心冗余
建立。的第一步IT弹性计划识别可能导致停机的潜在问题,然后使用冗余作为对策。举一个简单的例子,组织通常通过使用磁盘镜像. 类似地,您可以利用故障转移群集来防止节点级故障,或者利用备份生成器来防止电源故障。
然而,与冗余一样重要的是,仅仅冗余并不能提供真正的IT弹性。即使整个数据中心中的每个组件都受到冗余组件的保护,数据中心本身也可能成为失败点.
建立数据中心恢复能力
在发生导致主数据中心丧失能力甚至破坏的事件后,各组织必须有一种方式继续正常运行。最简单的说,这意味着能够将操作转移到备用设施。
您可以通过几种方式实现这一点。一种流行的选择是使用距离聚类。这种技术背后的基本思想是故障转移集群可以拉伸,群集节点可以放置到远程数据中心。如果发生数据中心级故障,则集群上运行的高可用性工作负载可能会自动故障转移到远程设备。
虽然距离集群是一种成熟的技术,但您可能会发现它很难实现。要求不仅在供应商之间有所不同,而且在不同的软件版本之间也有所不同。然而,通常需要计划的一些更紧迫的问题包括遵守集群的距离和延迟要求,根据需要安排集群节点法定人数--同时也防止裂脑综合征——并为集群节点提供存储连接。
有时用于确保数据中心恢复能力的另一种技术是存储复制,由Dell EMC和NetApp等供应商提供。不过,复制不必在存储设备级别进行。虚拟机监控程序供应商(如Microsoft和VMware)包括采用硬件无关方法的内置复制。通过这样做,可以将虚拟机(VM)复制到替代数据中心或云。
主机或客户集群提供更好的保护吗?
管理员经常争论是使用VM主机集群还是来宾集群来提高可用性。
在服务器虚拟化之前,应用程序群集(在Windows故障转移群集上指定群集角色的应用程序)主要确保应用程序可用性。但是,VMware和Microsoft等主要虚拟机监控程序供应商现在在虚拟化主机级别提供群集功能,从而允许虚拟机在主机级别出现故障时故障转移到备用主机。这项技术几乎可以使任何虚拟机高度可用:
- 客群模拟使应用程序具有高可用性的遗留集群。这些故障转移集群节点运行在虚拟服务器上,而不是专用的物理硬件上。
- 主机集群,从表面上看,似乎消除了对来宾集群的需要,因为它们独立于任何应用程序级保护机制,为运行在集群中的vm提供了高可用性。但是,重要的是要考虑到,虚拟机主机集群保护虚拟机免受主机级故障的影响。它们无法保护应用程序免受vm级故障的影响。来宾集群通过将高可用性扩展到应用程序,而不仅仅是VM,提供了额外程度的保护。
并不是每个工作负载都支持集群,但是对任何可以实现高可用性的工作负载启用客户机集群对您是最有利的。此外,管理程序还应该是集群的(主机集群),以保护虚拟机不受物理服务器故障的影响。
您还可以通过擦除编码防止故障。擦除编码的工作原理类似于阵列奇偶校验,只是数据在多个数据中心或多个云之间被分条。它提供了两个明显的好处。首先,它允许您在远程位置存储数据的多个副本。管理员通常可以指定所需的冗余拷贝数或可能需要容忍的故障数。
擦除编码的另一个优点是它可以帮助确保敏感数据的安全。如果一个组织决定存储公有云中的数据,然后擦除编码可以构造数据,这样就没有一个云提供商拥有完整的副本。相反,擦除编码将数据片段分散在多个云中,具有足够的冗余,允许在不中断服务的情况下发生一个或多个云级故障。
持续备份和即时恢复
尽管近年来越来越强调复制和连续可用性,但备份和恢复仍然至关重要。尽管复制会创建组织资源的冗余拷贝,但冗余并不能减少对时间点恢复的需要。例如,如果勒索软件对组织的主数据中心内的数据进行加密,则所有受影响的数据都会快速复制到所有冗余副本。消除损害的唯一切实可行的办法是恢复数据到一个更早的时间点。
尽管备份和恢复以各种形式存在了几十年,但“始终打开”的环境需要具有即时恢复功能的连续数据保护。
Windows Server 2016中的存储弹性
尽管经常被忽略在新的操作系统功能列表,微软设计的Windows Server 2016是对短暂的存储故障具有弹性.这是因为,除了超融合基础设施部署外,虚拟化主机很少将虚拟机存储在本地存储上。因此,与外部存储阵列的连接可能成为故障点。
在Windows Server 2012 R2和更早版本的Windows Server操作系统中,Hyper-V虚拟机在读取或写入虚拟硬盘时遇到故障会崩溃。
然而,在Windows Server 2016中,有一种保护机制可以防止短期存储故障。如果虚拟机突然无法读取或写入其虚拟硬盘,那么虚拟机监控程序将执行与创建虚拟机快照时类似的操作。虚拟机监控程序“冻结”虚拟机,从而保留虚拟机的状态。
当存储再次可用时,VM将“解冻”,其操作将继续,就好像什么都没有发生过一样。虽然最终用户确实无法访问虚拟机,但冻结、短暂、暂时的故障(以前可能会导致崩溃)现在可能会被忽略。
连续数据保护通常基于更改的块跟踪。如果创建或修改了存储块,则该块将作为备份的目标。与以往常见的在非高峰时间执行单一的单片备份不同,数据的备份也是连续的同步或异步地.
即时恢复允许您几乎立即恢复一个或多个虚拟机,而不必等待传统恢复完成。即时恢复基于大多数企业都是高度虚拟化的,并且在备份目标中存在vm的完整副本。因此,需要执行恢复操作的组织可以直接从备份目标(从预定的时间点)挂载虚拟机。这允许即时访问数据,而更传统的恢复在后台进行。
为了保持备份的完整性,从备份运行的VM中发生的任何写入操作都会重定向到专用虚拟硬盘,通常是连接到VM主虚拟硬盘快照的子虚拟硬盘。这会阻止备份虚拟机的副本被修改。当完全恢复完成后,立即恢复开始后发生的写操作将合并到虚拟机的虚拟硬盘上。此时,用户会话将从备份虚拟机重定向到新恢复的主虚拟机。
如今,大多数主要备份供应商,包括Veritas、Commvault和Veeam,都提供即时恢复。
制定IT恢复计划所涉及的不仅仅是实施旨在提供持续可用性的技术。实现真正IT恢复能力的唯一方法是通过实施应对措施(如数据中心故障切换和对任何潜在故障点的即时恢复功能)深入实施保护。
下一步
备份的供应商为数据中心准备了大量的产品吗
确定足够的数据中心冗余
数据中心中断航空公司提出备用问题
相关资源
- Kapsch采用基于消费的路由到数据中心刷新hewlett Packard企业
- 公园服务使数据中心保持健康-公园广场