自从有了它们,我的数据高枕无忧

2018年01月 · XSKY

自从有了它们,我的数据高枕无忧数据丢失素来是存储不可承受之重。软件定义存储解决方案不仅继承了传统存储成熟的数据保护技术积累,更面向海量数据时代迎来了更多创新。

数据丢失之殇

从IT时代演进到DT时代,一个最显著的特征是:数据正在成为最重要的生产资料。经过有效的数据挖掘和分析,它将为企业生产、经营、管理提供决策支撑。因此,在数据存储过程中,由于人员误操作或者系统本身故障所造成的数据无法读取、丢失等,毫无疑问将给用户造成重大损失。

根据EMC公司公布的一项全球数据保护研究报告显示,在2014年,企业因数据丢失和宕机造成的损失达1.7万亿美元,这一数字或相当于近50%的德国GDP。而自2012年起,数据丢失上升了400%。

来自国外IT Policy Compliance Group报告也同样表明,数据丢失会对企业业务造成巨大影响,公开披露了数据丢失的企业预计将导致其客户量及相关收入降低8%;对于上市企业而言,每股股价会下降8%;平均每丢失一个客户记录便会造成100美元的额外损失。调查显示,全球每年有近百万企业因数据丢失而倒闭。

继承与创新

在应对数据丢失、无法读取,保障用户业务的连续性和系统的高可性等方面,传统存储经过30多年的发展,在数据保护和高可靠性技术方面较为成熟。而随着传统存储加速向软件定义存储(SDS)时代演进,SDS不仅继承了传统存储完整的、多种级别的数据保护机制,并且拥有了包括对象存储多站点数据同步等更多的数据保护技术创新,确保用户能够无感知的使用存储系统,让数据更加安全。


以下列举了在当下主流的SDS解决方案中,部分应用广泛的本地数据中心保护方式和跨集群的数据容灾和备份保护技术。

1. 本地数据中心保护方式

1) 快照:总想拥有一部时间机器,犯了错误,坐上时光机重新来过。快照技术将这种想象变成可能。

快照是类似于拍照的一种数据保护技术,帮助客户实现在线数据意外删除、恶意修改或者病毒侵蚀的一种防止软错误的保护方式。业界主要有COW(Copy on Write)和 ROW(Redirect on Write)两种技术,两种技术在实现方式上的差距主要在当有新数据写入时COW快照会覆盖原数据,原数据写入快照空间,而ROW快照新数据会写入快照空间,原数据保持不变。

这两种快照技术在传统存储上差异还不是很大,但是在分布式场景下ROW快照后的连续读写的性能会比COW有一个非常明显的提升,我们通过对比某分布式COW快照,XSKY的ROW快照后的性能是该分布式COW快照后的260%。

2) 克隆:

克隆彷如复制一个一模一样的你,不仅外貌相同,性格、喜好、记忆等一切都如出一辙。

克隆是针对某一个数据卷做一份完全一致的卷,实现对源数据卷的完全本系统内数据克隆,可以实现不改动原数据的情况下,在线的更改数据。

XSKY提供链接克隆机制,支持基于一个卷快照创建出多个克隆卷,各个克隆卷刚创建出来时的数据内容与卷快照中的数据内容一致,后续对于克隆卷的修改不会影响到原始的快照和其他克隆卷。克隆卷继承普通卷所有功能:克隆卷可支持创建快照、从快照恢复以及再次作为母卷进行克隆操作。

3) 副本:

投资上有句俗语叫把鸡蛋放进不同的篮子里,以此降低风险。副本技术允许针对灾难恢复在服务器或群集之间进行卷的复制,能够确保灾难发生前或者发生后,通过切换到安全位置,防止数据的丢失。

XSKY支持用户数据按照设定的1-6副本进行冗余存储。如下图所示,以3个节点组成一个资源池,存储数据为两副本的简单模型为例,任意1个节点上的主副本数据,其备副本数据会均匀分布在其他节点上,单点故障系统不会丢失数据。

XSKY 数据三副本存储示意图

XSKY 数据三副本存储示意图XSKY系统数据持久度在两副本场景下,达到4个9,在3副本场景下数据持久度达到7个9。

4) EC纠删码:

医院看病的流程是先挂号,再去看医生,最后是缴费再到窗口拿药。如果你一上来就去拿药,工作人员会告诉你流程不对,需要按照正确的流程最后来拿药。EC纠删码技术如同预先设定好的医院看病流程,一旦发现数据没有按照这套流程运转(数据报错),将报错并要求按照预定流程执行(数据恢复)。

XSKY支持“N+M”的纠删码,可以任意配置不同故障等级的纠删码,提高磁盘空间的利用率。


5) 故障域隔离设计:

赤壁之战中,曹操的战舰面对火攻时,如果有故障域隔离设计,就不会有火烧连营,当然历史走向也将截然不同。

故障域指有共同单点故障的服务器(如同一个机架)组成,数据副本分布到不同故障域,保障数据安全,可以为机架、服务器、硬盘提供故障恢复能力。无论磁盘、服务器发生硬件故障,甚至整个机架出故障,也不会造成停机或数据丢失。

下图每个机架设置成一个故障域,如果创建一个2副本存储池,则不同副本数据一定会自动化分放在不同的机架里,这样即使机架A出现故障(如断电),也不会停机或数据丢失。


XSKY多故障域示意图

6) 数据强一致性:

任意时刻,所有节点中的数据是相同的。

XSKY采用强一致性复制协议来保证多个副本数据的一致性,即只有当所有副本都写成功,才返回写入磁盘成功。正常情况下XSKY保证每个副本上的数据都是完全一致,从任一副本读到的数据都是相同的。如果某个副本中的某个磁盘短暂故障,XSKY会暂时不写这个副本,等恢复后再恢复该副本上的数据;如果磁盘长时间或者永久故障,XSKY会把这个磁盘从群集中移除掉,并为副本寻找新的副本磁盘,再通过重建机制使得数据在各个磁盘上的分布均匀。

2. 跨集群的数据容灾和备份保护

1) 同城全局数据双活数据中心-延展集群:

大型连锁商超为了保证城市中各分店货品供应,在同城建立两个及以上的货品仓储中心。当节假日其中一个仓储中心遇到轮休,立即由其它的仓储中心来调配商品。由于各个中心的货品储备都是相同的,对于消费者来说不会因为其中的一个中心轮休,而发生买不到商品的情况。

XSKY数据双活——延展集群方案,将存储资源部署在2个数据中心,单套存储系统统一管理两个数据中心的资源,通过数据副本方式,将副本同时分布在不同数据中心,保证数据强一致性,实现存储双活数据中心架构,同时实现了RPO=0的目标。

主机集群可通过两边存储集群同时访问同一个虚拟卷,上层主机集群可跨站点部署在两个数据中心。任何数据中心存储故障,存活数据中心自动接管业务。

延展集群还需要1个仲裁节点,仲裁节点只存放元数据,不存储业务数据,它的作用是和2个数据中心建立心跳机制,当其中1个数据中心故障或网络异常时,判断并决策如何保证高可用,仲裁节点可以是虚拟机。如下图:

架构图

2) 同城关键数据双活数据中心-卷同步复制:

为了保证一致性供应,主仓储中心和其他中心在货品类型、数量上保持实时同步,一旦主仓储中心有任何的新货品调入,其他中心也同步跟进调入。

XSKY数据双活——卷同步复制方案,需要部署2个存储集群在不同的数据中心,通过配置卷同步复制策略使主卷和复制卷数据实时同步,保证数据强一致性,实现存储双活数据中心架构,同时实现了RPO=0的目标。

任何数据中心存储故障,存活数据中心自动接管业务。如下图:


同步复制架构图

3) 对象存储多站点数据同步:

当商超发展规模更大,甚至在跨地域开设了更多分店。仓储中心会根据就近原则设置,例如华东区仓储中心就近负责华东区门店的货品调配,当华南区调入新款商品时,由于距离原因采取隔天或者隔周的方式同步补齐华南区的相应产品。

对象存储多站点数据同步是指多个对象存储集群全局共享统一的用户和存储桶信息,实现集群内数据就近读写访问,集群间数据异步复制容灾,提供全局对象存储访问服务。


4) 远程备份&云归档:

商超所覆盖的区域越来越广,有些货品到当地仓储中心的拨备甚至需要用到空运或者远洋船运输。为了节省运输成本以及考虑到更远地区消费者的接受,同样的货品需要考虑更换包装和重新打包整理。

XSKY数据远程备份——远程方案,需要部署2个存储集群在不同的数据中心,通过配置定时备份策略将块存储卷备份至远端数据中心,通过跨数据中心或云端的存储提供更高数据安全性。并且可与公有云对接,通过兼容Amazon S3接口,无缝对接云计算生态,满足云备份、云归档场景需求,同时兼容NFSv4协议,允许S3与NFS互操作,并支持主要备份软件,应用在本地备份、归档场景。XSKY同时提供去重、压缩、加密的功能来减少至多60%的数据量,降低用户的TCO。


5) 数据备份

商超自身旗下不同地区仓储中心的备份,随着业务进一步发展,甚至租用其它品牌仓储的备份,各种手段确保供应。

XSKY可与备份软件对接实现备份的同时,支持将块存储的数据备份到对象存储中,也支持将对象存储桶(bucket)的数据复制到另一个对象存储桶中,当业务资源池发生停机故障时可以从备份资源池恢复数据。

完整保护,数据无忧

早在2007年,国务院信息化工作办公室领导编制的《重要信息系统灾难恢复指南》正式升级成为国家标准《信息系统灾难恢复规范》(GB/T 20988-2007 ),这是中国灾难备份与恢复行业的第一个国家标准。从本地备份0级别到数据同步,应用可自动切换的第6等级,“标准”对数据容灾保护划分了7个等级。而随着技术的不断成熟,在7个等级之外应用双活正在成为时下对业务连续性要求高的行业客户(如金融等行业)广泛应用的数据保护技术。


XSKY SDS产品数据容灾能力完全符合我国《信息系统灾难恢复规范》(GB/T 20988-2007 ),完整的本地数据中心保护方式和跨集群的数据容灾和备份保护,轻松助力用户应对未来IT扩张建设。


XSKY完整的数据保护功能