技术文章

BLOG

已连续五个季度第一,对象存储为什么是它?

2018-11-16 · XSKY

​​​根据IDC《中国软件定义存储及超融合市场跟踪报告》显示,从2017年H1开始(注:IDC从2017年Q2开始单独对SDS&HCI拆分报告),到2018年H1已经连续五个季度,XSKY X-EOS在对象存储市场名列榜首,为什么是X-EOS?

一、对象存储是未来

对象存储可为企业提供全面的云存储安全服务,其可扩展的性能、先进的数据存储和管理功能,使企业可以轻松管理海量非结构化数据,并且根据数据生命周期内的价值和不同阶段形成合理的层级,实现数据按需流动和按需数据保护设置,快速满足各类客户定制化需求和ISV打包集成的服务需求。

XSKY认为对象存储是未来,并促进对象存储平滑落地,帮助企业进行架构革新。

  • 通过优化软件算法,最大限度发挥硬件性能、提升存储利用率。
  • 通过丰富的API,提供完善的应用对接,满足多样化需求。
  • 软件定义,TCO可控,为用户提供更多选择。
  • 高可靠、高性能、高扩展、高效、智能。

为此,X-EOS 提供经济实惠、综合全面的对象存储解决方案,用于解决广泛用例中不断增加的非结构化数据存储难题,这些用例包括分析、归档、备份、云存储和内容分发。

二、高可靠

X-EOS基于数据强一致性算法,支持多副本、EC、故障域、多版本和WORM,同时具有数据双活、多站点等灾备方案,多种功能组合保障数据的高可靠性。

副本

X-EOS支持数据以多副本形式保存,支持在线变更副本数量,副本数的增加可以提高数据的可靠性与并发访问的性能,用户可根据数据的重要性和TCO要求,按需选择存储的副本数量,并实现在线变更,满足企业用户的灵活需求。

EC

X-EOS 的EC(Erasure Code)冗余基于里德所罗门算法(Reed-Solomn), EC纠删码采用RS(K,M),其中K是数据块数量,M是数据校验块数量。X-EOS默认提供覆盖大部分场景的RS(2,1),RS(4,2),RS(8,3),用户也可以对K和M的数值进行自定义。

故障域

一组有共同故障点存储设备称为故障域。不同故障域可以提供不同级别的安全性,X-EOS节点级别、机柜级别、数据中心级别的故障域设置,用户可根据业务规模、业务SLA、数据安全等保要求对故障域进行设置。

多版本控制

版本控制是在相同的存储桶中保留对象的多个变量。 用户可以通过多版本控制功能来保存、检索和还原它们的各个版本。轻松从历史版本中恢复数据,规避用户意外操作和应用程序故障造成的风险和危害。

WORM

WORM技术的全称是Write Once Read Many(一次写入,多次读取),通过WORM技术存储在介质中的数据,将不会因各种意外而丢失或被修改,保证了企业对一些重要的业务数据长期存储的需求,满足数据存储的法规遵从。

数据双活

X-EOS支持以延展集群的模式实现存储双活,延展集群把传统在一个机房内的数据中心,延伸到园区内多个数据中心,可容忍整个数据中心的故障,同时实现无数据丢失和近乎于零的宕机,满足企业级高可用。

多站点跨域复制

X-EOS可实现跨地域数据异步复制,确保跨多个区域的业务连续性和工作负载数据可访问性。适用于医疗数据共享、跨区域信息汇聚、协同作业。

加密压缩引擎

X-EOS加密压缩引擎提供异步的数据加密、解密和数据压缩、解压缩功能,支持AES256加密算法和Snappy压缩算法。存储转换引擎使用加密压缩引擎,数据压缩后传输,减小数据传输量,节约网络传输带宽,数据加密后传输,保护数据安全。

三、高性能

相对用于数据归档保存的对象存储产品,高性能是X-EOS的另一个特点。XSKY支持分级存储、负载均衡、同时具备能够保障性能输出的重平衡QoS,能够优化读性能、最大化磁盘利用率的数据归并策略。

分级存储

在对象存储中,单SATA盘(4TB以上)可以存储上亿个海量小文件,超大规模的小文件处理对读写性能有较高的要求。X-EOS具有针对海量小文件而优化的算法,基于策略将不同大小的数据进行分级存储,充分发挥硬件性能,提升了小文件的处理性能。

自动负载均衡

负载均衡是建立高负载分布式存储的关键性技术。X-EOS负载均衡技术通过设置虚拟IP(VIP),将后端多台服务器虚拟成一台高性能的应用服务器,通过合理的均衡算法,达到资源使用最佳化、吞吐率最大化、响应时间最小化、同时避免资源过载的目的。

重平衡QoS

X-EOS对象存储内置重平衡QoS,当分布式存储集群出现故障时,X-EOS可基于策略进行数据重平衡,将数据重新分配至集群内,实现对性能资源的精细化管理。

四、高扩展

X-EOS具备大规模的可扩展性,基于通用x86平台的分布式架构可以降低总体拥有成本,减少管理 PB 规模甚至 EB 规模存储容量的复杂性。X-EOS初始部署时的成本很低,从3个节点起步,支持无需业务中断、数据迁移的在线扩容,能够应对非结构化数据快速增长的企业的存储需求。

冷热分池

针对不同的数据类型,X-EOS可将不同性能、容量、功耗的硬件设备构建不同资源池,以热数据池、温数据池、冷数据池的形式提供高性能、大容量、低功耗的存储资源。

整池扩容

存储系统扩容时,为保证系统的整体利用率系统会进行数据重新平衡操作,而海量数据重新分布将造成集群网络资源的极大浪费,当小文件比例较大时,这种重平衡会对网络造成灾难性影响。X-EOS可按照存储池进行扩容,在不改变用户调用数据方式的情况下,实现无感知扩容。

云分层

X-EOS对象存储支持海量数据冷热分池,并提供云分层策略优化存储成本,可以将支持标准S3协议的公有云存储作为X-EOS分层存储的存储介质,打通企业私有云和公有云,构建数据混合云。

全球统一命名空间

X-EOS在跨区域复制的基础上提供了全球统一命名空间的功能,支持将不同地理位置的存储通设置为源端和目标端,源端和目标端具有一致的原数据信息,具备异地/远程容灾方案,增强数据整体安全性。

架构永新

通常,为了降低CAPEX,用户会通过多供应商的存储解决方案来降低硬件采购成本。但是引入多厂家竞争的同时会增加更高的学习成本,造成OPEX大幅提升。相对传统存储,X-EOS能够采用主流通用x86服务器平台进行部署。用户可自主选择服务器品牌和型号,无需漫长的采购周期,一套软件实现架构常新,将企业资源投入在主营业务创新,而非基础架构。

五、高效

化繁为简

X-EOS提供基于Web的可视化安装、管理和运维使得数据中心管理员能快速精确地掌控分布式存储底层复杂的硬件。用户只需具备传统存储管理员的入门级基础,即可胜任系统的安装部署、日常管理、监控审计和升级扩容等工作。

硬件监控

X-EOS能够对存储系统中的所有服务器集中管理,通过全图形化界面监控存储池状态、硬件拓扑、网络拓扑等信息。并针对存储硬盘,提供硬盘定位功能,实现对故障硬盘的精确定位,极大简化了对超大规模集群的管理和维护工作。

自我检测

X-EOS具备自我检测的功能,具有硬盘S.M.A.R.T检测、快慢盘检测、磁盘SCSI错误处理、硬盘热插拔和识别处理、磁盘扫描等,上层业务能够根据Smart Data返回的相关IO错误和磁盘状态信息,完成读修复、有效数据磁盘扫描及纠错、Smart超阈值告警和处理。

自我修复

X-EOS具备自我故障修复的功能,当系统出现坏盘、节点宕机等异常时,系统自动重平衡数据,保障数据的安全的同时,具备智能读修复功能(Read Repair)。此外,通过对数据进行读取扫描,可以防止静默数据错误(Silent data corruption),如果扫描失败出现坏道(返回扩展的EIO),则进行更细粒度的扫描出具体是哪些扇区故障,针对故障扇区进行读修复。

六、智能

X-EOS是XSKY软件定义存储和数据湖基础架构重要的一环,除了提供高可靠、高性能、高扩展的对象存储,X-EOS还具备完善的对接生态的API,实现传统应用及云原生应用的兼容性。

对象查询

对象存储系统可以不需要文件名、日期和其他属性就可以查找文件。还可以使用元数据满足应用服务水平协议(SLA),路由协议,备灾和灾难恢复,数据生命周期管理以及自动存储管理的需求。这些是文件系统所不能解决的问题。X-EOS能够根据对象的元数据(key,日期,大小,自定义元数据等)、标签等信息查询到对象键值(key)列表,进而实现对象查询。

生命周期管理

数据具有价值属性。对海量非结构化数据的精细化管理是存储的难题之一,而在数据生命周期内,不同时间、不同应用场景下数据价值也可能完全不同。数据不能存储变成冷数据,而应该是合理流动,存储到最合适的位置、最合适的存储介质上,在节约存储管理成本的同时最大化发挥数据价值,X-EOS内置基于对象属性的生命周期管理,同时提供数据生命周期管理Lifecycle API,满足用户对海量非结构化管理的需求。

数据策略管理

海量非结构化数据是数据建模、大数据分析的基础。大数据分析是指对规模巨大的数据进行分析。大数据可以概括为4个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)。随着大数据时代的来临,大数据分析也应运而生。基于软件定义存储架构的X-EOS具有4V属性。X-EOS提供业务适用的数据策略管理API, 基于X-EOS数据策略管理,用户可轻松构建数据湖基础架构,进而满足大数据、人工智能、机器学习对数据平台的需求。

Make Data Alive

作为XSKY数据湖基础架构的一部分,数据在X-EOS进行存储后,X-EOS会提供有效的数据治理手段,通过给数据打标签的方式可以灵活扩展数据的元数据信息,以便于快速检索和提取数据。通过定义数据存储策略,使得原始数据、分析中间结果数据、最终分析结果数据,按照已经识别出的数据价值不同,存储到不同类型的存储介质组成的热池、温池、冷池中,提高存储利用率,降低存储成本,提供数据全生命周期的价值挖掘支撑。​​​​