XGFS支持文件、对象和大数据协议三通, 助力企业降本增效

2022年03月 · XSKY

协议互通诞生的背景


近年来,随着云计算、大数据、人工智能等技术的飞速发展,同以往单一的结构化存储相比,非结构化文件存储和对象存储能存储丰富多样的数据类型。同时,由于各种非结构化数据利用技术的进步,传统的数据处理过程正在被重构,一次数据处理会涉及到文件、对象、大数据等多种格式的数据。同时,企业存储从数据处理成本和效率上,也希望能借助实现文件格式的数据、大数据格式的数据和对象格式的数据的互通,即文件、大数据、对象协议互通通过数据零拷贝并减少数据冗余,实现真正意义上的降本增效。

协议互通典型场景举例:自动驾驶


协议互通使用场景广泛, 以自动驾驶场景为例,路测返回的原始数据是文件格式,需要先转换为HDFS格式,才能利用大数据集群做预处理。预处理后的数据载转换为文件格式,导入到AI训练集群和验证仿真集群进行训练和验证。最后再将验证结果数据转换为HDFS格式,导入到大数据集群做结果分析。通过分析结果去对自动驾驶算法并进行部署,过程中涉及到多种数据格式的转换和多集群之间的数据导入导出。 其他泛制造行业数据处理存在类似的数据格式转换和数据导入导出的需求。通过协议互通,可以有效地降低数据格式转换的工作,并减少导入导出,降低数据冗余度,实现真正意义上的降本提效。

图片1.png

什么是协议互通

  • 统一资源模型:统一硬件资源池 + 统一命名空间,文件、对象、大数据使用统一的资源模型;

  • 统一命名空间:针对同一份数据,可以同时支持应用使用文件、对象、大数据协议访问的能力。

XGFS 协议互通

XGFS(XSKY星辰天合文件存储,简称XGFS) 基于文件语义之上实现 NFS、S3 和 HDFS 等协议,使不同生态的计算应用真正可以运行在一套存储集群之上,并且数据层面可实现 “零拷贝”,并且所有协议都可以同时写同一个目录。

XGFS协议三通实现原理

分布式全协议存储系统 XGFS,支持单一命名空间百 PB 容量、百亿文件数,同时可以做到多协议互通。XGFS 通过自研分布式网关集群,除了支持 POSIX、SMB/CIFS、FTP 和 NFS 协议以外,还新增了对 S3 协议和原生 HDFS 协议的支持。利用 XGFS 全协议互通能力,可以面向新型互联网业务、大数据业务和 AI 业务等复杂、复合型业务场景,构建“生产和发布基于一个数据集”的全新工作流。

图片1.png

如上图所示,XGFS 对上层将提供统一的元数据管理模块和数据存储池,通过分布式网关集群,统一对上层提供各种协议服务和XGFS的其他高级特性。在分布式网关集群中,统一语义层将提供统一的用户、权限、命名空间和 XCACHE 读缓存。网关集群将 NFS、HDFS、S3 协议操作经过转换,在统一语义层进行用户认证和鉴权,最终,不同协议共享同一套用户、权限、命名空间和统一的读加速缓存,实现协议互通。

例如,在 XGFS 界面创建一个本地用户后,可以配置开启S3协议访问权限,也可将同一文件目录通过不同的文件协议共享出去供不同的上层应用访问,且每个协议均可访问其他协议上传的文件。例如在 S3Browser 上可以看到桶中由 HDFS、CIFS 或 NFS 协议写入的文件。

XCACHE ——多协议共享读缓存加速

XGFS支持对文件系统中任意目录开启读缓存加速,读缓存将缓存文件的数据和元数据,支持在文件网关或专用客户端上开启读缓存加速。数据读缓存支持多种预读策略自适应:顺序、跨步。数据读缓存支持基于高低水位的回收策略。用户可根据实际需求进行调整,同时支持目录预取策略(全预取、基于filename、mtime)。

图片1.png

如通过在统一语义层增加XCache内存缓存,能够缓存访问过的文件元数据和数据,前端协议下发读操作时如命中缓存可直接返回客户端,无需再访问后端元数据集群和数据集群。支持目录树缓存,针对客户端的路径读取请求,能提前并批量的将文件列表加载到XCache目录树缓存中,加速客户端的目录文件list操作。例如,当 NFS 协议操作访问过某一文件的数据后,该文件的元数据、数据、文件目录将会保存到统一语义层的内存缓存中,后续其他协议类的操作需要读取该文件数据时,可直接命中缓存返回,无需再访问元数据集群和数据集群,减少访问路径,提高数据读取效率,为不同协议的数据读取操作提速。

协议三通带来的客户价值

  • 简化数据管理

XGFS 分布式存储系将提供统一命名空间,支持百 PB 容量,百亿文件数。简化存储的规划、配置、运维,运维管理团队不需要为不同的应用维护各种协议的存储系统,降低运维工作量。

  • 加速数据流动

针对不同的协议应用,提供统一的数据存储池,多样性数据就地分析,数据零拷贝,数据分析效率将大幅度提升。

另外,XGFS 在统一语义层实现了XCACHE缓存加速技术,不同协议使用相同的缓存,将有效提升数据读处理的性能。

节省存储资源

通过共用硬件资源池,提升存储资源利用率,同时,避免数据拷贝产生的冗余副本,提高磁盘使用率,实现端到端地节省存储资源。

  • 更好的支持信创场景

XGFS 通过全用户态网关架构的实现,可以更好的兼容信创场景。

小结


在计算应用生态越来越多样化的今天,对存储产品的协议互通能力有了越来越高的要求。XGFS作为一款真正实现多协议互通的存储产品,不同协议之间的语义转换更加完善,而且支持多协议同时写入,应用场景更加广泛。

XGFS不仅可以帮助客户应多复杂多变的业务场景,还能通过数据跨协议 “零拷贝” 实现降本增效的目标,从容应对数据爆炸带来的挑战。