福建公安亿级文件统一数据平台实践

2019年07月 · XSKY

1996年至今,20多年时间里汤姆·克鲁斯主演的《Mission Impossible》(不可能完成的任务,国内又译名为“碟中谍”)系列依然经久不衰。

图片来源网络

在这部系列电影中,不仅主创人员不断突破和挑战不可能完成的各种极限动作场面,票房也是屡屡刷新不可能完成的记录,已经上映的6部电影中就有5部登顶全球影史最卖座间谍电影系列。

图片来源网络

而现实中,同样致力于打击犯罪、维护安全的福建省公安也迎来了一次别样的“不可能完成的任务”—— 当前的两个存储集群,仅完成部分应用数据迁移,就已经保存了5亿多个文件,并且大部分是从几kb到几十kb大小左右的小文件。

海量小文件存储在文件检索,权限管理,生命周期管理,数据重平衡,运维,存储成本,读写性能等多方面给客户带来了巨大的挑战……

亿级小文件

福建省公安信息化建设采取省级集中建设应用的方式,全省共用信息系统的软硬件均部署在省厅信息中心进行运行和维护。

目前,中心内运行着支撑全省公安工作正常运行的核心应用系统近数百个,部署着大型机、小型机、服务器、存储、网络及安全等各类硬件设备达数千台。全省公安90%以上的公安信息化应用支撑均由省厅信息中心提供。

随着数据的集中和业务的发展,其多年运行积累下来的警务数据及其相关的社会参照数据,如卡口、视频、犯罪人员、社会比对等数据量正在快速增长。以人脸识别和常住人口信息管理2个应用系统为例,目前各自保存的文件数量均达到2亿,且大多都是小文件。

此外,像交通治安卡口,车辆管理,出入境信息管理,全省户籍档案等应用也都存在着海量的文件数据,初步预计仅全省户籍档案单个应用就将形成超过20亿个文件,也多数是图片、文档一类的小文件。

面对不断激增的各类公安应用数据,尤其是海量的小文件存储,客户面临着以下挑战:

  • 数量众多的各品牌存储设备形成存储孤岛,数据无法自由互通与调用,无法统一进行存储规划,管理运维复杂;
  • 存储扩展性受限,扩展弹性不足,无法满足数据的迅速增长需求;
  • 亿级甚至未来数十亿级小文件存取,现有存储遇到性能瓶颈。

云化方案

在整体解决方案上,客户决定运用云计算相关技术建设公安云计算平台,构建高性能、高弹性、可管理、自动化的数据中心硬件支撑基础环境,为各类公安业务应用系统提供安全、稳定、可靠的运行环境。

同时,将新增设备和现网可用的计算节点设备纳入云平台和云监控管理平台统一管理,初步形成符合公安部标准的云计算基础平台。

在存储方面,客户希望通过引入先进的分布式软件定义存储(SDS)技术,将分散的存储介质聚合形成统一、可方便管理的存储资源池,利用统一的多访问接口实现一套存储支撑上层虚拟化、非结构化数据等多种工作负载,并且支持利旧,最大化保护前期投资。

XSKY为客户部署了1PB容量 XEDP统一数据平台解决方案。通过块存储FC,iSCSI接口对接上层VMware虚拟化,内部门户网站,车辆管理系统等应用,底层采用部分利旧服务器设备。

针对海量非结构化小文件的存储需求,使用S3接口,采取对象的方式进行保存和读取,硬件平台采用了华为FusionServer 2288H V5型号2U2路机架服务器。

目前,对象应用划分成2个存储集群,分别对应客户公安网(仅供内部使用)和互联网(可对公众提供服务,例如公安信箱,未来需要接入的车辆违章查询等),先期迁移的应用数据对象分布在近30个桶(Bucket),文件大小从几kb到几十kb不等。

对象存储先期支撑的应用包括人脸识别,常住人口信息管理,交通治安卡口等,未来逐渐将出入境信息管理,户籍档案等更多应用和数据迁移到对象存储中。

以人脸识别应用为例,其通过摄像机采集人脸图像进行快速的人像比对,能够有效的提高公安系统打防管控能力,解决传统的依靠人工方式比对识别人脸信息的繁重工作。但是人脸识别应用涉及到采集海量的kb大小的人脸图像文件,属于典型的小文件应用场景。

针对小文件,XSKY对象存储系统可自识别文件大小,实现小文件归并存储,大文件切片存储技术,降低海量小文件写入的随机性,提升大文件读写效率。索引池存放文件元数据信息,加速海量文件遍历效率,提升存储系统处理能力。数据归并后形成连续的大文件,可采用EC方式进行存储,提高存储空间利用率。

客户收益

通过软件定义的统一数据平台方案,成功地对客户数据进行了初步整合,并解决了海量小文件存取的挑战。

1、将海量小文件迁移到XSKY存储平台后,基于XSKY小文件归并和延迟归并功能实现性能提升,大大缩短了访问延迟;

2、突破传统存储扩容的天花板,在TCO可控的基础上实现按需横向扩展;

3、副本、EC、故障域等全方位数据保护,提供高可用性,并为未来实现同城双活、异地容灾中心预备基础;同时,利用在线修改副本数解决了预算周期和数据容量迅速增长的瓶颈;

4、支持EB级别数据存储,为客户未来5G+大数据应用场景就绪架构基础;

5、多权限可视化管理,针对不同应用,提供不同等级权限管理;

6、生命周期管理,按需定期删除数据。例如车辆管理、卡口数据的生命周期管理,提高存储空间利用率;

7、在早期利旧的硬件较高故障率的情况下,利用Recover QoS功能,实现服务和资源的优化分配,在遭遇磁盘损坏、节点故障等情况下保证了前端业务良好体验;

8、整合存储资源,逐步消除存储孤岛,提高运营效率。

5亿的小文件逐渐成为过去式,而即将到来的全省户籍档案等数十亿文件的挑战,正在成为下一个“不可能完成的任务”,敬请拭目以待!