过去已去,未来已来,金融业存储架构演进之路(二)

2019年05月 · XSKY

从IT技术应用的宏观维度看,金融行业相较于其他行业而言,有“大”(IT技术架构规模大)、“广”(IT技术综合应用范围广)、“深”(IT技术成熟度高,使用程度深)、“多”(应用IT技术的业务模块多)的特点。

图片来源网络

加之国内金融业经年累积的雄厚的技术人才储备(包括架构、开发和运维),为分布式软件定义存储等新兴技术在金融行业的实践应用场景带来更多新的可能,赋予SDS乃至SDDC以更多实践内涵。

相对于《过去已去,未来已来,金融业存储架构演进之路(一)》所述的基于目前部署和使用所归纳的金融业通用场景而言,寻求和业务层更为紧密的配合,甚至于藉以数据的新的存取和使用方式,挖掘数据价值,反向驱动传统金融业务的数字化转型,催生新的业务模型,则是更有意义的实践与探索。

冠字号管理
通过对纸币冠字号码的追踪,实现对钞票流转信息的全程记录跟踪,是典型的海量非结构化小文件场景。

冠字号图像小文件采用分布于网点的节点机暂存,再集中到总行管理,按监管要求有半年以上的保存周期,数据量达几十亿甚至百亿条,对冠字号信息有大规模并发存取,快速检索,高并发查询和定时数据清理的数据服务要求。

这种典型的大数据场景,目前主流方案是基于HDFS分布式文件系统和HBase列簇查询及flume语义解析框架构建。也有部分用户基于NAS存储构建。

基于NAS存储搭建的冠字号采集平台

然而HDFS分布式文件系统存放大数据的局限性在于数据的东西向跨业务模块流动受限,随着对象存储的使用普及,S3协议与HDFS的互联互通,未来有望直接将海量冠字号小文件直写对象存储之中,真正做到纵向贯通,横向流动。

影像系统
采用分布式存储系统存放影像数据,在医疗系统和GIS行业已得到广泛应用。

而在金融行业,因为影像文件与信贷、结算、后督、审批、授信、档案等各业务模块的工作流有深度耦合,其复杂的业务关联处理逻辑大多由应用系统集成商(ISV)所提供的模块特性决定,相应的,后台的影像文件存取和内容管理平台集成存储的方式也依赖于ISV所采用的后端接口技术。

目前主流的金融业影像系统的后端存储方式也以大量NAS和少部分SAN为主,随着大数据技术的兴起和逐步深化应用,目前也有一些内容管理平台后端影像数据存放也采用分布式生态,但常见仍为Hadoop生态或分布式数据库生态。

近一两年来,随着分布式存储的逐渐成熟,特别是适配互联网原生场景的S3协议所带动的对象存储技术的成熟,对影像系统的支持也具有非常好的适配性,不存在单点性能瓶颈,分布式的性能和可靠性也会更高,同时还能提供多租户的隔离机制。

目前国内主流影像&内容管理ISV都已经开始逐步将S3接口及分布式对象存储生态的支持提上日程。

数据湖泊
数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。如果说大数据是一种从技术侧去看数据的价值挖掘的视角,那么数据湖泊更侧重于从业务端去观察挖掘各种类型数据碰撞所产生的新业务价值,获得敏锐的洞察力。

数据湖存储所有类型的数据,包括结构化和非结构化数据,并通过整个企业的统一视图提供民主化访问。

能够存储不同类型的数据是数据湖的一个重要特征,这保证了用户不会丢弃任何有价值的元数据或原属性,与之相对应的,要求提供一个支持多协议栈的统一存储资源池,而且在这个数据湖的基础架构池内,可以灵活的实现不同来源、不同结构的海量数据的跨系统自由流动和交互。

这些诉求,恰恰于软件定义分布式存储所擅长的领域不谋而合。作为大数据技术往应用侧进一步靠近的技术迭代,数据湖泊在金融行业的建设和落地都不是空中楼阁,而是基于现有大数据平台的整合改造升级。

摆在分布式SDS面前更为现实、更有意义的问题仍然是如何打通Hadoop框架(包括HDFS文件系统)与分布式存储之间的数据互通壁垒。

第二存储
确切地说,第二存储是继分布式存储之后又一新兴概念。一般而言,所有非关键业务使用的存储都可以称为第二存储。

金融行业对业务等级和保护要求有着非常严苛的监管要求和成熟的技术手段。随着金融业大型传统数据中心的云化之旅,第二存储的实际意义在于多云环境下,对容灾备份、归档等传统数据存储和在线访问的再创新,利用分布式架构实现云服务与本地混合数据保护的解决方案。

第二存储的技术基础是数据副本管理,其核心技术为快照。

对于金融这一对数据可用性有强监管要求的行业而言,各金融机构都有非常完备的数据备份手段和软硬件设施以及备份管理流程和等保要求。

第二存储则能满足海量数据的存储需求,又能满足对备份数据的应用需求,将直接威胁传统备份软件和备份存储装置的地位。

或许可以这么说:为了区分业务场景的重要性等级而所兴起的第二存储这一概念,其所依赖落地的技术实现方式必将是分布式存储大展身手的高光时刻。

生物识别
生物识别技术是近年来FinTech兴起的标志性技术手段之一,作为一种平衡安全与便捷的认证手段,在金融行业有着重要的应用场景,目前主流的生物识别技术主要包括指纹、人脸、虹膜、静脉、声纹等。

这些前端的生物识别技术手段涉及到大量的图像和语音采集,模式识别、AI形态感知分析等数据服务,对数据的存取和调度在并发和吞吐性能及时延等性能指标上都有极高的要求。

同时,对于所采集的数据的本地存放还是集中存放,以及所采集数据的存续寿命长短等从道德维度去看也存在一定的非技术性争议。

假以时日,随着立法健全,技术升级进步,安全加密和可置信度增强,分布式软件定义存储与5G技术及区块链技术等融合,会有很好的应用构建场景。

 

结语
新概念、新技术、新趋势如雨后春笋般跃然眼前,分布式SDS技术从“小荷才露尖尖角”已然演进到“碧玉妆成一树高”。

我们已经无法定义哪一年为金融行业使用SDS的元年,但我们欣喜地看到,不同行业属性不同规模的金融机构大多都已经开始了解、实践乃至将分布式SDS部署到生产环境摸索经验,寻找最贴合的场景。

在数字化转型的大背景下,我们坚信:分布式SDS在金融行业大有可为,一切都刚刚开始,一切都会是最好的安排!