由 XSKY星辰天合 发布于2025-06-26
在 AI 领域,多模态大模型的发展对数据存储提出了极具挑战性的需求。全闪存储虽在模型训练与推理环节表现出卓越的高性能,但因其成本限制,在数据汇聚、预处理及归档等环节的性价比极低。单一全闪存储方案难以满足 AI 场景全链条的复杂需求。而混闪 + 全闪的分层数据湖架构,通过混闪存储承载非实时数据环节、全闪专注训练推理高性能场景,成为破解全链条存储难题的必然选择。
某智算中心承接多模态大模型客户的训练推理需求,其数据量在 4 个月内迅速增长超过 20PB,原采用的开源存储方案面临三重困境:
性能瓶颈:预处理阶段数据加载时间长,导致 GPU 长时间等待数据,效率低下;
扩容复杂性:单集群扩容需中断业务,无法应对训练数据的快速增长;
架构局限性:缺少数据智能分层,难以实现热数据预处理、高性能训练与推理、冷数据归档的自动化流转。
弹性数据湖架构:对象 + 文件的协同计算底座
XSKY 为客户构建的 AI 数据湖采用分层架构,其中最底层的对象存储作为关键基石,发挥着不可替代的作用:
对象存储层
对象存储层承担着数据从产生到归档的全流程管理重任。它接收原始数据的采集、预处理任务,并在模型训练与推理完成后对数据进行归档。采用 EC 8+2 的纠删码技术,在保障数据安全性和可靠性的基础上,有效降低整体存储成本。这一优势使其能够轻松应对图片、视频等非结构化数据的海量存储需求,并支持数据的实时访问,为上层应用提供了坚实的数据基础。
高性能文件层
采用全闪节点构建热数据处理引擎,直接对接模型训练与推理任务,针对 AI 场景优化小文件读写性能。
两层存储通过事件通知机制联动:对象存储提供事件通知功能,全闪文件存储预加载,文件存储可以感知对象存储中数据的变化,并指定策略进行更新,满足客户对数据处理和管理的需求。
三大技术亮点:性能、弹性与可靠性的全面突破
1、对象存储的高性能与扩容韧性
对象存储层能够提供优异的性能,日常数据采集和清洗负载带宽约 20GB/s。
即使在扩容重平衡时仍可满足数据大量加载到训练任务,实测训练数据读取峰值达 149GB/s,写峰值 61GB/s,同时处理 56GB/s 的扩容重平衡。
较原开源方案,数据预处理效率提升 300%。
2、池内扩容与整池扩容的弹性扩容
由于业务增长很快,在 2 个月内进行了 3 次扩容。初期由于业务压力不大,采用了池内实时扩容的方式,通过重平衡 QoS 降低扩容对业务的影响。后期由于用户数众多,业务压力加大,通过整池扩容的方式,规避重平衡的带宽占用,同时已有数据读写性能和前端业务访问不受影响。
目前,项目已扩容至 50 余个节点,约 30PB 裸容量。
3、企业级稳定性与智能运维
亚健康智能防护
对于介质故障的磁盘,慢盘等,自动监测告警和根据策略隔离,避免故障盘影响整个集群的性能和稳定性,对于网络故障,能自动监测告警,隔离故障链路,避免网络故障对集群稳定性的影响。
生产级稳定性
基于服务 3000 + 行业客户的成熟架构,支持 7×24 小时持续运行。截止到目前,已稳定运行 1 年。
成本管理
通过开放的 API 接口,无缝对接监控运维与计量计费平台,帮助客户精准管理存储资源并控制成本。
行业启示:AI 存储的数据湖路径
架构思维优先于单一产品
面对 AI 场景的多模态、高弹性需求,对象+文件融合的数据湖架构比单一高性能存储更具适应性,可通过分层策略平衡性能与成本。
敏捷交付能力是核心竞争力
整池扩容、预配置模板等机制,使存储部署周期从“月级”压缩至“周级”,契合 AI 项目“快速验证-持续迭代”的特点。
数据管理闭环决定项目成败
从数据采集、预处理到归档的全生命周期自动化,可减少人工干预导致的效率损耗,释放 AI 研发团队 80%的运维精力。
在线咨询:
9:00-18:00
快速响应您的问题
方案咨询
400-016-6101
售后支持
400-606-0072
官方微信