AI 数据湖解决方案

破解 AI 海量数据 “存不起、管不好、用不活” 难题,实现多模态数据全生命周期经济存储与高效适配
Banner

AI 数据湖解决方案

破解 AI 海量数据 “存不起、管不好、用不活” 难题,实现多模态数据全生命周期经济存储与高效适配
Banner
企业 AI 数据湖落地都面临哪些核心挑战?
容量与成本的平衡之困
海量训练数据导致存储容量需求激增,全闪存方案成本高昂。而AI数据生命周期中超过90%为温冷数据,与热数据无差别存储,造成巨大的资源浪费和成本压力。
容量与成本的平衡之困
效率与协同的流程之痛
数据、算力、应用孤岛林立,跨团队协作效率低下。数据在不同存储系统间迁移拷贝费时费力,管理复杂,严重拖慢模型迭代速度,AI数据资产难以统一管理和复用。
效率与协同的流程之痛
性能与可靠性的规模之殇
数据、算力、应用孤岛林立,跨团队协作效率低下。数据在不同存储系统间迁移拷贝费时费力,管理复杂,严重拖慢模型迭代速度,AI数据资产难以统一管理和复用。
性能与可靠性的规模之殇
构建以对象存储为基座的 AI 数据湖
为应对上述挑战,我们提出以“对象存储”为底座,构建“AI 统一数据湖”的创新解决方案,其核心架构包含两大层次:

XEOS AI 数据湖

以 XSKY 企业级对象存储 XEOS 为核心,构建 AI 全流程统一的数据湖。它作为整个方案的“数据真理之源”,为上层提供海量、经济、高可靠的数据基石。

高性能缓存层

这是一个部署在近 GPU 计算侧的分布式、高性能缓存加速层。它与底层对象存储协同工作,是其面向高性能应用的核心加速引擎。详情请参阅 AI 训练推理解决方案 和 RAG 解决方案
XEOS AI 数据湖
高性能缓存层

XEOS AI 数据湖

以 XSKY 企业级对象存储 XEOS 为核心,构建 AI 全流程统一的数据湖。它作为整个方案的“数据真理之源”,为上层提供海量、经济、高可靠的数据基石。
XEOS AI 数据湖

高性能缓存层

这是一个部署在近 GPU 计算侧的分布式、高性能缓存加速层。它与底层对象存储协同工作,是其面向高性能应用的核心加速引擎。详情请参阅 AI 训练推理解决方案 和 RAG 解决方案
高性能缓存层
主要特点
智能分层的统一底座
统一数据底座
统一数据底座
将 AI 全流程的原始数据、数据集和模型等核心资产,统一纳管于一个标准 S3 协议的资源池中,彻底消除数据孤岛。
统一数据底座
统一数据底座
将 AI 全流程的原始数据、数据集和模型等核心资产,统一纳管于一个标准 S3 协议的资源池中,彻底消除数据孤岛。
统一数据底座
统一数据底座
将 AI 全流程的原始数据、数据集和模型等核心资产,统一纳管于一个标准 S3 协议的资源池中,彻底消除数据孤岛。
海量弹性扩展
海量弹性扩展
架构支持从 TB 级平滑扩展至 EB 级,可通过整池扩容等技术实现业务无感知的在线扩展。
海量弹性扩展
海量弹性扩展
架构支持从 TB 级平滑扩展至 EB 级,可通过整池扩容等技术实现业务无感知的在线扩展。
海量弹性扩展
海量弹性扩展
架构支持从 TB 级平滑扩展至 EB 级,可通过整池扩容等技术实现业务无感知的在线扩展。
金融级可靠性
金融级可靠性
采用 EC 纠删码及亚健康智能防护等技术,在保障数据持久性的同时,为宝贵的AI资产提供金融级的服务高可用与安全保护。
金融级可靠性
金融级可靠性
采用 EC 纠删码及亚健康智能防护等技术,在保障数据持久性的同时,为宝贵的AI资产提供金融级的服务高可用与安全保护。
金融级可靠性
金融级可靠性
采用 EC 纠删码及亚健康智能防护等技术,在保障数据持久性的同时,为宝贵的AI资产提供金融级的服务高可用与安全保护。
成本效益优化
成本效益优化
通过强大的智能分级存储策略,自动优化数据的存放成本。
成本效益优化
成本效益优化
通过强大的智能分级存储策略,自动优化数据的存放成本。
成本效益优化
成本效益优化
通过强大的智能分级存储策略,自动优化数据的存放成本。
创新性的分层能力
创新性的分层能力
基于"最后访问时间(atime)"的生命周期策略,只有真正"无人问津"的冷数据才会被流动到低成本存储池。
创新性的分层能力
创新性的分层能力
基于"最后访问时间(atime)"的生命周期策略,只有真正"无人问津"的冷数据才会被流动到低成本存储池。
创新性的分层能力
创新性的分层能力
基于"最后访问时间(atime)"的生命周期策略,只有真正"无人问津"的冷数据才会被流动到低成本存储池。
多源数据接入网关
多源一键接入
多源一键接入
内置丰富连接器,可直接对接 NFS 服务器、本地硬盘、飞书 / 钉钉协同平台、工业传感器等 10 + 类数据源,无需额外开发即可实现数据 "一键入湖"。
多源一键接入
多源一键接入
内置丰富连接器,可直接对接 NFS 服务器、本地硬盘、飞书 / 钉钉协同平台、工业传感器等 10 + 类数据源,无需额外开发即可实现数据 "一键入湖"。
多源一键接入
多源一键接入
内置丰富连接器,可直接对接 NFS 服务器、本地硬盘、飞书 / 钉钉协同平台、工业传感器等 10 + 类数据源,无需额外开发即可实现数据 "一键入湖"。
灵活的同步模式
灵活的同步模式
支持数据增量同步与全量同步两种模式:增量同步仅传输新增 / 修改数据,减少带宽占用;全量同步适用于初次数据迁移场景,确保数据完整性。
灵活的同步模式
灵活的同步模式
支持数据增量同步与全量同步两种模式:增量同步仅传输新增 / 修改数据,减少带宽占用;全量同步适用于初次数据迁移场景,确保数据完整性。
灵活的同步模式
灵活的同步模式
支持数据增量同步与全量同步两种模式:增量同步仅传输新增 / 修改数据,减少带宽占用;全量同步适用于初次数据迁移场景,确保数据完整性。
数据一致性校验
数据一致性校验
内置数据校验机制,同步后自动比对源数据与湖内数据一致性,避免 "数据丢失或损坏"。
数据一致性校验
数据一致性校验
内置数据校验机制,同步后自动比对源数据与湖内数据一致性,避免 "数据丢失或损坏"。
数据一致性校验
数据一致性校验
内置数据校验机制,同步后自动比对源数据与湖内数据一致性,避免 "数据丢失或损坏"。
多模态数据管理模块
多模态数据原生解析
多模态数据原生解析
支持对视频(MP4 / AVI)、音频(MP3 / WAV)、文本(TXT / PDF)、图像(JPG / PNG)、工业传感器数据(JSON / CSV)等多模态数据的原生解析与元数据提取。
多模态数据原生解析
多模态数据原生解析
支持对视频(MP4 / AVI)、音频(MP3 / WAV)、文本(TXT / PDF)、图像(JPG / PNG)、工业传感器数据(JSON / CSV)等多模态数据的原生解析与元数据提取。
多模态数据原生解析
多模态数据原生解析
支持对视频(MP4 / AVI)、音频(MP3 / WAV)、文本(TXT / PDF)、图像(JPG / PNG)、工业传感器数据(JSON / CSV)等多模态数据的原生解析与元数据提取。
元数据快速检索
元数据快速检索
提供基于元数据的快速检索功能,可按 "数据类型、创建时间、业务标签" 等维度筛选数据,解决 AI 场景下 "海量数据找得慢" 问题。
元数据快速检索
元数据快速检索
提供基于元数据的快速检索功能,可按 "数据类型、创建时间、业务标签" 等维度筛选数据,解决 AI 场景下 "海量数据找得慢" 问题。
元数据快速检索
元数据快速检索
提供基于元数据的快速检索功能,可按 "数据类型、创建时间、业务标签" 等维度筛选数据,解决 AI 场景下 "海量数据找得慢" 问题。
精细化权限管控
精细化权限管控
可按 "用户 / 租户 / 业务线" 设置数据访问权限,满足多团队协作或多租户场景下的数据安全需求。
精细化权限管控
精细化权限管控
可按 "用户 / 租户 / 业务线" 设置数据访问权限,满足多团队协作或多租户场景下的数据安全需求。
精细化权限管控
精细化权限管控
可按 "用户 / 租户 / 业务线" 设置数据访问权限,满足多团队协作或多租户场景下的数据安全需求。
方案优势
TB/s 级对象读写带宽
得益于 XEOS 强大的性能和扩展性,当万卡集群并发工作时,整个存储系统可以提供 TB/s 级别的聚合读写带宽。这意味着,即便是面对数万亿 Token 的超大规模数据集,或是数 TB 的模型 Checkpoint 文件,也能瞬时完成读写,将 GPU 的等待时间降至最低。
TB/s 级对象读写带宽
统一数据湖
通过为对象存储赋予标准的 POSIX 和 S3 跨协议访问能力,实现了"一套数据,多种应用"。数据采集和清洗团队可以通过 S3 接口进行数据探索,AI 工程师可以通过 POSIX 接口进行模型训练,无需在不同存储系统间进行耗时且易错的数据拷贝,极大提升了跨团队协作效率和数据流转速度。
统一数据湖
性能与成本兼顾
无需将所有数据都存放在昂贵的高性能存储上,仅需为热数据集(通常占总数据量的 1%-10%)配置全闪存资源,而 90%以上的海量数据则可存于极具成本效益的混闪存储中。据测算,可将整体存储 TCO 降低 70% 以上,同时获得不输于全闪存阵列的性能体验。
性能与成本兼顾
海量大规模能力
久经 3000 多家金融等行业客户的严苛生产验证,XEOS 的稳定性坚如磐石。其亚健康智能防护体系,能主动隔离慢盘、故障网络等隐患,杜绝因局部问题引发的全局风险,确保大规模集群 7x24 小时持续高性能运行。
海量大规模能力
对接多种高性能缓存的灵活性
支持对接并行文件系统、JuiceFS、Alluxio 等多种高性能缓存。
对接多种高性能缓存的灵活性
客户实践

XEOS 数据湖支撑 5Tbps 训练业务,让数据 " 按需 " 流动,为性能 " 自动 " 加速

挑战

挑战

在进行万亿参数模型训练时,频繁的 Checkpoint 写入耗时过长(超过 30 分钟),导致训练中断恢复成本高昂,且海量训练语料(数亿小文件)的读取效率低下,GPU 平均利用率不足 50%。

收益

收益

采用本方案后,Checkpoint 写入时间缩短至 3 分钟内,GPU 平均利用率提升至 90%以上,整体模型训练周期缩短了 40%。

了解更多

以对象存储构建统一数据湖,让数百GPU算力从等待中释放

挑战

挑战

国家级大模型实验室,多个实验组数据散落于不同 NFS,管理混乱。当集群扩展至数百 GPU 时,传统 NFS 在处理海量小文件和 TB 级模型断点时性能严重不足,导致 GPU 算力闲置。

收益

收益

采用本方案后,所有科研数据统一到对象存储数据湖。高性能 POSIX 接口将数据集加载速度提升 10 倍,TB 级断点保存从"小时级"缩至"分钟级",极大加速了大模型的研发迭代进程。

XEOS 数据湖以弹性分层架构,应对 4 个月 20PB 数据增长,训练效率提升 300%

挑战

挑战

作为公共算力服务平台,需要同时为众多不同类型的租户提供服务,租户应用和数据类型多样,对存储的性能、成本和安全性要求各不相同。

收益

收益

部署本方案后,以统一的对象存储作为后端,通过逻辑隔离和缓存策略,为不同租户提供了兼具高性能和经济性的"按需分配"的数据存储服务。简化了运维管理,提升了平台的整体服务能力和商业竞争力。

了解更多
数据常青,智领未来
即刻申请,获 30 天免费使用
申请试用
在线咨询
快速响应您的问题
工作日: 9:00 ~ 18:00
官方微信