Ceph开发每周谈 Vol 36|Ebay 的 CephFS 使用深度报告

2016年08月 · 麦子迈

这是Ceph开发每周谈的第三十六篇文章,记录从16年8月7号到16年8月13号的社区开发情况。笔者从前年开始做Ceph的技术模块分析到今年中告一段落,想必有挺多人期待下一篇Ceph技术分析。考虑到Ceph的发展已经从前年的一穷二白到现在的如火如荼,但对于社区的方向和实况仍有所脱节,笔者考虑开始Ceph开发每周谈这个系列。每篇文章都会综述上周技术更新,围绕几个热点进行深度解析,如果正好有产业届新闻的话就进行解读,最后有读者反馈问题的话并且值得一聊的话,就附上答疑部分。

上周综述

Sage 于 8.11 休假回归,开始 BlueStore 开发。

Ebay 的 CephFS 使用测试报告

Ebay 是 OpenStakck 的重度使用者,Ebay 私有云团队负责整个 Ebay 的私有云建设,包括多个跨数据中心的 Ceph 集群,每个集群都在数 PB 级别并且还在持续增长,这些集群目前主要为 OpenStack 服务。同时,为了能够对内提供云化的 NAS 服务,Ebay 团队开始调研并逐步开始使用 CephFS 作为 NAS 池化的重要部分。

在上周,Xiaoxi Chen 和 Zhiteng Huang 对社区发布其 CephFS MDS 测试报告,该报告不针对简单的 NAS 功能测试,主要针对大规模场景下的文件处理能力,也可以理解为主要是针对 MDS 的压力测试。该测试报告发布在 Slideshare(http://www.slideshare.net/XiaoxiChen3/cephfs-jewel-mds-performance-benchmark)。以下内容主要摘自 PDF:

测试的主要环境是:

1、24 个存储服务器,每个服务器配备 NR-SAS 20块,总共 480 块盘,使用 Intel E5 2640 V3,128 GB 内存,双万兆
2、单 MDS 服务器(MDS 目前主要是 Active/Standby 比较稳定,Multi Active MDS 并不稳定),使用了 256 GB 内存和 Intel E5 2680 V3
3、3 个 VM 作为客户端,每个配备 8 个核和 24GB 内存
4、所有组件都是万兆互联
5、主要基于 Ubuntu 14.04 操作系统,客户端由于 CephFS 内核模块要求,使用 4.2 内核
6、Ceph 为 Jewel 版本

 

测试内容:

1、Fuse VS Kernel: Kernel 完胜

1

2、单目录 3 亿个 1KB 小文件创建

3、每个目录 4096 个文件,总 3 亿个文件创建

vol36测试

4、随机文件打开测试

4

5、随机修改文件元数据(access time)

5

6、文件重命名

6

小结:

1、CephFS 与 RBD,RGW 的主要差别在 MDS,因此,在 CephFS Data Path 较好的情况下,这次测试主要针对 MDS 进行,挖掘 CephFS 的元数据瓶颈
2、MDS 目前主要为单线程操作,是主要的性能瓶颈源,但是从社区的开发进度可以看到,多线程 MDS 已经在开发之中
3、MDS 单目录文件数有明显瓶颈,这个问题在启用 Directory Fragment 会较好改善,但是 Jewel 并没有默认启用,预计会在 K 版磨人
4、多 Active MDS 目前也还在活跃开发中
5、在大量 Cache 压力下,MDS 仍然存在不稳定的情况
6、尽管如此,CephFS 也是作为开源分布式文件系统中提供卓越的管理和严格 Posix 兼容上有好的一面

 

最后还是感谢 Ebay Xiaoxi 和 Zhiteng 的测试,为 CephFS 提供了非常棒的测试数据。