「最佳实践」高考数据,重量几何?

2018年05月 · XSKY

还有16天,又将进入到高考时间。十年寒窗苦读,高考对于国人来说,已经成为了集体性“沉甸甸”的记忆,而高考之“重”,究竟重量为几何?

63头大象=2017年高考

以2017年全国高考报名考生940万人为例,一张试卷按10g算,4个科目累计下来试卷纸张重量约376吨;一头成年亚洲象体重大约为6吨左右,也就是说2017年高考试卷重量相当于63头成年亚洲象的总重量。

换种思路,假设一张试卷扫描后变成1MB大小的文件,2017年高考试卷累计约35.86TB文件,用磁盘存放这些文件,1TB单碟的3.5寸盘重量大约400g,总共所需磁盘大约为14.4kg,全部重量仅为纸张存放下的1/26111。

高考试卷的数字化保存,无论是提高教育信息化水平以及合规性方面,都起着极大的提升作用。早在1998年,教育部就提出用3年时间,要求考生档案管理工作必须实现电子化,这其中就包括高考阅卷电子化和考生档案电子化。

2015年,教育部印发的《2015年普通高等学校招生全国统一考试考务工作规定》则进一步明确,扫描后的答卷保存期为考试成绩发布后6个月,答卷扫描图像、评卷信息(含评卷过程数据)、考生成绩等保存期为考试成绩发布后3年。

不能承受的小文件之“重”

对各地教育考试主管部门来说,试卷和考生档案的数字化带来了管理效率质的飞跃,但与此同时又面临着一些新的问题:单个文件数据量虽然小,但是由于考生档案信息包含的门类较多,例如既有高考报名信息、体检信息、优惠信息、贫困地区定向招生和农村学生单独招生资格信息,还有志愿信息、成绩信息、考试诚信记录信息和高中学业水平考试成绩信息及综合素质评价信息等多方面数据。因此,在各地教育考试系统中往往存在着海量的小文件,极大地影响了小文件写性能,降低了存储空间使用率。小文件问题逐渐成为数字化时代教育行业不能承受之“重”。

湖南省教育考试院是湖南省教育厅直属的副厅级事业单位,1999年由原省教委招生办公室、自学考试办公室、招生考试中心、自学考试中心四个职能机构合并而成。2001年正式组建运行,主要负责组织实施全省各类国家教育统一考试和高校招生录取以及社会考试。

学考系统作为湖南省教育考试院最重要的业务系统之一,各类考试的大量非结构化数据目前都在该系统之中,包括考试座位信息、成绩单信息、考生资料和照片信息、报表信息等等。从单个数据来讲,普遍小于10KB,但从去年到目前的近1年时间里,文件数量已经达到920万个,并且仍在持续增长中,海量小文件处理逐渐成为业务发展的瓶颈。

看对象举“重”若轻

为了解决海量小文件问题,湖南省教育考试院最终采用了XSKY X-EOS对象存储解决方案,一方面基于SSD构建高性能存储资源池,用于存储索引和临时小对象数据,提升小文件的写性能;另外一方面利用SATA硬盘构建的大容量存储资源池,用于存储大对象和归档永久保存数据。

在该方案下,当累计数据量超过设定阀值时,会将小文件以一定的规模为粒度进行合并,能够将小文件合并成为底层存储空间而优化的大文件,然后将其保存到大容量存储资源池中,提高存储空间使用率。

湖南教育考试院基于X-EOS对象存储平台,不仅可轻松承载千万乃至上亿的小文件,并利用小文件归并技术极大提高了系统写入性能,以及基于池级扩容保证了后续存储扩容对生产系统的0影响。

  • 千万级数据写入效率提升了15%;
  • 存储数据量可由亿级轻松提升至百亿级;
  • 每TB数据存储成本相对于之前采用分布式NAS方案节约了30%;
  • 近1年时间来,系统稳定运行,存储集群故障次数为0;
  • 按资源池粒度扩容,避免了大规模扩容导致的海量数据重平衡,对业务实现零影响。

百年大计,教育为先。从高考阅卷和考生信息数字化到全面的教育信息化,XSKY X-EOS为教育行业提供了可扩展的、经济高效的存储解决方案,让小文件问题不再,助力传统教育行业的互联网化与智能化。