河南移动的MPP大数据平台对象存储实践

2019年12月 · XSKY

BIG DATA


电信与媒体市场调研公司Informa Telecoms & Media的调查结果显示,早在2013年,全球120家运营商中约有48%的运营商正在实施大数据业务。大数据业务成本平均占到运营商总IT预算的10%,并且在未来五年内将升至23%左右。

微信图片_20191220143245.jpg

电信运营商在运营服务中积累了大量数据,既包括日志、账单、信令等结构化和半结构化数据,也会涉及到图片、文本、音频、视频等非结构化数据。据不完全统计,一个省一天的运营商数据量可达到PB级。

而通过对海量数据资源的挖掘,可支撑运营商快速响应需求,实现敏捷运营,以及推动数字化转型。例如,利用大数据对DPI(Deep Packet Inspection,基于数据包的深度检测)等数据进行分析,可获取客户的行为偏好,实现客户精准营销。

河南移动的实践

据媒体报道,早在2018年7月,河南移动4G用户数量已突破4000万,在河南运营商市场处于领先地位。与此同时,其家庭宽带客户接近900万,建设4G基站10万个;物联网连接数接近2000万(新闻链接:https://news.dahe.cn/2018/07-03/336954.html ); 2019年,河南移动全面启动了5G建设。

微信图片_20191220143252.jpg

图片来源网络

为了更加精细化大数据运营,管理和监控网络流量数据,河南移动部署了统一DPI系统实现海量日志数据处理,包括支撑集团和省层面的网络运行、企业信息、市场营销、网信安全、特殊通信等五大类应用,如移动感知分析、移动上网日志留存、信息推送、流量轨迹查询、IDC/ISP信安系统等。

微信图片_20191220143256.jpg

统一DPI系统

在该业务的数据处理上,客户过去采用MR+HiveSQL+HDFS+Flum传统架构进行支撑。这一解决方案导致:在应用端,无法实现多种数据融合分析,多并发能力不足查询效率不高;在存储端,计算存储紧耦合不够弹性,出现存储访问瓶颈,无法支持海量数据的按需扩展;以及更复杂的运维,更高的建设成本,逐渐难以满足海量日志分析的需求。

为了解决上述问题,客户在数据共享层采用了HashData+XEOS+gdfdists新架构,为客户提供云原生数据仓库解决方案,相对于原Hadoop方案,可减少60%的集群硬件和70%的运维投入。

微信图片_20191220143300.jpg

数据共享层解决方案

1、AAA解析模块:接受Radius原始流量解析后发送至HashData平台;
2、Web服务器:负责策略生成、策略下发、数据结果展现;
3、HashData:数据导入、数据清洗、数据查询和数据分发(数据生成与Td上报程序);
4、XEOS:对接HashData平台,海量日志数据存储。

在新的解决方案中,XEOS替代原先HDFS实现PB级数据在线管理,同时提供冷热数据分层、索引数据多副本、日志数据采用纠删码(EC纠删码12+3,得盘率80%)等策略,保障整体方案的更优性价比。目前,客户已采购1.5PB存储容量…

现有的数据应用问题

今天,企业数据呈指数级增长,基于海量数据的分析、挖掘数据价值成为运营商和企业用户的常态化选择。然而数据环境的诸多变化,驱动了数据应用的新需求产生:

1、全量数据处理:统一系统内处理内外部的海量数据,数据类型复杂如结构化数据、半结构化数据;
2、高并发响应:更多部门、角色甚至机器参与到数据访问中,动态的支持高并发响应;
3、多维实时分析:将各维度的数据关联进行数据分析挖掘,没有大量时间做预处理,裸数据实时响应;
4、跨平台访问:数据访问环境差异,公有云、私有云以及混合云等多种场景下,跨平台数据灵活访问;
5、云技术融合:大数据和云计算技术飞速发展,如何充分利用云的优势让数据发挥更大价值亟待解决。

面对数据应用的上述新需求,现有的解决方案面临着以下问题:

1、共享存储数据仓库

-扩展性差

-存储访问瓶颈

-无法支持海量数据

-一体机价格昂贵

2、MPP数据仓库

-无法支持多种数据类型

-大数据量性能级稳定性下降

-扩容数据重分布难度大过程冗长

-无法合理规划以及灵活利用存储和计算资源

-无法支持高并发

3、Hadoop及NoSQL方案

-不完全支持SQL

-计算存储紧耦合不够弹性

-配置、调优、管理、维护复杂

-学习成本高、学习曲线陡峭

-效率低下,高并发能力有限

-查询性能不稳定,影响因素多

存算分离的云原生数仓

鉴于此,HashData(酷克数据)研发设计了新一代云原生数据仓库架构。HashData企业级云数据仓库是一个高性能、完全托管的PB级数据仓库服务,融合MPP高效引擎、云计算的弹性以及大数据平台综合数据处理能力三方特性。全面兼容PostgreSQL协议以及SQL 2008语法标准,对外提供标准的JDBC和ODBC接口,无缝集成主流ETL和BI工具。

相对微信图片_20191220143305.jpg

新一代云原生数据仓库架构具有以下特点:

1、元数据、计算和存储三者分离;

2、SQL on 对象存储;

3、按需动态水平扩容;

4、支持跨数据中心和云平台数据访问;

5、毫秒级响应海量数据交互式查询及多维分析;

6、高可用架构以及灵活数据副本策略;

7、无缝对接Oracle、MySQL、DB2、MongoDB等以及主流BI产品。

在基于云原生的计算和存储分离数据仓库方案构建中,独立扩展的计算和存储更加灵活,同时可显著降低成本。HashData与XSKY建立了合作伙伴关系,利用XSKY XEOS对象存储与HashData企业级云数据仓库形成统一解决方案,并具有以下优势:

1、计算存储分离部署,按需扩容,大幅降低TCO;

2、更加优化的性能,以及企业级存储特性;

3、适用于大数据平台的容灾备份;

4、整体方案性能更加稳定,易交付易维护,简化工作流程大幅缩短交付周期。