EN-Cn

Home > About Us > 企业动态 > 公司新闻 > 基于CDM技术的敏捷数据管理实...

基于CDM技术的敏捷数据管理实践分享

Time:2022-06-22

光大证券 基础数据管理团队 孙伟、沈波


一、前言


近年来,证券业务快速发展,信息系统变更日益频繁,敏捷开发、快速迭代已经成为支持业务创新的必要条件。数据库作为信息系统运行的重要支撑,数据准备和交付的自动化程度对系统开发、测试效率有较大的影响。


二、测试数据准备遇到的困难


测试数据的准备通常包括数据库备份、数据库脱敏、数据库恢复等几大步骤。在备份环节,我司主要是利用数据库自带的备份功能进行数据库物理和逻辑备份,并通过统一备份平台对备份文件进行备份。


根据测试实际需求,如需要真实数据,我们通常采用灰度环境,灰度环境的数据准备主要有两种方式:直接采用实时备库或者是采用与生产隔离的数据库。


两种方式各有优劣,第一种方式的优点在于数据是实时和生产库同步,省去了数据导入的环节,而且对于某些数据库如ORACLE DATAGUARD可以利Flashback功能在测试完成之后快速恢复与生产的同步,缺点在于如DB2,SQLSERVER,MYSQL等数据库并不支持一键恢复同步功能,往往需要重新恢复备库以及和主库同步关系;对于第二种方式显著优点是在于与生产环境隔离,导入和恢复都不会影响到生产环境,更加安全,但是往往时间需要更久,因为包括了备份文件传输,数据导入,也牺牲了实时性。


如果数据到测试或者开发环境,根据《证券期货业信息系统运维管理规范》数据用于非生产环境时,应进行脱敏处理。结合我司实际安全要求,脱敏工作必须在进入测试或者开发之前完成。对于全库的数据准备步骤以及时间更加复杂:

需要在脱敏区域对数据库备份文件进行导入还原到脱敏区域;

通过脱敏工具对该库中的敏感数据进行脱敏;

重新进行全库备份;

备份文件通过至少2次传输到达测试环境;

在测试环境进行全库导入/还原。


整个过程经历了2次备份,2次还原,至少2次传输操作,时间长且复杂度高,严重影响测试开发环境数据准备。


除了影响测试数据的准备效率,我们还面临另外一种场景,数据库备份的定期验证,定期验证的重要性不言而喻,有多个案例表明在真正需要用到数据库备份进行恢复时,发现备份文件不可用。尤其是对于一些稳态系统,由于日常迭代需求很低,如果不定期对数据库备份进行验证,一旦遇到需要数据库恢复场景,很可能遭遇备份文件不可用局面。结合行业要求,我司每季度会对所有数据库备份文件进行恢复验证,由于数据库种类繁多,数据量很大,这个工作需要耗费大量的人力和时间。


基于以上遇到的问题,我们进行了市场调研,接触到了一种基于CDM(Copy Data Management,数据副本管理)技术的敏捷数据管理平台,通过对该技术的运用,我们整合了CDM和脱敏相关工具,实现了生产到开发测试环境的数据快速交付,以及实现了备份数据的自动化周期性的恢复校验。


三、基于CDM技术实践


CDM技术简介


Gartner对CDM的定义是,它从生产环境通过快照技术获取有应用一致性保证的数据,在非生产存储上生成“黄金副本”(Golden Image),这个“黄金副本”数据格式是原始的磁盘格式,可再虚拟化成多个副本直接挂载给服务器,分别用于备份恢复、容灾或开发测试等。


基于CDM技术的敏捷数据管理实践


我们在调研市场后,发现当前主要存在以下三种CDM技术产品:

1、以存储为核心提供的CDM,虽然能够提供快照和克隆功能,但很难实现跨异构存储,构建企业级规则驱动的副本数据平台,并缺乏丰富的数据服务能力,无法提供自动化、自服务等功能。


2、块级CDP技术提供的CDM功能,利用CDP技术所创建的副本数据,是一种磁盘快照技术,无法保证数据的一致性,并且同一时间的磁盘快照只能挂载一份,难以满足多应用场景的数据需求。


3、端到端的CDM:把单纯面向恢复的应用场景,变成了面向数据使用的应用场景,通过副本数据在各个业务环节的即时可用,为更多业务场景提供数据支撑。


以存储为核心的CDM和块级CDP提供的CDM功能,按照Gartner的定义,属于“类”CDM。我们最终选择了端到端的CDM技术产品,在生产到灰度环境、生产到开发测试环境的数据快速交付,以及备份数据的自动恢复校验三个应用场景。



图1:整体业务架构拓扑



生产到灰度环境的数据快速复制


利用CDM产品的数据库虚拟化技术,通过一份数据副本,可快速创建出多个虚拟数据副本,这些虚拟数据副本几乎不占用任何存储空间,且整个发布动作可以分钟级完成。


1)具体流程:

对接生产库备库,定时进行全量,增量备份,并实时备份获取数据归档日志;


2)当需要数据时,将指定时间点的数据挂载发布到灰度环境(发布到灰度环境上数据不需要脱敏);


3)测试结束后,销毁灰度数据库。


生产到开发测试环境的数据快速复制


通过部署CDM方案,分钟内创建完成虚拟数据库并调用脱敏系统对虚拟数据库执行脱敏,脱敏后数据自动推送复制到中间网CDM,经过中间网CDM节点可将脱敏数据分钟级挂载发布到测试网,有效减少开发测试场景中测试数据的准备时间,提高开发测试环境搭建的效率。


(1)网络说明

生产网和测试网进行物理隔离,生产网和中间网、中间网和测试网分别可点对点打通。


(2)开发测试数据快速交付

1)在生产网和中间网分别部署CDM节点;

2)生产数据脱敏在生产网内完成;

3)生产网CDM节点将脱敏后的数据推送到中间网CDM节点;

4)脱敏数据通过中间网挂载发布到测试网的开发测试环境;

5)测试结束后,按策略定期销毁数据。


(3)数据脱敏

部署CDM前的数据脱敏,需要分别在生产网和中间网各部署一套脱敏系统,生产数据不能直接给到测试网,需要经历从生产网到中间网、从中间网到测试网的两次数据抽取和脱敏,并且是面向整库全量数据的抽取。

部署CDM后的数据脱敏,生产网部署一套脱敏系统,将数据发布到生产网的脱敏环境并执行脱敏任务后,脱敏数据利用CDM节点之间的远程复制功能推送到中间网,并通过中间网挂载发布到测试网。


(4)测试数据版本管理

开发测试环境在使用数据的过程中存在测试数据版本回退、新老版本并行测试等场景。通过CDM的虚拟数据库版本管理机制,可以实现秒级版本回退操作,以及通过版本快照分钟级创建历史版本数据环境,实现历史环境、当前环境的新老版本并行对比测试。并且,使用中的虚拟数据库可以实现秒级创建动态快照,虚拟数据库可持续保持对外提供服务,不影响测试业务连接。



备份数据的自动校验


校验的主要目的是为了定期检验备份文件有效性,保证在恢复和还原数据文件时的可用。


利用CDM对接我司统一备份平台,实现备份数据的自动化恢复校验。定时抽取备份数据并自动进行有效性验证,保证备份数据的可用。过去,考虑到作业周期长,工作量大,备份数据校验按季度来进行,在CDM方式下可缩短至按周进行。



四、结束语


通过CDM解决方案的实施,我们实现了一个平台、一站式解决数据获取,数据存储,数据构建,数据使用,数据销毁,在保证合规性基础上,以敏捷的数据全生命周期管理,更好地实现数据共享和数据利用。

Share:
×
Privacy
×

此处放标题

内容暂无















FREE TELL:400-880-5062
电话:86-21-51905999
传真:86-21-51905959
邮编:201203
地址:上海市浦东新区张江高科技园区郭守敬路498号20号楼
I agree