2021年9月2日 • 作者:DataPipeline
来源/民生银行总行科技大数据管理部
转载/中国电子信息产业发展研究院赛迪网
近日,由中国电子信息产业发展研究院指导,赛迪传媒、大数据产业生态联盟主办的2021(第六届)中国大数据产业生态大会圆满闭幕。会上重磅发布了“《2021中国数字化转型生态建设百佳案例》(以下简称《百佳案例》)”,「DataPipeline助力民生银行构建实时数据管理体系」案例成功入榜。
《2021中国数字化转型生态建设百佳案例》覆盖数字政府、金融科技、智能制造等多个行业,旨在甄选集结具有先进性、创新性和示范带头作用的企业数字化转型发展和应用优秀案例,凝练数字化转型的成功先进经验,树立行业典型。作为各地方政府深化数字化转型重点行业应用的备选库,此次选拔的《百佳案例》将呈报国家相关主管部门,为其提供决策参考依据,全力支撑地方政府数字化转型工作的推进。
拥抱实时数据管理,是数字化创新升级的必然选择
诞生于 1996 年的中国民生银行,已经在 24 年的历程中实现了规模与效益的迅猛发展。民生银行实现高速增长,这与由上至下坚持数字化转型策略密不可分。
民生银行是国内第一批开展数据仓库建设的商业银行,从2013年开始又启动了基于Hadoop平台的数据应用体系建设。民生银行具备较为成熟的批量数据处理能力,具体表现在架构清晰和分工明确的批量分析体系,针对批量数据处理场景的数据采集、计算、任务调度、存储、下发、挖掘、数据服务各环节,已具备了成熟的技术方案和完善的规范。近年来,经营管理部门对大量的经营指标和客户视图等信息的获取、反欺诈和反洗钱等重点领域的决策分析,都对数据管理提出了从批量升级到实时、准实时的要求。为解决上述重难点问题,民生银行大数据管理部于2017年启动实时数据体系建设,以有效支撑监管、风控、营销、经营分析等应用场景。
随着数据应用的深入,行内业务部门不断提出更综合的实时数据加工需求,新需求的加工复杂度持续升高、使用场景持续扩展、交付效率持续加快、运营质量要求持续提升。为提升实时数据支撑能力,民生银行开始从“平台、数据、应用”三个方面进行实时数据体系建设。该体系需要融合IBM DB2、MySQL、Kafka、Redis、GaussDB、SequoiaDB、HDFS在内的多种数据基础组件,实现对主要交易系统每日产生的数亿条数据的整合。
构建灵活高效的实时数据平台,最大化数据价值释放
民生银行采用数据分层模式进行实时数据处理,将实时数据分为源数据层、标准层、应用层三层。源数据经过清洗、转换、格式化、维度补充等操作进入标准层Kafka队列,实时任务消费标准层的数据进行指标计算或事件加工,写入结果层对应的Kafka队列,这样就将核心业务逻辑与源端数据解耦,核心指标计算和决策分析逻辑的开发就可以使用民生技术体系中提供的低代码组件完成,这样可以大幅度降低开发门槛,提升响应速度。
在实时数据预处理和应用层数据同步方面,民生银行通过产品调研、可行性分析、POC验证,选择DataPipeline数见科技作为合作伙伴共同完成实时数据同步管道组件的实施,主要原因为:一是,目前金融行业进入了一个基础设施快速迭代的时期,民生银行也正在积极验证引入各类开源和商业化基础组件满足数据方面需求,DataPipeline数见科技是一家专注于提供企业级异构数据融合解决方案的公司,能够持续跟进行业内计算资源、操作系统、数据库、中间件等方面的变化,持续对合作伙伴的需求进行支持;二是,DataPipeline企业级实时数据融合平台的功能和性能,能够很好地满足民生银行当前在实时数据预处理和同步方面需求,产品除了支持丰富的数据源,在任务的资源控制、状态监控、异常处理和恢复等方面设计合理,易于与行内已有数据管理和集中监控系统集成。以DataPipeline产品为基础,相对基于开源组件自研的方案可以加速项目实施、降低成本。
民生银行最终构建起数据全面准确、管理敏捷智能、链路稳定高容错的实时数据管理平台。该平台被抽象为“数据节点、数据链路、融合任务及系统资源”四个基本逻辑,无代码任务、业务导向构建,实时数据需求的研发交付时间从以天计到以分钟计。同时,平台具备限制配置与策略配置两大类十余种高级配置,可以轻松应对复杂的实时数据运行场景需求。其具有以下技术优势:
>>>多元异构
采用基于日志的增量数据获取技术(Log-based change data capture),为各类数据创新应用、数据中台、主数据管理、数据仓库、大数据平台,提供实时、准确的数据变化。
>>>批流一体
通过统一平台同时管理异构数据节点实时同步与批量数据处理任务的定义,部署,执行、监控。提供统一的错误队列管理、预警机制、日志管理。
>>>分布式计算
容器化集群提供读写分离的资源组定义、管理、分配,可动态扩缩容,所有组件均支持高可用,可水平垂直动态扩展。
实时数据管理平台架构
民生银行存储在多种数据库中的异构数据被打通,海量的数据被汇聚、分发。近百个实时数据任务将客户行为等实时数据进行标准化补全并分发到消费计算方,用于各类实时数据加工场景。同时,搭建基础平台的研发成本与运维成本大大降低,时间精力与优质资源可充分投入到数据价值释放与商业价值实现上去。
当前及未来一段时期,数据都是银行最为重要的资产之一,是支持精细化管理、实现差异化服务、加强业务创新、提升风险分析能力的基础。为加快支撑业务数字化转型,民生银行将以业务目标为驱动,以数据应用效能为优先考虑因素,通过数据与技术驱动金融产品服务创新,为业务提供立体化的快速支持,直面客户、赋能场景。