DataPipeline CEO 陈诚：让数据生产力的历史进程，再前进一步

2022年5月27日 • 作者：

明论资本对话DataPipeline:让数据生产力的历史进程,再前进一步。

当下，数据所引发的生产要素变革，正在重塑着我们的需求、生产、供应和消费，改变着社会的组织运行方式。对于企业来讲，其竞争的本质是在“外部环境、生产环境、供应链协同等”复杂且不确定性强的市场环境下资源配置效率的竞争。数据，作为企业资源的具体表现形式和重要载体，其管理效能的高低直接决定了企业的生存能力。

随着数据技术的更新迭代和市场需求的快速升级，数据管理在内外部作用下逐渐被赋予新的责任。在技术侧，数据源的架构在变得繁多和复杂，数据应用也逐渐变得更加垂直和场景化，这也倒逼了现代数据架构飞速发展。在业务侧，其被要求回答：如何快速感知市场变化、识别潜在客户需求，如何增强决策准确性、实时性，如何构建能变革业务的数据驱动的应用等。数据管理，已经从一项技术管理工作升级为系统工程。DataOps这样的新型数据管理方法，恰逢其时地走到台前，弥补抽象的“采、存、管、用”发力不足的问题。

一千个人眼中有一千种对数据管理的“想象”。今天，我们邀请到DataPipeline的创始人兼CEO陈诚，走近DataPipeline，看这家专注于下一代数据基础设施的公司是如何帮助企业实现基于DataOps理念的“全链路”数据管理。

行业革新，数据管理识变应变求变

面对不确定性新常态，对于各行各业的企业管理者来说，如何高效地利用手头的数据，实时、精确地感知和洞察业务变化，更好地提高企业的运营效率、寻找业务的增长点是每个企业都需要面对的必修课。

——DataPipeline创始人兼CEO陈诚

明论：在大数据行业飞速发展的今天，数据管理的重要性是各行业管理者的共识。从您的观察来看，在过去的 20 年时间里，数据管理发生了什么变化？

陈诚：随着新的业务形态不断出现，各行业的客户行为也发生着日新月异的变化，例如服务的场景化社交化、营销渠道的线上线下一体化等，这对传统的经营模式带来了巨大的挑战。企业的推广获客成本、营销流量成本和签单成本越来越高，流量精准度和转化率不足，利润慢慢地被吞噬。如何高效地利用手头的数据，实时、精确地洞察业务变化，更好地提高企业的运营效率，寻找在“感知、决策、执行”上的新发力点是每个企业都需要面对的必修课。

同时，大量行业都非数字原生，其经历了漫长的业务电子化和经营线上化的信息化及数字化过程，且均围绕其各个业务板块的业务流程进行，数据逐渐渗透至企业设计、生产、管理、服务和运营等的全流程。这天然地导致数据来源多样，数据结构复杂，系统之间相互割裂，数据难以互联互通，数据孤岛大量存在。

在数据基础层，业务形态的丰富带来繁多的数据种类，例如支撑核心系统的新型的NewSQL TP，各类支持系统、各运营类应用的场景化和SaaS化，也包括了各类IOT设备和工业协议的显著增多。同时，数据传输层相应出现各类相匹配的数据获取方式。业务应用与数据应用的上层分布也发生了很大变化。除了传统的BI应用外，现在还出现了更为复杂且智能的嵌入式BI和增强BI。对于面向数据业务的应用，有各类基于营销、客户服务、产品迭代、风险管理等不同场景的数据驱动型应用的落地，而构建这些应用不只需要简单的业务逻辑梳理，而是需要对实体数据的探查和推演。

技术场景的快速分化产生大量不同特性的存储与计算引擎、信创大势下优秀国产基础软件涌现、业务导向下数据结构的快速迭代、网络技术革新带来的丰富数据源，繁荣的技术生态也在呼唤更创新的数据管理方式。

业务全场景创新、数据量爆炸式增长且渗透度高、数据时效性需求增加、数据采集/获取/应用的复杂度提升、异构数据技术引擎的涌现与驱动，这几个因素的加权将带来必然的数据管理理念与实践的变革。

选择DataOps，数据生产力历史进程再前进一步

「连接一切数据、应用和设备」是DataPipeline的使命，这个看似直白的目标，在以终为始的倒推中，展开了一张越来越纷杂的产品能力拼图。这是一个构建围绕‘流程+工具+组织’的DataOps时代，DataOps让我们有了能力建设的‘上帝视角’。

——DataPipeline创始人兼CEO陈诚

明论：围绕数据管理发生的这些变化，请谈谈这对于企业来说意味着什么？

陈诚：为了应对业务与数据需求的不断变化，企业内部管理理念、管理角色、管理工具也面临巨大变化。

从上世纪90年代开始，建设以行业领域模型为主的数据仓库、数据集市以支持确定性高的报表类需求，这是数据管理的摸索期，企业经营管理刚刚开始尝试向业务为核心、数据为辅助的方向发展。数据管理重点体现在强主题域建模、对静态元数据及主数据的管理、长周期的数据治理，参与的人员仅限于建模工程师、ETL工程师、报表工程师这种专业数据岗位。

2010年左右开始，由于互联网公司的崛起、互联网数据的爆炸，开始有了更大量的数据、更加复杂和多样的数据源，以及一些特定场景的数据驱动的应用，数据的流转、存储以及管理等问题变得更加复杂。在这个时期，企业关注重点转移到建设大数据平台、数据湖、数据中台、数据资产目录。从一定程度上来说，大数据平台的初衷是希望去颠覆数仓的，但这件事情并没有发生，企业发现这是两类需求，两种workload，都有适用的场景，多种管理形态的共生是必要的。

DataOps这一理念在 2014 年被提出，于2018年被Gartner首次纳入数据管理技术成熟度曲线中，并保持增长态势，到2021年 DataOps 已由技术萌芽期(Innovation Trigger)爬坡接近至顶峰期(Peak of Inflated Expectations)。DataOps给数据管理提供了一条“流程+工具+组织”的落地实践新范式。DataOps理念的目标是使得企业可以通过对数据链路持续构建，像交付应用一样快速、灵活地交付数据，并在过程中管理好数据链路的可观测性，让数据业务人员更容易地发现数据、安全地使用数据，最终达到降低TCO，提高ROI，帮助各行各业的企业实现数字化和智能化转型的长期战略目标。

明论：DataOps的数据管理理念具体有什么特点呢？

陈诚：如何通过增强多方角色协同与敏捷开发程度等，使得数据从生产端到消费端的的各个环节不要脱节，使数据管理成为一个有机整体，是未来数据管理的重要方向。DataOps是这一理念的典型代表，它有几个关键的数据管理理念变化：

第一个是数据逻辑的叠加。业务应用以流程逻辑为核心，通过敏捷开发、持续集成和持续交付（CI/CD）、自动化测试和代码推广、重用和自动化等的研发能力，就可以适应普遍的迭代使用需求。而数据应用必须要考虑两种逻辑，即业务逻辑和数据逻辑的叠加，很难单用业务逻辑解决，并且数据逻辑变化快得多。因此除了要掌握应用逻辑的迭代方法外，还需要一套全新的关于数据逻辑迭代的方法，其中应该包括数据应用中对于业务逻辑和数据逻辑的整体考量，从而做到像交付应用一样交付数据。

第二个是数据模型的后置。在满足相对确定的数据仓库支持的BI/报表类需求时，这是强主题域模型驱动的，即客户对于未来这个数据需求的满足有深入的具象化理解。因此需要根据数据模型构建ETL，使得数据在流转过程中变成满足需求的形态。然而，随着数据驱动的产品/服务/营销类数据应用越来越多，传统的主题域模型不再能提供足够的灵活度，因此，越来越多的企业不再做强建模ETL，而是转向了对于数据湖/大数据平台的建设，先将数据汇聚，并将transformation/业务建模的工作后置，形成ELT，以求更加灵活的应对快速迭代的数据应用需求。

第三个是多种模式的涌现。随着数据应用的场景、种类、时效性要求变的越来越多，整体数据链路中的各类模式在快速丰富。具体表现在数据来源的多模式（业务数据库的实时CDC数据、客户端用户行为埋点数据、外部系统API数据、工业设备数据等），数据应用的多模式（统计分析、异常检测、事件营销、量化风控等），以及必然带来的数据处理方式的多模式（数据仓库架构、大数据平台架构、通过流式计算引擎架构等）。同时企业也意识到，基于大数据平台、流式计算引擎的数据处理模式和数仓的数据处理模式并不是替代和颠覆的关系，而是在可见的未来，会共同且长期的存在于企业的数据架构当中，并不断引入和集成更新、更加场景化的处理模式，以应对快速变化的市场需求。在这一过程中，如何管理、维护、监控不同的数据链路和处理逻辑，是企业必须要解决的问题。

第四个是协作和自助的数据发现。在数据管理早期，大家管理的是静态的元数据和主数据，后来开始提出数据资产目录，目前又增加了“协作和自助的数据发现”。这意味着数据管理从以前的只有数据科学家参与的数据管理，到组织里所有的人都自主参与进来，以更好地发现数据资产的变化。此外，DataOps在内部敏捷协作上也有了更高的要求，要求数据流水线上各部门的人员都能敏捷协作。最后，随着数据量的迅速增加，安全也成为一个重要议题。行业法律法规和企业内部风控的不断加强，都对数据安全的管理提出了更高的要求。

DataOps时代的数据工具有四个核心组件。首先是数据融合平台，这里面包括多元异构的数据流转、实时ELT、Reverse ETL等数据链路管理，第二个是贯穿整个数据链路的可观测性平台，第三个是支撑数据链路持续交付的数据发现平台。第四个是保障持续交付合规安全的数据安全平台。这四个核心组件就是DataPipeline搭建的DataOps基础设施。

以基于DataOps理念的数据基础设施角逐世界舞台

DataPipeline在做的是基于DataOps理念的下一代数据基础设施。目前国内还没有围绕DataOps建立现代数据管理全矩阵产品的公司，DataPipeline是第一家。我们已经把竞争范围放到了世界级数据管理领域的舞台。

——DataPipeline创始人兼CEO陈诚

明论：DataPipeline一直坚持用产品化的方式解决问题，但是很多人觉得在中国特殊的商业环境下不同行业不同规模的企业面临的问题都很不一样，你是怎么看的？

陈诚：DataPipeline在做的是面向数据管理新范式的DataOps基础设施，是世界级现代数据架构核心组件厂商。我们围绕数据链路的开发与管理，提供符合本地需求的现代数据架构核心组件，同时具备世界级的能力、规划面向世界级的产品。

DataPipeline要做的不仅是中国市场的No.1，也要做世界级数据管理领域最先进的公司。目前，国内软件业存在的一些短板还亟需补齐，这突出反映在软件核心技术、软件应用生态方面，国家也正在从软件大国向软件强国迈进。过去二三十年里，核心数据基础设施已经逐步摆脱出被国外厂商把控的状态，从数据基础设施到应用软件的国产化替代将持续走高，中间件和数据库的国产化率甚至可达一半左右。DataPipeline，也在通过标准化产品服务千行百业数据创新，这是“解答时代命题”的必然责任。

DataPipeline产品体系

对于标准化产品，我们必须要做到的是对产品的抽象提取，否则的话就只是一个服务型的公司。在设计标准化产品时，我们要做的不是解决某一个客户的具体需求，而是比对大量客户需求，用宏观抽象的思路把这些需求做整合，设计构建一个灵活、可配置的产品结构。我们设计的出发点是以抽象的角度来思考问题，而不是只解决单一的具象化问题。也就是说我们在打磨产品的时候，需要比着需求的上限去工作，而不是需求的下限。虽然对于我们来说，产品化意味着更多的时间和成本投入，但这是建立一个数据基础设施厂商的必经之路。DataPipeline提供标准化的产品，以及可以交付合作伙伴开发的Paas平台，使用统一的可视化管理、支持云化和私有化、上线迅速、方便易用。我们认为只有这样的产品，才能够满足不同客户快速部署的需要。

明论：具体在面对各种不同的客户时，DataPipeline是如何通过标准化的产品解决他们不同业务需求的？

陈诚：不同类型的客户对数据运用的程度和场景会有不同。首先，以金融、电信为代表的行业较早享受到了“数据红利”，其数据管理意愿及基础能力突出。其次，数据痛点比较明确且经营状况良好的企业，更能快顺应DataOps大潮，比如金融、能源、电信行业和一些头部的世界五百强企业。这些客户本身IT水平高，数据价值密度高，盈利能力强。他们对DataOps的数据管理理念有着很高的认可度和需求，也是目前国内DataOps实践的领军企业。

我们和某股份制商业银行的合作就是一个典型的例子。银行业可以说是对数据管理要求最高且场景最为复杂的客户了，该银行是国内第一批开展数据仓库建设的商业银行，本身已经构建了很强的批处理能力，在早期的银行业中其数据架构上处于领先水平。随着实时反欺诈/反洗钱、数据驱动营销、服务和风控的需求不断增加，这对数据管理提出了从批量升级到实时的要求，以及对数据探查和推演的要求。DataPipeline为该客户提供了从单系统实时到多系统汇聚，从营销场景试点到经营决策大规模推广的多维度支持。与此同时，客户内部的数据组织架构与流程也发生了变化，各类角色参与广泛，数据价值极大化释放，对员工能力提升和组织稳定性也带来巨大帮助。

制造业，我国经济稳定发展的“压舱石“，其数据管理创新必要性已经成为产业共识。但制造业是一个流程长、门类繁多、应用场景复杂的行业，且受限于国内工业水平发展的在先背景，该领域的的数据管理面临较大挑战。该状态下，制造业反倒对DataOps的创新理念需求迫切度越来越高。这些企业往往在数据管理职责分布上比较分散，各单元主体在接入数据类型数量、数据实时性和数据安全上有各自的差异化要求。DataPipeline服务过的某知名民营汽车企业，在十几年前已经是行业领先地位，管理体系和IT架构在那时候逐步建立成熟。但为应对汽车行业的持续变化，该公司在原有主营业务之外，逐步增加了对创新业务和创新技术的探索。创新与风险并存，这对整个组织的同步和响应提出了更高的要求。客户需要将分布于工厂大脑测试系统、新能源系统、智能营销系统、集团关系型数据库系统、用户满意度评价系统等各类系统的数据高效实时地提供到经营管理、业务分析、物流优化等平台，以提升生产运营及企业管理的效率及质量。在过去的两年多时间里，DataPipeline将该客户全渠道数据打通，实现数据对经营、管理、创新的赋能。并且，该客户旗下的汽车、消费金融业务子公司也纷纷和我们开展合作。相应地，在公司组织上，客户的精益管理和组织内部协作上也发生了很大变化，前端业务部门、后台支持部门、生产与研发部门形成了有机联动。

除以上举例的两个企业客户之外，像证券、保险、运营商、石油石化这类数据基础较好的行业状况与银行类客户管理特性趋同，更加看中数据持续交付过程中核心能力的持续加强。医疗、教育、环保等领域的客户与制造业的企业客户服务经验相通，都会面临要搭建更长链条、可以满足业务与数据都端到端的IT基础设施。当然，我们还服务一些头部的互联网、零售行业客户，他们的业务及信息化水平都比较高，对数据管理产品的利用能力也很强，但是有着完全不同于以上谈到的银行与制造等行业的数据特点。总之，我们通过服务对数据管理有不同特性的行业中的典型客户，不断考核和打磨我们的产品，完善我们的各项能力，使得我们的产品能满足各种数据管理的需求。

明论：DataPipeline的发展方向是什么？

陈诚：随着实践经验的不断拓宽与深入，我们将进一步夯实多模式、自动化、自适应的数据链路管理。在此基础上，我们也会和客户一道构建具备自动化数据链路运维及运营能力的端到端数据可观测性、满足体系运维与质量运营的可观测性要求。当然，我们也将继续探索基于算法的智能化数据发现和数据安全产品，帮助客户获取数据探查、动态元数据管理、数据风险管理等能力。

过去六年，DataPipeline不断深耕全链路数据管理体系，凭借在DataOps领域的深刻理解、战略前瞻和丰富实践，现已形成“数据链路+数据可观测性+数据发现+数据安全”的一站式DataOps产品矩阵，覆盖了围绕“数据链路开发、管理、与安全”的一整套核心组件。该产品矩阵可使企业的端到端数据工作流自动化，改善客户在数据交付方面的体验，从而驱动其更主动的商业决策和更高效的智能化产品及服务。我们会在DataOps这条数据管理创新之路上一以贯之。

5月以来，我们又陆续落定了与多家顶级金融机构和重点领域客户的合作。我们非常兴奋地看到各类型的企业都在构建种类繁多、影响行业的数据应用，这一趋势使得我们的客户遍布金融、电信、能源、制造、地产、零售、互联网、医疗、教育、环保等各行各业。为了能够更好地为各行业、各规模的客户提供创新的企业级软件，我们会持续通过建设覆盖数据全链路、高度标准化的产品矩阵，在DataOps理念指导下，坚持技术驱动、深耕企业服务。我们会继续以“连接一切数据、应用和设备”为使命，帮助更多各行各业不同需求的企业实现数字化和智能化转型的战略目标。