专栏名称: DataFunTalk
专注于大数据、人工智能领域的知识分享平台。
目录
相关文章推荐
营养师顾中一  ·  一餐少于5分钟,2种疾病风险上升!转给你身边 ... ·  3 天前  
广东疾控  ·  每天运动 VS ... ·  2 天前  
丁香医生  ·  洗床单不做这件事,你的床永远是脏的 ·  2 天前  
丁香医生  ·  痒痒痒!春季突然起疹子,是怎么回事? ·  2 天前  
51好读  ›  专栏  ›  DataFunTalk

从数据虚拟化到大模型创新:Denodo创始人25年技术探索与行业洞察解密!

DataFunTalk  · 公众号  ·  · 2024-10-09 13:00

正文

导读 在当今快速发展的数字时代,数据已成为驱动各行业变革与创新的核心要素。数据的收集、处理、分析与应用能力直接关系到企业的竞争力与创新力。近年来,一种新兴的数据管理技术——“数据编织”(Data Fabric),日益受到关注。该技术旨在通过构建灵活、可扩展且安全的数据环境,实现企业内外数据的无缝整合与共享。数据编织不仅能消除传统数据孤岛,最大化数据资源利用,还为企业决策提供实时、准确的数据支持,加速业务创新与市场响应。

与此同时,生成式 AI 和检索增强生成(RAG)技术也逐渐融入数据管理领域。生成式 AI 通过合成数据提供新视角,而 RAG 技术则通过结合生成和检索能力,强化信息获取与处理。
近日,DataFun 创始人王大川,客串主持人,深度采访了数据管理领域领导者「Denodo」的三位重量级嘉宾:创始人兼首席执行官 Angel Viña 叶苏斯 博士,全球销售副总裁兼大中华区总裁何巍先生,以及大中华区技术总监郭杰先生。深入探讨了数据编织的实际应用、面临的挑战、业务价值和未来趋势,同时分享如何结合生成式 AI 和 RAG 技术,助力企业实现数字化转型与智能化升级。以下是访谈实录。

主要内容包括以下几个部分:

1. 初衷与前景

2. 技术与挑战

3. 客户故事

4. 经历感悟

5. 行业思考

6. 技术问题

主持人|王大川 采访嘉宾| 叶苏斯 何巍 郭杰

编辑整理|洪飞

内容校对|李瑶

出品社区| DataFun


01

初衷与前景

主持人: 关于创立的 Denodo 初衷,叶博士在 25 年前,如何预见到数据虚拟化的趋势,并把它从学术概念,落地到创业公司?在这个过程中遇到了哪些困难?

叶博士: 我们最初在西班牙西北部的一所高校,开始研究实时数据系统,首先是在马德里的一个中心,然后与加州大学合作。当时我在学术界任教,并在美国任职。

在这个过程中,我们确实遇到了一些困难:因为我们的研究通常专注于支持从数据收集到消费的实时数据流,需要中间步骤,比如 ETL 处理的数据管道。这在开发不同用例时是一种限制,特别是在需要方便访问数据源的新环境中。

主持人: 叶博士在过去的一年里,三次到访中国。在这期间可能接触了很多行业客户,以及 Denodo 对客户服务程度的深入。相比第一次来中国,您有哪些感受?如何看待数据编织在中国市场的发展?

叶博士: 在我第一次访问时,我和其他来访者一样,对这个国家的发展印象深刻。然而,我觉得在数据领域以及政府和工业企业正在建设的数据生态系统方面,仍然存在一些不成熟之处,比如监控商业用途数据的生态系统。

而数据虚拟化技术具有独特价值。首先,它能打通多年来形成的数据孤岛,打造统一界面。其次,它提升了数据转化为价值的速度。此外,我们推动数据民主化,使企业内的所有数据用户都能使用和集成数据。这些核心价值在中国企业的全球化进程中尤为重要,因为他们需要提升数字化能力并确保跨国运营时的数据合规性。这些因素促使该技术在中国快速普及。

在过去十二个月内,我进行了三次不同地点的访问,通过最近的对话和在全国各地的会议,我看到了国内对技术的理解在进步,并且引入新技术后的解决方案,带来了敏捷性、灵活性等性能方面的提升,并且应用规模越来越大。

这些都是建立数据生态系统和数据解决方案的关键要素。对公司的规模、市场的复杂性和全球市场的开放性有更好的理解是非常重要的。在中国的企业生态系统中,这些技术和数据解决方案的应用将在不久的将来实现。

这里补充几点,关于数据虚拟化给企业带来的价值:

第一点,企业可以快速触达数据。因为现在每个企业都有大量的数据,如何快速触达这些数据,是数据虚拟化技术的核心优势之一。所以,在我过去三次来中国跟这些客户做访谈的过程中,我认识到对于很多企业来说,对数据的触达,是一个痛点。

第二点,国内比较强调数据治理。我们在跟很多客户交流的过程中,都会谈到数据治理的问题。治理的核心是需要给数据实际的消费者适当的权限,让他们能够在权限范围内安全使用,这也是数据虚拟化技术的一个优势。

第三点,国内对通用模型,特别是大模型,显示出了非常大的热情,这在其他地方很难看到。但是大模型或者人工智能的基础,一定是数据,一定是数据的准备,数据的组织。因此,我们实际上是在为大模型的普遍应用,搭建数据基础。

02

技术与挑战

主持人: 刚刚您提到,大模型在国内的兴起。从 Data 与 AI 的关系来看,Data for AI 和 AI for Data 可以相互作用,一同变得更好。从数据编织产品的定位来看,它如何作用于 Data 让 AI 变得更好?目前 Denodo 引入了哪些 AI 能力,更好地服务客户?想听一听,叶博士您对此有哪些独到的见解?

叶博士: 首先,谈谈我们自己怎样使用 AI 技术,来优化我们的产品。我们的这项技术非常独特,通过连接数据,而不是通过提前复制数据;在连接不同数据源的过程中,不同种类数据源的数据处理过程是不一样的。在连接的过程中,我们搭建了一个语义层。我们在语义层中,尝试运用 AI 技术来优化请求执行的过程,提升查询效率。

其次,类似于 Copilot 的功能。我们希望用人机交互的方式,跟数据对话。因为在使用数据的过程中,一定会留下很多记录。这些记录,可以被人工智能学习,进而提升下次查询的效率。所以,我们目前运用人工智能,尤其是 Copilot 技术,来提升我们跟数据交互的过程。

最后,因为我们的产品是在数据民主化的理念下开发的。所以,我们更希望非 IT 人员/专业人员去使用我们的技术。包括人工智能、Copilot,都会提升这方面的能力,来更好地使用我们这样的专业工具。

关于我们能为 AI 做什么:

首先,人工智能技术大大提升了使用通用数据的效率。比如我问人工智能,今天我在重庆接受您的采访,您会问我什么问题?我会得到很多通用模型给我的答案,但这只是一些通用模型,基于互联网,基于过去的数据,得出的学习结果。如果我问一些特殊问题,比如昨天来参会的公司,有多少是来自中国西部地区的,有多少是来自于南方的,我猜机器是不会回答我的。

因此,下一个问题是怎样去集成这些通用模型的能力,尤其是在这种非结构化数据、互联网数据和企业数据。也就是真正让这些通用模型的能力,可以被企业所用,这是一个目前非常核心的问题。

我们的一个能力,就是能够集成来自于不同数据源的数据。不管这个数据源是本地的,阿里巴巴上的,还是在亚马逊上的,我们具备集成市场上所有数据源的能力。

具体的实现过程:用户对通用模型提问题,比如昨天我们的市场活动产生了多少线索。这个问题会通过通用模型变成一个请求,这个请求会通过 Denodo 平台, 穿透到后面的某一系列数据 。然后我们会连接到特定的数据源,在这个数据源中有这个请求需要的数据,我们会把这个 数据返回给通用模型 ,再回答给客户。这就是我能目前集成的一个通用模型的能力,让它更好的能够被企业的用户所使用。

我们提供的这种能力,实际上是整合企业内部的结构化数据和通过通用大模型带来的非结构化数据。通过引入通用模型,我们能够理解客户的请求。用自然语言的方式理解请求,并翻译成某个针对数据源的请求。只有我们能够找到这个正确的数据,才能通过通用模型去回复客户的请求。这个过程说起来很简单,但事实上,如果只是对一个数据源,您会觉得这事儿并不难,但如果您要处理的是所有的数据,这件事就不容易。

所以,整合结构化数据和非结构化数据的这种能力,我们认为是非常重要的。它是通用模型在企业内部大范围推广的一个前提和关键。我们目前也在全球选出了十家客户,作为实践的先行者。同时,我们也想邀请中国有意愿尝试的企业,来加入这个计划,跟我们一起探索。

主持人: 我们也很希望,一起来推进这个计划。

叶博士: 目前这个实践项目,我们在美国有三个客户,在欧洲有四个,在亚洲目前有三个。所以,我们也希望能够邀请中国的企业,一起来加入这个计划。一起探索如何整合通用模型,更好地被企业级用户所应用。

03

客户故事

主持人: 我了解到 Denodo 的客户目前遍布全球 30 多个行业,对每个行业客户来说都会有各自独特的行业问题,在服务这些客户的过程中,有没有一些有意思的故事,可以分享给大家?您刚刚也说到,目前国内企业数字化程度相较于欧美,还处于早期阶段。是否可以分享一些服务欧美客户的经验,帮助国内企业少走弯路?

叶博士: 过去 25 年,Denodo 服务了很多客户,遍布全球不同的行业,非常的广泛。 Denodo 也希望通过这样一个桥梁,来建设中国客户跟全球客户的交流机制,让大家相互学习。在这点上,我们是非常坚决的。在过去跟中国客户的交流中,我们也一直在这么做。
事实上, Denodo 提供的是一个工具,真正的创新并不是在我们这,而是在那些使用工具的客户,客户使用工具的过程产生了真正的创新。

我认为中国有这样的特点,一旦决定做一件事,就会把这件事推进得很快。在其他领域是这样,在数据领域应该也是这样,会非常快地从一个跟随者,变成数据领域的引领者。

另外,在跟中国客户的交流中,我们还发现了一个特点,就是中国的客户,他们的设计会非常的长期,在做一件事的时候,是为长期准备。所以,我们看到很多客户在测试 Denodo 的产品时,在涉及核心功能时,就做极大的压力测试、极限测试。他们需要理解这个功能,尤其是这种技术能不能被企业长期使用,这跟很多国家不太一样,很多的国家很容易被趋势所裹挟。但是中国的客户,要的是长期的计划。所以,这一点和 Denodo 很像,25 年只做一件事,也是一直在为长期做准备。

04

经历感悟

主持人: 现在是大模型时代,各种创新也是在曲折中前进。回到叶博士的个人经历,在 25 年前提出数据管理这样的理念,并把它产品化和商业化。我相信在这个过程中,这个难度不亚于现在大模型的一些创新和发展。所以,请叶博士结合您这 25 年的经历,给目前在大模型时代的创业者一些经验。

叶博士: 基于我自己的个人经历,可以给到中国创业者的建议:

首先,需要真正地解决一些问题。不管提供的是一个产品,还是一种技术,都需要解决现实的问题。其次,解决这些问题的方法,比现有的技术要好,这是核心。

所以,在决定做一件事的时候,要考虑好这两件事。当然,这个过程,可能会很长,你的价值可能会需要一段时间才会被大家所认知,这个过程也许是一年、两年、五年,甚至更长。所以,需要公司以及创业者本身有更多的耐心。同时,就我们自己的经历来说,我们的投资人也是非常有耐心,才会造就这些,所谓的成功。

对于中国的创业者,其他的条件,其实已经具备了。比如中国这么大的一个市场体量,中国的客户从非常早期就可以考虑全球化、国际化,这些都是其他国家很难比拟的。

05

行业思考

主持人: 接下来想和何巍先生,交流几个问题。首先,在您拓展业务的过程中,会接触到国内各行各业的客户。在您看来,目前哪些行业在数字化转型中走得比较靠前,以及 Denodo 的产品和哪些行业,现阶段的匹配度更高一些?

何巍 先生: 在过去的一年里,我们接触了很多客户。所以哪些行业更靠前,我个人认为:

首先,跟互联网有所结合的客户会相对更靠前一点,至少他们的速度会更快,压力会更大。另外,是跟全球化相关的,会接触更大的市场、更大的区域,这些客户也必须要在数字化方面走得更快,这是我的观察。当然,我们今天在重庆,我们认为新能源汽车行业也是其中之一,也走得更靠前。并且,我觉得是一个集群,整体在推进新能源汽车行业。

至于我们 Denodo 的产品和哪些行业匹配度更高,我觉得需要一点时间。因为这是一个新的技术流派,它跟过去 40 年主流的技术流派是不一样的。客户在接触一个新的技术时,都会怀疑,然后测试,并逐渐体会这项技术的价值,会有这样的一个过程。

这个过程,就像刚才创始人分享的,在其他国家也同样经历过。只不过,在中国会走得更快一点。因为我们做事情的速度快一点,所以,未来在中国市场上,我们从 0 到 1 的速度也会比其他国家更快。

主持人: 降本增效是当前企业的主旋律,在这个背景下,您认为在数据管理产品的市场拓展中,除了企业对数据管理的认知因素外,您如何看待企业降本增效对 Denodo 在国内拓展市场的影响?

何巍 先生: 客户有需求,就永远是机会。客户有愿望去改变,对我们永远都是好事。至于您说的降本增效,我理解这是在一个时间周期内讨论的事情。比如今天怎么样少花一点钱,怎么样多赚一点钱,在很短的周期内,技术本身很难帮你做这件事。但是,如果考虑的是五年、十年,方法就会不太一样,比如怎样保持十年的增长,怎样持续十年的降低成本,和只考虑今天的方法完全不一样。

所以,我们希望可以找到,可以和我们一起 Plan for Long Term 的团队,一起成长。能够从长期考虑,长期设计,并与我们长期的合作,持续推进这件事情。这家企业可能从今天开始,未来十年还会一直走在这条路上。这可能是我们希望能够去合作,形成战略性伙伴的关系。

主持人: 我昨天也收看了赛力斯的分享,他们应用 Denodo 得到了很多的收益,实现了降本增效。有这样的一个收益,对于我们客户拓展方面会有哪些帮助?

何巍 先生: 刚刚有提到,真正的创新在客户身上。所以,我们觉得不管是赛力斯,还是其他客户,他们把我们的技术用好了,解决了他们自己的问题,这是我们非常愿意看的。客户知道我们的产品如何在他们的企业内部应用,解决具体问题,这是核心。

主持人: 当国内客户初步了解 Denodo 产品后,会不会对比同类型的产品,产生产品边界和功能重叠的疑问?

何巍 先生: 我认为这是一个成熟度的问题。比如人不是在任何阶段都需要喝咖啡,在之前的阶段,可能他的需求和今天的企业是一样的。如果企业还处于一些简单的需求,我认为他们还没到需要咖啡的阶段。对于我们目前接触的企业,我们希望它的成熟度到了一定阶段,知道该去做这件事,明白这件事有什么收益,而不是一些简单需求,这很重要。

06

技术问题

主持人: 最后,想和郭杰老师聊一些技术问题。目前国内有一些公司也在做数据编织类的产品,以商业版或开源版的形式呈现。与这些创业公司相比,Denodo 自身的特色和优势是什么?

郭杰老师: 就像刚刚创始人讲的一样,我们的数据虚拟化这项技术,更多的应用在数据编织、数据网格,这种整体的企业级数据架构、数据管理策略中。

我们非常重视的一个核心功能,是能够实时、快速地连接各种外部、异构和多源数据的能力。这是我们产品中的一个关键特点。我们强调,这个功能不仅要支持结构化和非结构化的数据,还需要兼顾企业内外部的数据源。同时,它需要具备实时数据访问的能力。因为对于数据消费者和应用程序来说,能够快速获取实时信息,其价值是不可估量的。

在这个过程中,你会发现许多人正在探索不同的技术路径,这些路径往往只解决了一部分问题。比如,有些技术能够连接结构化和非结构化的数据,有些则可以实现内部和外部数据的集成,还有一些专注于提供实时数据访问能力。但如果我们能够将这些能力结合起来,同时支持结构化和非结构化数据,内外部数据的集成,并且具备实时访问能力,将能够实现更大的价值。

我们想说的是,这正是我们这项技术的核心。它不仅仅是一种工具或技术,而是旨在服务于更广泛的人群。因此,当我们把它视作一种工具时,就需要考虑如何通过产品的优化,使更多人能方便地访问这些数据。为了实现这一点,我们必须关注普通用户的需求,特别是非技术人员,使他们能在复杂的数据环境中依然轻松实现实时访问。这些正是数据虚拟化真正应该实现的能力,而不仅仅是解决技术术语中的那些问题。

主持人: 所以,它不只是一个技术,对于非 IT 人员快速使用产品的能力,也很重要。

郭杰老师: 是的,这就是为什么这项工作要花费 25 年之久。首先,我们要解决的是一个技术性极高的难题,要同时满足结构化、非结构化、内部和外部以及实时访问的要求,实现这一技术门槛本身就是一大挑战。而最终,我们的目标是让所有人都能使用这项技术。这确实需要很长时间,并且需要足够的耐心来不断完善和打磨这一技术。

主持人: 除了创业公司之外,目前很多大厂也在自研。相较于研发自研需要的人力、技术储备、资源等投入,您如何看待自研和采买现成产品的优劣?

郭杰老师: 我相信,每个尝试自主研发这项技术的公司或组织,都会有自身的条件和关注的问题。因此,他们可能在短时间内能够妥善解决自己最关心的某些方面的问题。然而,作为一个更加成熟的产品,我们不仅关注当前特定环境下需要解决的问题,更重要的是考虑各行各业在整个领域中可能共同面对的问题。

比如说,如今我们需要连接外部数据源,这听起来简单,但实际上包含许多不同类型和接口。而且,随着二十多年的快速发展,这一领域变化迅速。我们希望不论是开发人员、管理人员还是使用者,无论技术背景如何,都能轻松连接到过去、现在甚至未来的数据。作为一家商业公司,我们需要以成熟的思维,持久投入和投资,以确保这项技术成为全球范围内各行业都能信赖和使用的工具。

主持人: 最后,我想再问叶博士一个问题。对于一个 25 岁的数据工具商业产品,为何它具有如此顽强的生命力?可以跨越信息化、数字化、大数据等多个周期、不同基础设施、不同应用形式而生存下来,并且在可预见的大模型时代里数据虚拟化将会被更多的组织所采用,进一步蓬勃发展。

叶博士: 正如您所说,在过去的这些年中,无论是应用、数据还是技术都发生了巨大变化。然而,从哲学层面来看,我们解决的问题是如何在分布式体系中管理不同地点、归属于不同机构的数据。这个问题实际上与具体的技术无关,对吧?

在今天,我们处理本地数据中心和云端的数据,而 20 年前可能是 IBM 主导的系统。这与具体技术无关,我们实际上是在进行一种逻辑编织的过程。我们的工作基于分布式思想,解决不同分散数据源的集成问题,并交付给各种应用。虽然今天的 CRM 与 20 年前的 CRM 不同,但我们的核心价值和思路始终未变。

在过去的 25 年里,我们验证了这项工作的可行性。我们相信,未来 25 年它将继续存在,并将作为一个技术流派引领数据管理领域。

主持人: 是否有关于第一性原理的思考。做这件事儿的出发点是?

叶博士:






请到「今天看啥」查看全文