在Data-Driven时代下，如何打造下一代智能数据体系？_DataFunTalk的专栏文章_微信文章

数据体系正在从成本&效率中心向价值中心转变

我们认为从大数据时代到数智融合的新时代，整个数据体系正在从成本效率中心向价值中心进行转变。在大数据时代，数据技术定位侧重于基础设施层面，无论是数据处理与服务的延迟、吞吐量、以及资源利用率背后的成本等等，定义了大规模数据存储和计算分析的核心技术竞争力。然而，随着我们迈入数智融合时代，数据技术的定位侧重发生了根本性的变化。

在数智融合时代，数据资产本身的规模、多样性、质量特别是内容的准确性等等是决定智能化效果的关键之一，数据更加直接的影响到智能化应用的效果，其价值日益彰显。我们看到，从数据资产的生产、加工与服务、消费与应用等各个环节都需要围绕数据的价值化这一全新的视角去构建相应的体系与技术能力。

0 1

数据生产方式 的拓展

首先，数据生产方式的拓展是数智融合时代的一个重要标志 。传统的搜索推荐和千人千面的服务重度依赖全网信息汇集，即通过网络爬虫等技术手段在合法合规的条件下广泛的抓取互联网上的公开数据，以及融合私域的专有数据为用户提供个性化的服务。

然而，在数智融合的新时代下，数据的生产进一步的扩展到了对日常生活点滴的细致记录与捕捉，例如可穿戴设备、智能家电及各种物联网终端所生产的数据，都在不断充实并丰富着我们的数据集合。这突破了传统互联网数据的局限性：我们认为人类、机器，甚至未来具身智能的所见所闻皆为可数字化，皆可沉淀为用于智能化的数据资产，也皆蕴含着巨大的价值。所以我们相信未来数据智能化的发展不是局限于当下互联网上有多少电子化的书籍，任何所见所闻、所思所想都可以被数字化，都是未来智能化发展非常重要的关键技术。

我们也要认识到，当下全网信息的汇集越来越逼近大上限，所见所闻的记录需要长时间、长期的积累，并且质量是参差不齐的。为了进一步提高智能化的应用效果，专业的数据、高品质的数据是其中非常关键的，所以专业化的数据标注与合成技术的作用显得愈发举足轻重。

我从工业界的角度也想再次强调数据的标注也非常重要。就像传统教育界从小学开始经过培训，这些教材都是通过专家、学者编撰而成的，都是人工产出的。在大模型时代下，数据标注与合成技术是确保大模型训练所需的数据品质的关键，也是未来各方持续构建并提升生成式人工智能核心竞争力的关键。

这种由量向质的数据生产方式的变革，不仅显著提升整个智能化系统的可靠性，还会极大的提高了其处理复杂任务的能力，从而真正意义上推动了数智融合时代的发展，使其能够在更多的垂直行业领域内展现出前所未有的应用潜力，打开当下智能化的天花板。

0 2

数据 资产加工与服务的演进

数据资产加工和服务，也需要在数智融合的时代下不断地演进和革新。

1.数据的形态正在从结构化向非结构化延展

根据IDC的数据预测，到2027年，全球非结构化数据的占比达到整个数据总量的86.8%，达到近250ZB。与传统的结构化数据加工处理不同，非结构化数据加工处理会涉及到融合多源异构全模态的数据，比如说文本、图片、音频和视频等等，并因此面临着许多新的挑战。

这里给大家举个例子，我们在构建大模型的数据体系里面，还可能会涉及到跨模态的数据互转问题，将一段视频里面的声音转变成文字，可能我们会得到一段文本的训练语料。这些都是我们需要去解决的问题。

在 数据清洗与质量评估 方面，除了传统的结构化数据中的以固定规则范式表达的结构性质量外，非结构化数据中的内容质量（例如多样性，可信度等）以及表达质量（例如语法、语义、逻辑性等）都需要被关注。

在 数据挖掘 方面，传统的结构化数据我们有经典的特征挖掘，但是在非结构化数据，内容理解我们认为才是后续智能化应用的关键基础。在 数据审核 方面，表单的检验校对是发现传统的结构化数据可能问题的重要手段，而对文本、图片、视频等非结构化数据的专业审核是控制数据毒性、防止数据污染的必要方式。

2. 数据服务正在从面向用户向面向机器与智能体延展

另一方面，我们认为数据加工和服务正在从面向用户向面向机器和智能体方向发生延展 。在未来智能化的应用形态上，我们判断，传统的应用将向基于多智能体协作的智能助理及具身智能的形态上发展。得益于生成式人工智能在自然语言理解、在多模态上面的理解和表达能力上的巨大进步，应用的交互方式也将会从传统人工智能交互的UI图形交互向着更简化、更自然的人机交互方向发展。

在这两者基础上，相应的数据服务业会发生延展，包括：

第一，在面向机器与智能体的的交互模式下，Agent之间的语义表达的革新，可以突破传统的面向人的视听表达，更加高效。例如，传统的人类视觉关注像素和由它们产生的色彩、饱和度这些信息，而在Agent处理特定任务时（比如检测、分割、识别、跟踪等），所需要的只是里面的某些特征值，就可以在保持性能不下降地完成给定任务。我们注意到，在生成式人工智能下的多媒体数据的特征有许多预设可控的空间，所以在Agent应用之间的表达效率可以显著的提高。
第二，在新的沉浸式交互下，基于生成式人工智能构建的多媒体数据的编解码方式，以及基于生成式人工智能的渲染方式，都面临着新的挑战。举几个例子，由于视频内容是生成的，ROI区域可能是已知的，这样我们就可以利用这些额外信息进行失真率优化和更有效的分配码率。另一个例子是在生成式智能的渲染中，可以根据要生成的对象物体，根据预设的光流信息，进行更加高效的编解码。
第三，在多Agent协作下，我们对延迟和吞吐有着很高的要求（特别是人机交互对表达延迟的敏感度，以及沉浸式交互对数据高吞吐量的要求），而当这些要求遇上复杂的网络环境（例如弱网状态），如何提供平滑的服务体验是一个全新的挑战。

3. 数据形态与处理方式的延展，开拓更多的价值机会

一方面，数据形态正在从结构化向非结构化快速的延展。这为非结构化数据的加工，特别是提升内容与表达质量的清洗、多模态数据的融合处理、对数据内容理解挖掘以及专业审核上，带来了许多新的挑战。

另一方面，数据资产的加工服务正在从面向用户向面向机器与智能体延展。在面向Agent的语义表达，生成式人工智能下的编解码、渲染，以及多Agent网络数据传输等领域都提出了新的技术命题。

随着数据的形态以及服务的对象与方式不断丰富，必须要持续提升数据资产加工与服务的能力，让生产的数据通过加工和服务模式的革新，释放更高的增益价值。

0 3

数据应用 新范式的挑战

我们再把目光转向消费与应用，在数智融合的时代下，可以看到数据的应用范式当下存在三个非常显著的挑战：

1. 新搜索、新交互等创新场景下标量与向量数据的混合检索

第一，在新搜索、新交互等创新场景下，标量与向量数据的混合检索是一个非常关键的且具有极大用户价值的技术命题。有别于传统的搜索中的围绕关键词交互，在新搜索下，以自然语言、多模态数据为载体的交互将会极大的降低用户的使用门槛，提升交互效率。例如，我们可以很便捷的通过手机摄像头去捕捉并检索一瓶感兴趣的红酒。这瓶红酒的信息检索既可以以传统的内容理解加关键词检索方式完成，也可以直接通过向量化的方式进行相似性检索。

同时，对背景的捕捉也可以进一步丰富检索的场景，例如当背景是餐厅时，会显示酒的产地，历史，背后的故事等。如果背景是货架，在超市，就可以显示多款类似的红酒与电商网站作为选择。与此同时，新搜索的交互模式也可以让我们很容易的增加对标量的检索限定条件，例如不超过200元一瓶的红酒。

值得一提的是，在保证一定的准召率的条件下，标量与向量数据混合检索背后的存储成本与检索性能（例如延迟）是未来数据存储基础设施的关键技术竞争力之一。此外，在未来的多模态搜万物的模式中，我们需要将万物与文字、特征都建设在一个超高维的向量空间中，这样的向量化数据的索引构建在时间和资源上有很大开销，是十分具有技术挑战的难题。

与此同时，在新搜索新交互中响应用户的即时兴趣（instant interest）十分重要，这背后依赖的实时或者仅有分钟级延迟的近线数据流，如何与向量索引的构建高效融合在一起，也是未来数据基础设施要解决的技术难题。

我们相信，标量与向量数据的混合检索将会是未来新搜索新交互的常态，这是一个非常挑战但又非常具有用户价值的技术命题。

2. 面向应用效果的不确定性：围绕数据的实验迭代原生工程体

在数智融合的新时代下，智能化的应用效果凸显了极大的不确定性。

过去的传统产品应用功能，是以「确定性」为主，每个功能被设计完成怎样的任务是非常明确的。而在智能化时代，应用的效果充满不确定性。我们并不清楚写作助手到底能写出一篇怎样好的命题作文，我们也并不能得到保证创意助手一定能创作出令我们满意的宣传动画。

在生成式人工智能应用中，其有意思之处在于不确定性，让任何回答都充满了无限的可能，尤其是当我们包容并且期待这种无限的可能时；然而其挑战之处也在于此，特别是在人们日常生活中需要确定性服务的时刻。当我们对智能助理提出要在星巴克上点一杯冰美式，我们十分确定并期望它能够唤起支付宝的星巴克小程序，在授权下快速的完成冰美式的下单任务。

在Data-Driven时代下，如何打造下一代智能数据体系？

正文

请到「今天看啥」查看全文