为了帮助
社会各界参与数据相关工作者
更好地理解和把握国家数据局的政策方向和工作重点,国家数据局于2025年1月在其官方公众号发布了专家解读系列文章。这些文章邀请了来自不同领域的专家学者,围绕数据治理、数字经济、数据安全等热点话题展开深入分析和探讨,全面地解读国家数据局在推动数据资源开发利用、促进数据要素市场化配置、加强数据安全保障等方面的工作思路和举措。从即日起,海南省数据产品超市将对该系列文章进行整理转载,以供学习借鉴。
专家解读之六 |建设国家数据基础设施,筑牢数字经济发展基石
文|中国科学院院士 梅宏
实施国家大数据战略,建设数字中国,发展数字经济已成为新时代国家的战略选择。习近平总书记指出:促进数字技术与实体经济深度融合,赋能传统产业转型升级,催生新产业新业态新模式,不断做强做优做大我国数字经济。党的二十届三中全会提出“建设和运营国家数据基础设施,促进数据共享”。国家数据基础设施建设对于数字经济发展具有基础性、战略性意义,是推动数字经济健康发展的关键支撑。《国家数据基础设施建设指引》(以下简称《建设指引》)的发布,为我国数据基础设施建设给出了明确的方向和路径,对于筑牢数字经济发展基石具有重要意义。
基础设施是指为国家、城市或地区提供的支持其经济和社会运行的物质工程设施和公共服务,是社会赖以生存发展的一般物质条件。无论哪一种经济形态,其健康有序发展,均需要良好的基础设施作为保障支撑。
在数字经济时代,互联网是其基础设施的关键核心。实际上,数字经济概念就源自互联网在上世纪90年代中期开始的大规模商用。1996年,美国学者唐·泰普斯科特在《数字经济:网络智能时代的前景与风险》中正式提出“数字经济”一词,描述和预测了互联网将改变各类事务运行模式。由于当时的信息技术对经济的影响尚未具备颠覆性,所以数字经济一词主要用于描述互联网对商业行为造成的影响,特指以电子商务和电子交易为代表的经济活动。
随着互联网从信息空间向人类社会和物理世界的延伸,以及云计算、大数据、人工智能、移动互联网、物联网等新一代信息技术的快速发展,数字经济的内涵发生了深刻变化。在我国,数字经济通俗地分为数字产业化和产业数字化两大部分:数字产业化主要指信息技术产业,包括电子信息制造业、软件和信息服务业、信息通信业等;产业数字化则指借助新一代信息技术对传统产业及其产业链上下游进行全要素数字化改造,实现赋值、赋能。在这一过程中,互联网作为数字经济时代基础设施的关键核心,其作用主要体现在两个方面:
一方面,互联网、移动互联网、物联网等网络设施,以及基于网络的WWW、数据中心、云计算平台等公共服务,构成了数字经济时代的信息基础设施。这些设施为数据的传输、存储和处理提供了基础平台,使得信息能够在全球范围内快速流动,为数字经济的发展提供了必要的技术条件。
另一方面,传统物理基础设施也在互联网的推动下加速数字化转型,形成了工业互联网、智慧交通、智能电网等新型基础设施。这些新型基础设施将物理世界与数字世界深度融合,提高了资源配置效率,优化了经济运行模式,成为数字经济发展的重要支撑。
当前,人机物(人类社会、信息空间与物理世界)融合泛在计算的新时代正在开启,信息技术不再仅仅是作为既有业务流程中提质增效的助手和工具,而是将成为引领产业组织重构、流程再造、升级发展的核心引擎,其根源在于信息技术特别是互联网的快速发展和广泛深度应用所产生的大数据为人类提供了认识复杂系统、探知客观规律,进而改造客观世界的新思维和新手段。
《建设指引》指出“数字经济时代,网络设施、算力设施、应用设施等构建了数字基础设施。当前,数据成为关键生产要素,催生新的技术—经济范式,重塑产业发展方式,推动数字基础设施向数据基础设施延伸和拓展”,对基于网络设施、算力设施等现有互联网设施建设国家数据基础设施给出了一体化统筹布局。
在数字经济时代,数据已成为基础性、战略性资源,成为关键生产要素,赋能赋值生产、分配、交换和消费的各个环节,并支撑劳动力、资本、土地、技术、管理等生产要素的网络化共享、集约化整合、协作化开发和高效化利用。数据的高效共享、流通、交易是数字经济的源头活水,培育数据要素市场成为数字经济发展的基本前提;数字治理体系是数据要素市场健康有序及数字经济健康发展的根本保障,以最大限度释放数据价值为目标的数据治理则是数字治理的资源基础。
然而,互联网在支撑数据要素市场和数据治理体系建设方面的能力和效率还远远不够,数据共享流通成本高,制约了数据价值的释放和数字经济的发展。产生这一问题的根本原因在于互联网的设计初衷是使能计算机之间协同工作以共同支撑应用的运行,传统的计算机应用都是按业务需求设计信息系统、按系统功能组织数据,数据紧密耦合在应用之中,互联网仅是提供了应用内部运行在不同计算机上的计算任务之间的数据传输通道。因此,在现有互联网技术体系下,数据全生命周期均由互联网上的信息应用系统所控制,数据并非是互联网上可直接管理的独立资源,基于互联网的数据流通共享需要在应用之间进行协同,流通共享成本高。
为此,需要构建一套“以数据为中心”的新的基础设施层,可称之为“数据基础设施”,主要包含两个层面:
一是将数据与应用解耦,使得数据可以作为互联网上可独立管理的资源被标识、定位、发现和访问,从而在“物理/机器”互联网之上形成一个“虚拟/数据”网络“数联网”,实现全网一体化的数据互联互通互操作。
二是面向具体的领域和业务场景,按照数据所对应的物理实体的结构、关系来对数据进行管理和组织,使数据实体、数据活动(包括数据的传输、存储和处理运算等)及其相互之间的关系构成一个物理世界的“数字孪生”,可称之为“数据空间”。数据空间可视为围绕现实世界的个人或机构所构建的“全量”数据集,数据应用运行在特定数据空间内,以满足各类场景化需求。
《建设指引》提出“国家数据基础设施是从数据要素价值释放的角度出发,面向社会提供数据采集、汇聚、传输、加工、流通、利用、运营、安全服务的一类新型基础设施”,并给出了总体架构图,进一步从功能视角明晰了数据基础设施的结构组成。
考察国际数据基础设施的发展历程,大多是从明确的应用需求出发牵引技术研究和系统建设。例如,图灵奖得主、TCP/IP协议发明人罗伯特·卡恩提出的互联网数据资源互操作架构——数字对象架构DOA就起源于其主持的数字图书馆项目。该项目由美国DARPA资助,主要目标是为美国大学的计算机院系搭建数字图书馆系统,将已有的图书、文档、技术报告等文献资料电子化并接入互联网,以实现数字图书馆系统间的互联互通。后来,卡恩将数字图书馆泛化为信息系统,将文献资料泛化为任意数据资源,提出了数字对象架构DOA,并在瑞士日内瓦成立了DONA基金会对DOA进行推广应用。DONA运营了覆盖全球的Handle系统,全球数字出版系统DOI即是其一个重要的应用案例。
又如,德国弗劳恩霍夫协会在2014年提出工业数据空间(Industrial Data Space,IDS),目的在于解决工业领域数据保护与共享之间存在的冲突。后来推广至跨行业和跨地理边界的企业,改名为国际数据空间(International Data Spaces,IDS),并成立了IDSA组织,致力于制定全球数据权属和可信共享的标准。随着欧盟在2020年发布《欧洲数据战略》,提出构建战略部门和公共利益领域的统一数据空间,IDS作为参考架构得到快速推广应用。
《建设指引》指出“当前,我国数据基础设施处于起步建设阶段,围绕流通利用业务场景,各地方各行业各领域探索形成多种有针对性的技术方案和解决路径,并在不断迭代发展”,并且在推进路径中明确提出“2024—2026年,利用2—3年左右时间,围绕重要行业领域和典型应用场景,开展数据基础设施技术路线试点试验,支持部分地方、行业、领域先行先试,丰富解决方案供给”。在顶层框架设计之下,留足了实践探索空间,且凸显了创新应用引领。
国家数据基础设施的建设,开启了推动我国数字经济高质量发展的新阶段,也将对全球数字经济发展起到示范引领作用。
文 | 中国工程院院士 孙凝晖
党的二十届三中全会明确提出“建设和运营国家数据基础设施,促进数据共享”,按照党中央、国务院决策部署,国家发展改革委、国家数据局、工业和信息化部编制和发布了《国家数据基础设施建设指引》,指导推进数据基础设施建设,推动形成横向联通、纵向贯通、协调有力的国家数据基础设施基本格局,打通数据流通动脉,畅通数据资源循环,促进数据应用开发,培育全国一体化数据市场,夯实数字经济发展基础,为数字中国建设提供有力支撑。
随着新一轮科技革命和产业变革的深入推进,数据成为继土地、劳动力、资本和技术之后的“第五个关键生产要素”,深刻改变着生产、生活和社会治理方式。在数据驱动的智能时代,数据被赋予了资源要素与价值加工两重属性,数据的资源要素属性包括数据的生产、获取、传输、汇聚、流通、交易、权属、资产、安全与隐私等。数据的价值加工属性是指原始数据需要经过生产、流通和加工等多个环节才能增值,原始数据的价值不大,加工越深入则增值越大,通过加工工艺(即算法)和加工动力(即算力),对数据进行深加工和模型提炼才能实现数据的价值释放。
纵观人类历史,每一个时代变革都会孕育出新的基础设施,农业时代是交通基础设施,工业时代是能源基础设施,信息时代是互联网基础设施,到如今在数据驱动的智能时代,是数据基础设施。智能的本质是数据的百炼成钢,数据基础设施是面向社会提供公共的数据采集、汇聚、传输、加工、流通、利用、运营、安全服务的一类新型基础设施,它集成硬件、软件、模型算法、标准规范、机制设计等在内,形成一个有机整体,贯穿数据价值释放的全生命周期。
《国家数据基础设施建设指引》将数据基础设施体系划分为四部分:算力设施,流通设施,网络设施和安全设施,其中,网络设施和安全设施是传统的信息基础设施,算力设施和流通设施是新型基础设施。网络设施提供高速泛在的连接能力,算力设施提供数据深加工的关键计算能力,流通设施提供跨域数据高效流转的流通能力,安全设施保障数据要素关联计算和共享流通过程的安全。四个设施共同支撑数据要素能够“供得出、流得动、用得好、保安全”。
我们认为,数据基础设施从数据全生命周期的视角也可以将参考模型分为四层:
数据汇聚层、数据流通层、数据加工层和数据应用层
。第一层是数据汇聚层,进行行业和政府的数据资源建设,实现海量数据的汇聚、标注、清理,建设国家级的数据枢纽与数据战略储备,解决“供得出”的问题。第二层是数据流通层,构建数据流通体系,解决数据“流的动”的问题,其中关键组件包括:数据标识,实现数据空间中的数据入库、全域索引;数据交换,实现数据空间中的全域发现和可信交换;数据访问,实现数据空间中的数据访问与操作、高效传输。第三层是数据加工层,是以数据件等统一抽象封装加工的对象,以算力网提供“无尽”的算力供给,以模型网管理与调度各类Build-in模型,解决数据“用得好”的问题。第四层是数据应用层,基于AI基础大模型、BigData模型和HPC模型等三类模型,构建算法层的基础设施,通过AI Agent等技术实现复杂任务的处理,赋能千行百业。
国家发展改革委推动的“东数西算”工程是我国在算力网领域最早的政府行动计划,在推动算力的基础设施化上发挥了先导作用。“东数西算”工程稳步推进两年多取得很大的进展,算力资源集中向八大国家算力枢纽内汇聚,特别是西部枢纽节点充分利用了绿电资源。在技术创新方面也取得了明显的成效,包括:异属算力并网、异构智算统一纳管、算力站间直连网络;算力跨域调度、算网协同调度、广域数据快递;超算互联网应用模式、城市/省域算力网运营等。“东数西算”工程正在形成自己的技术体系。
《国家数据基础设施建设指引》的发布,将进一步与“东数西算”工程、全国一体化算力网建设相结合,以人工智能应用为牵引,不断促进各类新增算力向国家枢纽节点集聚,推动算力、算法和数据的融合创新,打通数据共享流通的动脉,夯实我国数字经济的基础。
(一)统筹建设数据利用与数据流通两类基础设施
数据基础设施中的数据流通和数据利用是两套系统,当前阶段应优先发展数据利用基础设施,做强需求端,由需求端拉动流通端,最终实现整个数据基础设施的
互
联互通。
回顾互联网初期,互联网信息的供给端有动力共享自己的信息,互联网用户建设一个网站,接入互联网,希望全世界的人都来访问和使用。当前阶段数据的需求端有动力利用数据,但供给端没动力提供数据。需要先把数据的利用做好,价值增值做大,才能激发起数据供给端的动力,才有可能推动数据的流通。
(二)统筹数据基础设施技术体系的统一和差异
当前数据基础设施的技术体系五花八门,各成一体。历史上网络协议有OSI七层模型,操作系统有宏内核和微内核两种架构,数据基础设施技术体系的参考架构和关键技术组件应该统一起来。
数据具有强大的场景特性,不同场景下数据的增值模式、数据的流通管理方式都是不同的,应针对不同场景分类抽象,构建多个不同的技术体系技术栈,来具体建设不同的数据空间基础设施实例。
文 | 北京交通大学信息管理理论与技术国际研究中心(ICIR)教授 张向宏
7月18日,党的二十届三中全会审议通过了《中共中央关于进一步全面深化改革、推进中国式现代化的决定》,明确提出“建设和运营国家数据基础设施,促进数据共享”,10月9日,中共中央办公厅、国务院办公厅发布《关于加快公共数据开发利用的意见》,提出“加强数据基础设施建设,推动数据利用方式向共享汇聚和应用服务能力并重的方向转变。”“研究制订数据基础设施标准规范,推动设施互联、能力互通,推动构建协同高效的国家公共数据服务能力体系。”近日,国家发展改革委、国家数据局、工业和信息化部正式发布《国家数据基础设施建设指引》,正式按下国家数据基础设施建设的启动键,开启了国家数据要素化事业的新征程。
(一)国家数据基础设施是下一个30年全球经济增长的新引擎
上世纪90年代初,美国提出并开始实施“国家信息基础设施(NII)”行动计划,推动互联网在全球迅速普及,一举奠定了美国在传输网络、根服务器、IPV4协议等方面的技术领先优势,培育出了微软、英特尔、谷歌、脸书、亚马逊、苹果、特斯拉等一大批信息技术跨国企业,并推动全球经济高速增长了30多年。当前,国家数据基础设施(NDI)将成为引领下一个30年经济增长的新引擎,我国通过建设和运营国家数据基础设施并不断扩大在世界其他国家和地区的“朋友圈”,将不断增强在数据交换交易协议和标准等软基础设施制定的话语权,掌握适度超前的通信网络和算力等硬基础设施研发的主动权,进而引领数据新技术、新产品、新模式、新应用爆发,为我国培育出一大批新的全球型数据企业,并推动下一个30年全球数字经济高速发展。
(二)国家数据基础设施是国家掌控数据战略资源的有效手段
电力、通信、铁路等是工业时代的国家战略资源,必须牢牢掌控在国家手中。这些国家战略资源均具有网络状、跨区域分布等特点,我国通过建设覆盖全国的电力网、电信网、铁路网等基础设施,成立了一批中央企业,牢牢控制住了相应的战略资源。数据作为数字时代的国家战略资源,也必须牢牢掌握在国家手中。与电力、铁路、通信是工业时代国家战略一样,数据也具有网络状、跨区域分布等特点,通过建设横向联通、纵向贯通、协调有力的全国一体化国家数据基础设施,可以有效统筹运营国家公共数据资源和重要企业数据资源,将数据这一数字时代的新型战略资源牢牢掌握在国家手中。
(三)国家数据基础设施是实现数据安全高效流通的技术保障
自上世纪90年代互联网普及以来,全球数据资源爆发性增长。但是,在全部数据资源中,只有两成左右是可流通数据,八成左右是个人隐私、企业机密、国家秘密等不可流通数据。即使在20%可流通数据中,在万维网上真正流通起来的结构化数据只有4%,而其他16%的图片、音频、视频等多模态非结构化数据,由于技术还未突破而不能在互联网上自由流通。近年来,随着人工智能大模型的异军突起,对数据资源的需求陡增,据京数智科技研究成果,预计到2028年全球可流通数据将完全耗尽。数据生产方式将从互联网上采集结构化数据的传统方式转向数据资源的广度和深度两个方向拓展:第一个方向是向广度拓展,即从互联网爬取数据向物联网自动生成数据拓展。各种可穿戴设备、智能家电、道路监控设备、工业互联网自动感应装置等生成的多模态非结构化数据,正成为当前数据来源的主流,专业化的数据标注与合成技术正成为海量非结构化数据转化为高质量数据集的关键核心技术。第二个方向是向深度拓展,即过去由于涉隐涉密而被尘封的海量私域数据,正在成为人工智能高价值数据集的重要数据源。传统意义上的不可流通数据,将在依托隐私保护计算、区块链、控制技术、可信数据空间、数联网、数场等数据安全流通技术构建的数据基础设施支撑下,逐步都变成可流通数据,实现在安全可信条件下的大规模、快速率、高通量流通利用。
(四)国家数据基础设施是构建全国一体化数据市场的支撑底座
2022年3月25日,中共中央、国务院发布《关于加快建设全国统一大市场的意见》提出,加快培育数据要素市场,建立健全数据安全、权利保护、跨境传输管理、交易流通、开放共享、安全认证等基础制度和标准规范,推动数据资源开发利用,加快培育统一的技术和数据市场。2024年7月18日,党的二十届三中全会通过《中共中央关于进一步全面深化改革、推进中国式现代化的决定》提出,完善主要由市场供求关系决定要素价格机制,防止政府对价格形成不当干预,健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制,培育全国一体化技术和数据市场。依托数场、隐私保护计算、区块链、可信数据空间、数联网、数据元件等数据安全流通技术建设和运营国家数据基础设施,可以通过数据资源登记平台确定数据产权归属,通过公共数据开放共享平台和授权运营平台保障数据供给,通过数据加工分析平台确保高质量数据集供给,通过数据运营平台确保数据融合应用,通过数据交易平台实现数据资源和数据产品有序交易,由此实现全国数据资源一体化汇聚、处理、流通、应用、运营等,保障全国一体化数据市场的形成和完善。
(一)国家数据基础设施的涵义
国家数据基础设施是从数据要素价值释放的角度出发,面向社会提供数据采集、汇聚、传输、加工、流通、利用、运营、安全服务的一类新型基础设施,是集成硬件、软件、模型算法、标准规范、机制设计等在内的有机整体。国家数据基础设施在国家统筹下,由区域、行业、企业等各类数据基础设施共同构成。网络设施、算力设施与国家数据基础设施紧密相关,并通过迭代升级,不断支撑数据的流通和利用。
(二)国家数据基础设施的特征
从以上涵义可以看出,国家数据基础设施具有一个目标、八大功能、三类设施和四重架构等四方面特征:
一个目标。
建设和运营国家数据基础设施的目标就是充分释放数据要素价值。通过构建安全可信、高效流通的国家数据基础设施,从根本上解决数据“供不出、流不动、用不好”的难题。
八大功能。
国家数据基础设施具有数据采集、汇聚、传输、加工、流通、利用、运营、安全服务等八项功能。即国家数据基础设施在确保安全前提下,提供了一个数据“采汇传算流用运”等数据流通利用功能于一体的环境和设施。
三类设施。
国家数据基础设施是以区域数据基础设施和行业数据基础设施为主体,以企业数据基础设施为有益补充的横向联通、纵向贯通、协调有力的全国一体化数据基础设施。
四重架构。
国家数据基础设施由网络基础、算力底座、流通利用和全过程安全等四类设施组成,其中,数据流通利用设施是核心,网络和算力设施是底座,安全设施是保障。即数据流通利用设施为数据流通利用提供安全可信环境,包括可信数据空间、数场、数据元件、数联网、区块链网络、隐私保护计算平台等技术设施,网络和算力设施提供数据高速传输和算力高效供给等基础支撑,安全设施为国家数据基础设施安全可靠运行的提供安全保障。
国家数据基础设施建设和运营是一个前无古人的创新事业,需要从技术创新和应用普及两端同时发力,相向而行。一方面,应组织和出台国家级重大研发等相关政策,鼓励和支持企业不断创新突破数据可信安全流通技术。另一方面,应大力支持和鼓励数据可信安全流通技术在更大范围、更多领域应用,在应用中持续迭代技术、不断降低成本,最终实现数据安全流通技术基础设施化。
1.技术路线1——隐私保护计算技术
隐私保护计算指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一类信息技术,保障数据在产生、存储、计算、应用、销毁等数据流转全过程的各个环节中“可用不可见”。隐私保护计算的常用技术方案有安全多方计算、联邦学习、可信执行环境、密态计算等;常用的底层技术有混淆电路、不经意传输、秘密分享、同态加密等。
2.技术路线2——区块链技术
区块链是分布式网络、加密技术、智能合约等多种技术集成的新型数据库软件,具有多中心化、共识可信、不可篡改、可追溯等特性,主要用于解决数据流通过程中的信任和安全问题。
3.技术路线3——数据使用控制技术
数据使用控制技术是指在数据的传输、存储、使用和销毁环节采用技术手段进行控制,如通过智能合约技术,将数据权益主体的数据使用控制意愿转化为可机读处理的智能合约条款,解决数据可控的前置性问题,实现对数据资产使用的时间、地点、主体、行为和客体等因素的控制。
4.技术路线4——可信数据空间
可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的一种数据流通利用设施,是数据要素价值共创的应用生态,是支撑构建全国一体化数据市场的重要载体。可信数据空间须具备数据可信管控、资源交互、价值共创三类核心能力。
5.技术路线5——数场
数场是依托开放性网络及算力和隐私保护计算、区块链等各类关联功能设施,面向数据要素提供线上线下资源登记、供需匹配、交易流通、开发利用、存证溯源等功能,支持多场景应用的一种综合性数据流通利用设施。数场从点、线、面、场、安全五个维度构建标准化技术框架。点是数据主体进入数场的接入点。线是数场内连接各主体、各平台的高速数据传输网,实现数场内各主体之间的互联互通。面是数场中数据主体、传输网络的集合,是实现数据大规模流通、高效安全利用的核心。由点到线、由线到面构成数场基础设施。场是基于数场基础设施构建的数据应用、场景化创新,以及相关能力、流程、规范的统称。安全是覆盖点、线、面、场的动态全流程保护措施。数场在技术架构上包括接入点、功能平台、管理平台、安全保障、网络传输等基础服务平台。
6.技术路线6——数联网
数联网由数据流通接入终端、数据流通网络、数据流通服务平台构成,提供一点接入、广泛连接、标准交付、安全可信、合规监管、开放兼容的数据流通服务。
7.技术路线7——数据元件
数据元件提供统一标准、自主可控、安全可靠、全程监管的数据存储和加工服务,支持采用标准化工序完成数据产品规模化加工、生产和再利用,适用于大规模数据加工和生产场景。数据元件作为连接数据供需两端的“中间态”,将原始数据与数据应用“解耦”,基于数据元件相关组件,实现从数据归集到数据元件加工交易全生命周期的数据要素开发和管控。
国家数据基础设施建设和运营,一方面要鼓励地方、行业、企业积极探索,大胆实践,并且应包容创新,允许失败。另一方面应加强国家数据基础设施标准制定工作,按照统一目录标识、统一身份登记、统一接口要求,建设数据流通利用设施底座。
(一)加强顶层设计
国家数据基础设施最终将建设成一个横向打通、纵向贯通的全国一体化设施,各地方、各行业、各企业在建设之初就应按照统一标准实施。应加强国家数据基础设施标准制定和实施工作,特别是要尽快按照统一目录标识、统一身份登记、统一接口要求等标准规范,加快建设国家数据流通利用设施底座。
(二)分步建设实施
国家数据基础设施既面临需求迫切的要求,也面临技术和应用不成熟的考验。因此,一方面要坚定地试,大胆地用,另一方面也要把握节奏,持续迭代发展。因此,今后5—10年,国家将三步走策略,分阶段突破数据安全流通关键技术和基础设施化。
第一阶段为试点试验阶段。
一方面组织国家重大科技专项,对隐私保护计算、区块链、控制技术、可信数据空间、数场、数联网、数据元件等为代表的数据可信安全流通关键核心技术开展技术攻关,以期快速实现技术突破;另一方面将通过国家数据基础设施建设试点试验,并行开展各种技术路线的探索实践。
第二阶段为技术收敛阶段。
通过试验试点,逐步淘汰资源消耗大、传输计算效率低的技术路线,围绕资源消耗和传输计算效率达标的技术路线进行提炼总结,研究制定国家推荐的数据安全可信流通技术标准和数据流通利用基础设施建设标准,形成国家安全可信数据流通技术路线。
第三阶段为全面建设阶段。
在全国各城市、各行业推广应用已收敛的技术路线,大规模建设行业数据基础设施、城市数据基础空间,鼓励建设企业数据数据基础设施,最后实现互联互通,形成横向打通、纵向贯通、协调有力的国家数据基础设施。
专家解读之九|大力发展数据标注产业 推动我国人工智能创新发展
文 | 清华大学公共管理学院教授 孟庆国
人工智能是新一轮科技革命和产业变革的重要驱动力量。数据标注是对原始数据进行采集、清洗、分类、标记、质量检验等专业数据治理活动,能有效提升数据供给质量,是人工智能发展的关键环节。大力发展数据标注产业,对推动人工智能创新发展、带动大学生就业和促进数字经济高质量发展具有重大意义。
(一)数据标注是提升数据供给质量的关键环节,是提升人工智能产业竞争力的先手棋
大模型已成为中美科技竞争的制高点,数据供给质量决定了模型的基础能力。当前,全球主流基础大模型,中文语料仅占全部语料的1%,高质量中文数据成为制约我国基础大模型能力的瓶颈。训练一个领先的大模型,需要数百万甚至数千万条标注数据。数据标注发展水平成为决定中美人工智能胜负的关键因素。美国在数据标注领域投入巨大,培育了一批数据标注独角兽企业,产业迅速发展。例如,OpenAI在训练GPT系列模型时,投入数千人力和数亿资金进行数据标注,高质量语料集炼就了全球最好性能基础大模型。相比之下,我国虽是全球第二大数据资源国,但数据质量不高,开发利用比例低。全面提升中文语料质量,成为破解我国大模型发展和提升人工智能产业竞争力的关键环节。
(二)数据标注是充分释放数据要素价值的前提条件,是数据要素价值化的必选项
我国是全球第一个将数据资源作为核心生产要素的国家,加快数据要素市场化配置,发挥数据的倍增、叠加、放大效应,是实现数据要素价值赋能经济创新发展的关键。我国是数据资源大国,但不是数据资源强国。2023年,我国数据资源32ZB(泽字节),保存数据仅有2.9%,数据留存率远低于发达国家水平。数据质量低,大量数据被浪费,成为制约我国数据资源价值发挥的瓶颈。数据标注能为机器提供高质量的数据,赋能机器学习、深度学习等人工智能算法的训练,从而实现数据价值转化。以医疗领域为例,通过对大量医疗影像数据进行标注,可以训练出精准的疾病诊断模型,提高医疗诊断的准确性和效率,为患者提供更好的医疗服务。目前,标注数据已广泛应用于生成式人工智能、自动驾驶、电子商务、精准医疗、智能制造等智能场景应用,是数据要素化的必选项。
(三)数据标注产业逐步向智能化、知识化和专业化迈进,是解决大学生就业的有效路径
随着人工智能从通用领域向专业领域演进,数据标注对专业性、技术性的人才需求日益增长,数据标注产业也从劳动密集型,逐步向知识密集型转变,为大学生创造了数百万就业岗位。比如,美国从事数据标注的岗位超过30万,德国最大的数据标注公司Clickworker全球雇佣了120万标注员,印度到2030年数据标注人才的需求也将到100万。我国各地发展的数据标注基地,也对拉动大学生就业产生了显著效果。比如,日照数据标注基地,2024年从业人员突破1.1万人。国内大型互联网公司在全国数据标注基地人员都超过了数万人。通过发展数据标注产业,能够有效缓解大学生就业压力,促进人才培养与产业发展的良性互动。