专栏名称: 阿里研究院
阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧,以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。 阿里研究,洞察数据,共创新知! 官方网站http://www.aliresearch.com/
目录
相关文章推荐
玺承电商观察  ·  百果园姚杨:8000万会员,百果园的私域营销 ... ·  17 小时前  
亿恩  ·  6亿元砸下!浙江大卖押注新增长极 ·  2 天前  
电子商务研究中心  ·  网易有道上线子曰翻译大模型2.0 ... ·  昨天  
大佬说  ·  张近东重出江湖,苏宁易购起死回生 ·  3 天前  
大佬说  ·  张近东重出江湖,苏宁易购起死回生 ·  3 天前  
51好读  ›  专栏  ›  阿里研究院

江小涓演讲:数字时代的创新与公共数据价值释放

阿里研究院  · 公众号  · 电商  · 2025-01-22 17:13

正文

以下文章来源于New Economist



导语



在大模型时代,数据对公共事物治理产生了深远影响。其中,数据驱动带来的科技创新范式变革尤为突出。海量数据、复杂算法与高效计算的有机结合,不仅能深入洞察具体应用场景,实现个性化赋能,还可以快速验证复杂关系,揭示数据间隐藏的关联模式,显著提升了企业在创新活动中的主导作用。此外,“数据治理”在促进市场公平竞争、支撑经济绿色转型、优化公共治理等方面也发挥重要作用。面对全面创新的时代背景,政府如何更好地承担公共职责,高效利用公共数据,成为亟待深入探讨的议题。


本文认为,政府应始终以维护公共利益为根本目标,并致力于营造开放、包容、公平的创新环境。公共数据要从过去的开发利用和授权运营,给地方政府激励,走向重新重视公共属性。在“治理数据”的过程中,坚守公共立场,认识到公共数据具有更强的公共产品属性。因此,公共数据的利用应回归社会长期价值创造的轨道,充分挖掘共享开放和开发利用的巨大潜力。考虑到部分公共部门具有企业性质,探索有偿使用数据的模式,可视为一种暂时的权宜之计,而非长期的主要方向。


2024年11月23日,“第五届中国公共事物治理国际研讨会(2024 China Commons Workshop,简称CCW5)”以线下和线上相结合的方式成功举办。江小涓教授在研讨会现场发表了题为“数字时代的创新与公共数据价值释放”的闭幕演讲。她指出,进入21世纪,以互联网、大数据、人工智能等为代表的数字技术带来数据生成、传递和处理能力的极大提升,推动各个领域全面创新。她的演讲从“用好数据对公共事物治理有多种重要影响”和“以维护公共利益为目标用好公共数据”两个方面阐述了如何释放公共数据价值。文来源:公共事务治理

本账号接受投稿,投稿邮箱:[email protected]





数字时代的创新与公共数据价值释放

中国社科院大学教授
中国工业经济学会会长
国务院原副秘书长
江小涓

各位老师、同学,大家好!很高兴参加公共事物治理国际研讨会,本次研讨会的主题“数字时代的公共事物治理”,非常契合公管学科的内核,又具有很强的时代性。我今天谈的主题是“数字时代的创新与公共数据价值释放”。当前公管领域许多研究跟前沿跟得紧,但对学科内核的把握有所欠缺。比如公共数据问题,无论是公共数据治理还是治理公共数据,都是公共管理学科最前沿和最核心的问题。如果仅从市场角度研究怎么把公共数据进行有偿出售、怎么定价、怎么打包,这与公共管理该有的立场是存在一定偏差的。反观如何把公共数据作为公共物品、公共价值进行释放,即使在公管学科领域,对这方面的研究仍相对较少。


对于“数字时代的创新”,政府应该干什么?在这个时代,除了公平公正之外,从发展的角度讲,最应该做的就是给创新创造一个良好的环境。数字时代的创新模式已经转变为“数据驱动的创新”。这个领域的研究问题,是一个非常基本面的问题。我今天前半部分分享的是创新范式的转变,阐述用好数据对公共事物治理有多种重要影响,怎么能把数据用好、释放出来,是政府的一个公共职责;后半部分分享的是公共数据的价值释放,我把它作为公共物品来讨论,探讨以维护公共利益为目标用好公共数据。“数据驱动创新”是“全面创新”,涉及科技创新、产业组织创新、商业模式创新和监管方式创新等。在这个时代,“数据”不是一个边际量,而是一个核心的量,驱动着全方位的变革。


一、用好数据对公共事物治理有多种重要影响

用好数据对公共事物治理有多种重要影响,即用数据治理,用数据作为新的工具来治理社会。数据到底对我们的治理对象和公共相关的问题产生何种影响呢?这里我主要分享四点。

一是数据驱动科技创新。这个时代最重要的创新发现是数据驱动的创新。在原先的科学范式中,观察、实验、推理、计算等是重大科学发现的来源;而在过去10年间,数据变成了创新最重要的来源。海量数据和复杂算法,使人类能够观察和解决复杂的科技问题。其一,海量数据和复杂算法揭示以往人们已知方向却难以及时证实的复杂关联。我们都知道人类蛋白质由20种氨基酸的排列组合构成,以前蛋白质结构主要靠电镜一个个观察解析,费时费力费钱。现在我们直接用算法来算的话(AlphaFold2),在四五年的时间里,就可以测100万个物种的2.14亿个蛋白质的三维结构。其二,海量数据和高效计算能力可以在不依靠假设的情况下发现数据间隐藏的复杂关联。现在材料科学最重要的突破,也是数据支撑的创新。比如,锂电池的容量,一般来讲每公斤/300瓦时就是一个顶限,这两年这个领域持续突破,从300到400已经费了很大的力气;但现在用新的办法去寻找新的材料,在实验室里已经达到了每公斤/1200瓦时。其三,数据能够洞察颗粒化场景并个性化赋能。一个例子是精准医学。通过分析大量个性化数据,包括病人的遗传信息、生物标志物、生活习惯、社会环境等大量多维度复杂数据,可以为每个患者提供非常个性化的医疗方案。

从政策层面进一步思考,意味着对国家创新体系中各主体的角色和地位进行重新审视。国家创新体系,大的讲“政产学研用”,小的讲“产学研”。谁是公共财政或者说政府该资助的研究重点,公共财政中的研发支出应该放到哪去?不同的社会、不同的创新模式是不一样的。新的数据支撑的创新范式出现以后,企业成为大前沿、大模型的主体企业从原来三段论中的“高校做基础、科研机构做技术、产业做转化”的模式中突破出来,往前端展得特别快,做了大量的基础性前沿性创新,冲到了整个技术创新的核心环节。原来我们讲的“产学研”相结合,企业是主体,实际上在这个时代它的主体地位大大地提升。

创新范式的转变也对全球科学研究产生了深远的影响。现在能做的低垂果实都已经摘完,要想真正实现科学创新,要么得特别往深的看,要么得特别往远的看,要么依靠非常强大的工具,这依靠单个国家的科学家是非常困难的。例如,与今年获诺贝尔化学奖相关的“计算蛋白质设计”研究便是由16个国家的80个实验室的科学家共同参与完成的。另一个例子是生物多样性网络信息服务平台,处理这一全球性复杂问题同样需要多国科学家的合作。再如国际热核聚变实验堆(ITER)计划,通过全球范围内的数据传递推动了平台建设。目前亟待突破的多是复杂的科学问题,即便是对海岸线海浪形成的研究,也需要全球范围的数据收集与解决方案。在当前的背景下,我们如何向政府阐述这一时代的科学发展方式,背后实际上涉及一个重大的学术理论问题。我们自己也曾撰写过一篇题为《数据、数据关系与数字时代的创新范式》的论文,对这个问题做了讨论。总之,从政府角度来看,创造良好的创新环境,关键是把“数据”这个新要素纳入考量。

二是数据推动市场竞争。在数字时代,大规模、大平台的创新优势特别突出。以前讲规模报酬,它是边际增量,边际成本下降的一个概念。但智能时代,大模型的优势已经变成了所谓的“Scaling Law”。“Scaling Law”是指,到了一个阈值之后,大模型可以达到小模型根本难以企及的优势,即“涌现”,涉及新能力的自发生成。大概是说,达到同样的性能,大模型需要的参数更少;在同样的参数量下,大模型通过迭代优化所用的步骤更少。因此,这个时代规模经济比以前威胁更大,“大者愈大”。传统的规模经济存在边界,但“涌现”是一个新能力生成的问题,并非同一东西的成本高低问题,它对未来的市场结构会带来巨大的冲击。因此,从政府监管的角度来看,打破市场垄断,提供公平竞争的环境,成为数字时代一种关键的公共产品。

那么市场有没有制约大企业垄断的因素?在软件时代,开源提供了一个选择,例如微软和安卓。2009年,微软曾一度在桌面操作系统领域占据超过90%的市场份额,但由于安卓采用了开源策略,到了2017年,安卓超过了微软的市场份额成为全球第一大操作系统。然而,开源模式是否能够在大模型时代展现出类似的力量,仍然是一个尚未明确的问题。面对这一不确定性,我们必须保持高度警惕。作为公共部门的理论研究者,我们有必要深入思考数字时代对市场竞争环境可能带来的影响。理解这一问题后,我们应持续推动数据开放,使得更多后起企业能够获取数据,为市场竞争创造有利环境。

中国这一条实践比理论做得好。举个例子,传统的几大领域,如视频、网络、社交和电子商务,曾在2018年被普遍认为已接近饱和,进入了“下半场”。当时,约有70%至80%的消费者集中在这些平台上。然而,四年后的今天,两个新的商业模式形成了,一个是网络直播,另一个是短视频,各自发展出超过五六亿用户的庞大市场。许多研究曾指出中国平台的竞争力不足。在2016年,美国和中国四大平台之间的差距并不明显。许多人认为这是中国产业或企业的“躺平”的标志。这一观点显然未能充分理解中国创业者的创新意愿和极高热情。中国产业的活力相当程度上体现在新企业的成长方面,特别是头腰部企业的快速更替。尽管像阿里、腾讯与Facebook、Twitter相比,差距有所拉大,但拼多多和TikTok等新兴平台却在近年来获得了显著的成长。一个重要原因,就是我们的数据使用相对更加开放,虽然先行者掌握了几乎所有消费者的数据,但后续进入者依然能够有效地复用这些数据。在过去一年里,全球市值增长最快的10个平台中,四个来自中国。过去八个季度APP下载量最大的十个平台中,中国平台始终占据3~4个。因此,我们必须理解中国的独特性。尤其是在数据是否能够支撑创新、打破先行者垄断这一问题上,中国具有明显的后发优势,这是值得关注的重要特征。

美国作为典型的市场经济国家,近年来在数据复用方面也做出了重要尝试。一个月前,美国消费局发布了一项新规定,要求金融机构解锁其客户数据。这项规定的背景是,当消费者希望从银行转向互联网金融平台时,互联网金融机构无法直接获取客户在银行的核心金融数据,无法全面评估借款人的信用风险。例如,金融平台只能依赖消费者的其他生活数据(如交通违规记录、税务履约情况等),而无法获得银行系统中的详细账单流水,从而无法准确评估其信用水平。这种数据获取障碍无疑会制约小企业的创新发展。因此,美国要求当消费者转移至其他金融机构办理业务时,原有机构必须提供其相关数据。这一措施的核心目的是将“数据复用”视为维护市场竞争力的一项公共服务,防止先行者通过数据垄断获取市场主导地位,确保市场竞争环境的公平性。鲜有公共领域的研究者从这个方向进行研究,许多研究主要沿着商科路径展开。作为公共事物的从业者和研究者,我们应当时刻关注这一议题,思考如何通过政策和制度设计,促进数据的有效复用,保障市场的公平性和创新环境的改善。

三是数据支撑绿色转型。绿色转型无疑是当今最典型的全球公共物品之一。近年来,国外在公共物品领域进行的实验多以环境指标、大气指标等为基础,因为这些指标相对易于量化和研究。环境容量类似于一个公共池塘,且其规模足够大,个人行为对其影响有限,因而非常适合进行实验性研究。在推动绿色转型方面,中国在全球范围内处于领先地位,这与中国强大的数据支持和数字技术密不可分。特别是在绿色能源的进网比例上,中国目前已达到约38%至39%。绿色能源,尤其是太阳能和风能,具有超短期波动性和不稳定性。例如,强风吹过时,风力发电迅速增加。然而,电网本身的稳定性要求它不能接受过大幅度的短期波动,因此如何有效地计算和调度电源,最大程度地吸纳绿色能源同时确保电网的安全稳定运行成为关键。我们还需要对绿色能源的消耗进行预测和引导。例如,当预计中午12点是绿色能源供给的高峰期时,如何通过合理的调度促使电力需求最大化,以消耗过剩的绿能,成为优化电网的重要措施。这时,我们可以通过调整电价来引导用户行为。例如,提供较低的电价激励用户在这一时段进行充电,从而使电网尽可能多地吸收绿色能源。中国绿色能源发展的成功,既依赖绿色能源技术本身,同时也得益于其强大的智能数据计算网络,使得绿色能源的高效调度与最大化利用成为可能。

四是数据服务公共治理。这个大家都比较熟悉,我就不展开细讲了。简单举一个例子来说明数据如何提升社会管理水平。长假期间的人员流动通常会带来管理上的巨大挑战,尤其是在一些景区和道路上,车流量过大、交通拥堵,甚至会造成安全隐患。而通过后台数据监控,我们可以实时掌握各大旅游景点的人流情况,从而提前采取应对措施,缓解交通压力。这一过程中,大数据的应用使得我们能够更有效地调配资源,及时采取措施以保证安全和效率。在数字时代,如何充分利用数据服务公共治理,尤其是在政府、产业、创新、社会治理和绿色转型等各个层面,已经成为至关重要的议题。数据的应用能够极大地提升政府在各个领域的决策和执行效率,最大限度地发挥其在公共治理中的作用。以长江禁渔为例,这是我们最典型的“公地问题”,过去这一问题极为复杂,常常陷入“猫捉老鼠捉不完”的局面,监管难度较大。现在通过安装监测设备,我们能够实时监控水域情况,甚至精确到每一条鱼的捕捞情况。


二、以维护公共利益为目标用好公共数据


接下来,我想谈谈公共数据的问题,并呼吁大家对此给予更多关注。大约在7月份,中共中央办公厅和国务院办公厅发布了《关于加快公共数据资源开发利用的意见》。什么是公共数据?它给了一个定义,“各级党政机关、企事业单位依法履职或者提供公共服务过程中生产的公共数据是国家的重要战略性资源。”

关键问题在于,公共数据应当是无偿在政府内部共享和开放给社会使用,还是应作为产品开发并出售。在“二十条”的制定中,这一问题就引发广泛讨论。当时认为其可以开发使用的声音是很强的,但是最后还是坚持了这个提法,一是“推动用于公共治理、公益事业的公共数据有条件无偿使用”。其中“有条件”指的是数据必须经过匿名化和去标识化处理,以确保数据安全。二是“探索用于产业发展、行业发展的公共数据有条件有偿使用”。一个叫“推动”,一个叫“探索”,谁是主要方向,是非常清晰的。

《关于加快公共数据资源开发利用的意见》这个文件,虽然标题是开发利用,但在文件中,仍然坚持了共享、开放与开发三种模式。而且将共享开放排序在先。同时“鼓励探索公共数据授权运营”,强调的是“鼓励探索”。为什么要如此坚持数据共享与开放,是因为数据天然具有非竞争性这个公共物品的属性,公共数据更是如此

公共数据的开放与共享是全球共识。公共数据开放的理念在国际间得到广泛认同,多个国家已达成一致,并共同签署了相关协议。开放数据的定义是“公众可获取的、能够被用户完整观测和使用的数据”。例如,美国已要求所有联邦机构必须以“机器可读”的形式提供数据,以便公众能够方便地通过智能手机或电脑进行访问。免费开放,这是一个全球趋势。我国在公共数据共享和开放方面仍有广阔的提升空间。我国的数据量庞大,公共部门规模庞大,公民对政府收集数据的接受度在全球范围内具有较高的容忍度。我们日常生活中常见的电线杆上的监控摄像头,记录了我们许多的行为和信息。这是我国在公共数据共享和开放方面的独特特点和实践。

我们还拥有全球最大的公共部门,我们的国有企业在许多方面也承担着类似公共部门的职能。本来这是我们的优势,现在却变成我们训练模型的弱项。如果我们无法将优质的公共数据开放出来,可能会对我们的大模型训练带来严重后果——这些模型将无法获取到最优的数据,从而导致训练结果质量低劣。开放这些数据供各类模型使用,才能更好地推动创新和发展。

前面我们讲了那么多需要开放的理由,但是为什么文件中还是提了一个“尝试有偿开发利用”呢,它背后也有一些问题。首先,有些原始数据由于涉及敏感信息或其他原因,无法公开。管理者通常认为,将这些数据转化为产品的开发存在一定的成本。如果不允许通过有偿方式回收这些成本,只能依靠政府财政支持。这一点在某种程度上是可以理解的。

第二,有些公共数据并不被广大公民和市场主体所需要,而是某类企业运营需要。因此,实施“用者付费”在这类政府服务中是一个合理的选择。但这种“用者付费”的问题,尤其在一些特定场景中,显得尤为敏感。举个例子,前些天某地方气象局提出要减少气象数据向公众开放的天数,理由是认为公众并不需要这些数据,只有企业,尤其是涉及物流和供应链管理的企业,才需要获取极端天气相关信息。例如,某些企业在运输鲜花或生鲜产品时,需要知道航班是否正常起飞,以及极端天气如何影响其交付时间。气象数据对于企业而言是确保按时交付承诺的关键。然而,普通公众同样也有其需求,尤其是在天气对日常生活的安全产生影响时。例如,家长需要了解大风天气以确保孩子的安全,或是旅游者在规划出行时希望避开恶劣天气。因此,究竟是企业需要这些数据,还是公众需要,是否构成公共产品,必须进行深入研究。我们不能仅依据掌握数据的机构或部门的主观看法来做决定,而应坚持公共数据应广泛服务社会的原则。

第三,有些公共部门是企业性质,它有偿提供各类数据是合理的。这个我觉得是相对合适的。

另外现在各方对公共数据的诉求的集中在“能拿到”,而不是“免费拿到”,即使付费拿到也可以。所以给予适当的激励措施促使数据开放是合理的。这一定程度上是权宜之策,要把权宜之策和本质问题区别开来对待。前段时间部分地方政府曾尝试将公共数据例如智慧城市运营数据打包出售,这种做法引起了公众广泛关注和讨论,但遗憾的是,学术界特别是公共治理领域的研究者,鲜有明确的反对声音,反倒是各方舆论压力迫使其回撤。总之公共管理领域的学者在讨论问题时要牢记公共立场,一定程度的妥协或权宜也许需要,但与商科一样思考和讨论问题就有负公共利益代言者这个身份了。


三、总结


最后简要总结一下。这个时代海量数据对发展和治理产生了深远的影响,在公共事物领域尤为突出。用好数据能够为经济社会治理全面高效赋能,这就是我们说的“数据治理”。

另一个是“治理数据”的问题。公共数据具有公共产品属性,共享开放和开发利用潜力巨大。在这一过程中,不同利益主体的立场可能各异,而作为公共部门的从业者,我们应始终站在最大化维护公共利益的角度,妥善处理公共数据开放共享与开发利用之间的关系。在当前社会快速变化的背景下,面对各种问题时,我们作为公共部门的工作者,应时刻审视自己的立场,确保我们始终扎根于最合适的价值立场,以推动社会的持续进步与发展。

谢谢大家!

-END-

 版块介绍 — 治理之智 


在全球化背景下,科技的快速发展也带来了前所未有的治理挑战。本板块内容依托阿里巴巴集团先进的AI科技能力、丰富的应用场景与负责任的技术生态,聚焦于AI风险、AI大模型安全、AI大模型开闭源生态、AI大模型出海等AI治理政策研究,基于技术理性的风险观,为大模型发展与安全平衡与取舍提供独到见解。同时,我们致力于收集和分享海内外AI治理先进理论与经验,为构建合理的科技治理体系提供智慧与灵感。


推荐阅读

Reading

1、静水流深:美国人工智能治理的特征、趋势与启示

2、《中华人民共和国人工智能法(学者建议稿)》:产业期待中的中国方案

3、“不用旧瓶装新酒”:模型开源生态的认知——基于美国NTIA公共咨询意见的分析

4、寻找高质量数据:对“确定性”的实践探寻和思考

5、薛澜:人工智能面临治理挑战

6、合成数据:治理之智

7、合成数据:大模型训练和应用的新方案

8、合成数据:前世今生

9、“全球AIGC版权侵权首判”留下的三个问题

10、2024年中国数据治理前瞻:再平衡与新常态

11、走向AGI时代——关于AI发展与治理的十段观察

12、段伟文|如何应对前沿科技的核心伦理风险?

13、大模型数据之二|中美大模型的竞争之路:从训练数据讲起

14、大模型训练数据之一|大模型训练的“阿喀琉斯之踵”:数据这么近那么远?

15、ChatGPT这么牛,我们应该如何兼顾发展和治理?

16、治理之智 | 合成数据:模型能力跃迁的必经之路

17、治理之智 | 对“数据入表”的若干思考:重视数据意识能力,回归要素价值本源

18、治理之智 | 算法影响评估的三个基本问题:制度定位、机制模式与改革启示(上篇)

19、治理之智 | 算法影响评估的三个基本问题:制度定位、机制模式与改革启示(下篇)

20、治理之智 | 检索增强:解决企业“上云用模”的数据安全隐忧

21、治理之智|用户-模型数据交互安全:挑战、应对及思考