专栏名称: 国家数据局
国家数据局新闻宣传、信息公开、服务群众的重要平台,及时发布权威信息,解读重大政策,提供政务服务等。
目录
相关文章推荐
51好读  ›  专栏  ›  国家数据局

专家解读 | 破局、立标、赋能,建设高质量数据集

国家数据局  · 公众号  ·  · 2025-03-07 20:27

正文

文 | 中国科学院科技基础能力局副局长、自动化研究所副所长 曾大军

人工智能技术的突破性进展正深刻重塑全球产业格局,而高质量数据集作为人工智能模型训练与应用的基石,已成为国家科技发展的核心要素。2024年中央经济工作会议明确提出“人工智能+”行动,标志着数据要素的战略地位从“支撑”升级为“引领”。高质量数据集不仅是技术创新的“燃料”,更是推动超级人工智能、具身智能、自动驾驶等未来产业落地的关键引擎。

建设高质量数据集面临的挑战

当前,高质量数据供给的结构性矛盾亟需改善,数据合成技术链与产业链的协同有待加强,数据治理与隐私保护的规范性缺乏行业标准,数据发展政策与规划有待进一步细化。

首先,我国在医疗、法律、工业、科学等行业的高质量数据集存在供给性矛盾,公共数据开放程度低且标准不统一。以工业领域为例,大量数据因企业间壁垒未被有效利用。具身智能领域也存在数据采集瓶颈,真实场景数据获取成本高昂,缺乏统一的标注和评估标准,这严重制约了相关技术的发展与应用,使得人工智能在这些领域的模型训练和优化面临数据 “瓶颈”,难以充分发挥其潜力,进而影响了我国人工智能在各垂直领域的整体发展进程。

其次,数据合成技术连和产业链的协同不足,面临"质量与效率"的双重困境。通过人工智能生成多样化合成数据的技术成熟度较低,难以满足大模型训练对于海量、多样化数据的需求。同时,商业模式相对滞后,缺乏成熟的 “人工智能+数据” 平台,数据汇聚与治理主体尚未成熟,无法有效整合各方资源,形成协同发展的良好生态。

再次,数据发展政策存在“有框架缺细则”的结构性缺陷。虽然我国已经推出了一系列促进数据发展的政策与规划,但针对人工智能新一代高质量数据集专项规划尚未落地,数据流通机制与标准亟需细化。在生态建设方面,尚未形成完善的、涵盖数据采集、标注、存储、管理、应用等全链条的生态系统,各环节之间的衔接不够紧密,协同效应不足。

最后,数据治理与隐私保护机制尚不完善。一方面,数据安全法律法规尚不完善,数据产权界定不清晰,数据交易规则和监管机制不健全,导致数据滥用、数据泄露等风险频发,严重威胁个人隐私和企业商业秘密;另一方面,数据治理技术手段相对滞后,数据分类分级、数据脱敏、数据加密等技术应用不足,难以满足数据全生命周期的安全管理需求。







请到「今天看啥」查看全文


推荐文章
风青杨  ·  ▷ 食商低的人肯定不懂生活
8 年前
晚安少年  ·  VOL.573 一个人最好的模样
8 年前
济宁潮事儿  ·  睡老婆和睡情人的区别,服了
7 年前