专家解读 | 破局、立标、赋能，建设高质量数据集

国家数据局 · 公众号 · · 2025-03-07 20:27

正文

文 | 中国科学院科技基础能力局副局长、自动化研究所副所长曾大军

人工智能技术的突破性进展正深刻重塑全球产业格局，而高质量数据集作为人工智能模型训练与应用的基石，已成为国家科技发展的核心要素。2024年中央经济工作会议明确提出“人工智能+”行动，标志着数据要素的战略地位从“支撑”升级为“引领”。高质量数据集不仅是技术创新的“燃料”，更是推动超级人工智能、具身智能、自动驾驶等未来产业落地的关键引擎。

建设高质量数据集面临的挑战

当前，高质量数据供给的结构性矛盾亟需改善，数据合成技术链与产业链的协同有待加强，数据治理与隐私保护的规范性缺乏行业标准，数据发展政策与规划有待进一步细化。

首先，我国在医疗、法律、工业、科学等行业的高质量数据集存在供给性矛盾，公共数据开放程度低且标准不统一。以工业领域为例，大量数据因企业间壁垒未被有效利用。具身智能领域也存在数据采集瓶颈，真实场景数据获取成本高昂，缺乏统一的标注和评估标准，这严重制约了相关技术的发展与应用，使得人工智能在这些领域的模型训练和优化面临数据 “瓶颈”，难以充分发挥其潜力，进而影响了我国人工智能在各垂直领域的整体发展进程。

其次，数据合成技术连和产业链的协同不足，面临"质量与效率"的双重困境。通过人工智能生成多样化合成数据的技术成熟度较低，难以满足大模型训练对于海量、多样化数据的需求。同时，商业模式相对滞后，缺乏成熟的 “人工智能+数据” 平台，数据汇聚与治理主体尚未成熟，无法有效整合各方资源，形成协同发展的良好生态。

再次，数据发展政策存在“有框架缺细则”的结构性缺陷。虽然我国已经推出了一系列促进数据发展的政策与规划，但针对人工智能新一代高质量数据集专项规划尚未落地，数据流通机制与标准亟需细化。在生态建设方面，尚未形成完善的、涵盖数据采集、标注、存储、管理、应用等全链条的生态系统，各环节之间的衔接不够紧密，协同效应不足。

最后，数据治理与隐私保护机制尚不完善。一方面，数据安全法律法规尚不完善，数据产权界定不清晰，数据交易规则和监管机制不健全，导致数据滥用、数据泄露等风险频发，严重威胁个人隐私和企业商业秘密；另一方面，数据治理技术手段相对滞后，数据分类分级、数据脱敏、数据加密等技术应用不足，难以满足数据全生命周期的安全管理需求。

专家解读 | 破局、立标、赋能，建设高质量数据集

正文

请到「今天看啥」查看全文