文 |
中国科学院科技基础能力局副局长、自动化研究所副所长
曾大军
人工智能技术的突破性进展正深刻重塑全球产业格局,而高质量数据集作为人工智能模型训练与应用的基石,已成为国家科技发展的核心要素。2024年中央经济工作会议明确提出“人工智能+”行动,标志着数据要素的战略地位从“支撑”升级为“引领”。高质量数据集不仅是技术创新的“燃料”,更是推动超级人工智能、具身智能、自动驾驶等未来产业落地的关键引擎。
当前,高质量数据供给的结构性矛盾亟需改善,数据合成技术链与产业链的协同有待加强,数据治理与隐私保护的规范性缺乏行业标准,数据发展政策与规划有待进一步细化。
首先,我国在医疗、法律、工业、科学等行业的高质量数据集存在供给性矛盾,公共数据开放程度低且标准不统一。以工业领域为例,大量数据因企业间壁垒未被有效利用。具身智能领域也存在数据采集瓶颈,真实场景数据获取成本高昂,缺乏统一的标注和评估标准,这严重制约了相关技术的发展与应用,使得人工智能在这些领域的模型训练和优化面临数据 “瓶颈”,难以充分发挥其潜力,进而影响了我国人工智能在各垂直领域的整体发展进程。
其次,数据合成技术连和产业链的协同不足,面临"质量与效率"的双重困境。通过人工智能生成多样化合成数据的技术成熟度较低,难以满足大模型训练对于海量、多样化数据的需求。同时,商业模式相对滞后,缺乏成熟的 “人工智能+数据” 平台,数据汇聚与治理主体尚未成熟,无法有效整合各方资源,形成协同发展的良好生态。
再次,数据发展政策存在“有框架缺细则”的结构性缺陷。虽然我国已经推出了一系列促进数据发展的政策与规划,但针对人工智能新一代高质量数据集专项规划尚未落地,数据流通机制与标准亟需细化。在生态建设方面,尚未形成完善的、涵盖数据采集、标注、存储、管理、应用等全链条的生态系统,各环节之间的衔接不够紧密,协同效应不足。
最后,数据治理与隐私保护机制尚不完善。一方面,数据安全法律法规尚不完善,数据产权界定不清晰,数据交易规则和监管机制不健全,导致数据滥用、数据泄露等风险频发,严重威胁个人隐私和企业商业秘密;另一方面,数据治理技术手段相对滞后,数据分类分级、数据脱敏、数据加密等技术应用不足,难以满足数据全生命周期的安全管理需求。