专栏名称: 国家数据局
国家数据局新闻宣传、信息公开、服务群众的重要平台,及时发布权威信息,解读重大政策,提供政务服务等。
目录
相关文章推荐
51好读  ›  专栏  ›  国家数据局

专家解读 | 畅通数据汇聚、供给、利用堵点 凝力推进数据集高质量建设

国家数据局  · 公众号  ·  · 2025-03-06 16:27

正文

文 | 中国电子信息产业发展研究院院长 张立

建设高质量数据集是落实《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》《“数据要素×”三年行动计划(2024—2026年)》,推动数据产业和数据标注产业高质量发展,推进“人工智能+”行动的重要抓手。当前,随着以Deepseek为代表的高效推理大模型快速发展和广泛部署,数据汇聚产量低、供给质量低、利用效率低的矛盾愈发突出,高质量数据集建设的重要性日益显现。应从供给、标准、安全、价值多向发力,做好高质量数据集建设工作,赋能行业高质量发展。

01

高质量数据集建设面临“三低”难题

(一)数据汇聚产量低:数据存量小产量低,数据集汇聚共享效率有待加强。

一是 高质量数据储备量低,中文数据规模较小。有关研究表明,应用于人工智能的数据集可能会在2026-2032年间耗尽所有高质量语言数据。此外,国际主流大模型数据集主要以英文为主,流行的Common Crawl数据集项目中文数据只占据4.8%。 二是 数据流通开放力度不足,公共数据获取渠道不畅。近年来,网络下载数据的通道不稳定,数据发布格式多样,跨部门、跨地区数据共享程度不足,数据孤岛现象依然存在,数据资源缺乏有效整合和利用。 三是 数据标注自动化程度不足,数据集产量与数据增速不匹配。2023年,我国数据生产总量达32.85泽字节,同比增长22.44%。然而,当前我国数据标注智能化、专业化程度较低,专业数据处理人员队伍数量缺口较大,数据集产量小,部分专业数据集无法规模化生产,难以满足专业场景需求。

(二)数据供给质量低:数据集质量良莠不齐,缺乏主流高价值数据引领。

一是 数据集存在缺失、尺度不一问题。不同行业、系统产生的数据格式多样,受制于数据采集、加工过程中各类误差、工具手段稳定性等影响,数据集普遍存在分布偏差、颗粒度不一致、采集缺失甚至错误数据等问题。 二是 数据集混用影响训练效果。有关研究表明,在大模型的基准测试中相关数据被用于模型训练的情况越来越常见,导致大模型出现部分测试分数虚高、泛化能力下降、不相关任务表现骤降等问题,甚至可能导致大模型在实际应用中产生“危害”。 三是 数据集标准不一,各行业主流价值数据集引领带动作用未体现。当前,高质量数据集标准体系尚待完善,数据质量评估评价缺乏统一标准,政务领域、重点行业缺乏典型的主流价值数据集。

(三)数据利用效率低:算法偏见加剧数据遗失,数据要素价值挖掘短板明显。

一是 算法偏见导致原始数据遗失率高。在大模型训练过程中,数据呈现长尾分布,为提高训练成功率,多数大模型算法采用“去尾”方法,即训练过程中对原始数据进行选择性“忽略”,因而导致数据遗失问题,甚至造成对原始数据的破坏。 二是 数据使用率较低。据统计,2023年,在我国存储的数据中,一年未使用的数据占比约4成,企业一年未使用的数据占比为超过30%,大量数据被存储后便不再被读取和复用,成为“死”数据。 三是 数据价值挖掘不足。数据加工能力不足导致大量数据价值被低估、难以挖掘复用。据统计,2023年,全国数据产存转化率为2.9%,海量数据源头即弃。在开展数字化转型的大型企业中,实现数据复用增值的仅有8.3%,数据价值挖掘效率极低。此外,高质量数据集的价值实现路径不清晰也引发企业运营建设积极性降低。







请到「今天看啥」查看全文