2024年12月1日,在2025年度公务员考试申论试题上,出现了数据标注相关的题目:
四、假如你是溪青县数据标注员,请根据给定资料4,梳理数据标注企业发展中的问题并提出进一步推动数据标注企业发展的建议。(20分)
要求:问题梳理全面、准确、有条理,层次分明。字数不超过400字。
数据标注是什么,为什么近期这个词大热,并出现在2025年国考的申论试题上?
什么是“数据标注”?简单理解,就是给文本、语音、图片、视频等等各种各样的数据“打标签”。
通过大量标注数据的训练,人工智能模型逐渐学会了如何分析和处理信息,进而实现各种智能化应用。
在“数据要素×”与“人工智能+”的双重驱动下,数据标注作为人工智能(AI)系统的数据“供能”环节,已成为智慧城市、公共安全和社会治理等政府关注领域的重要基础支撑。
我国数据标注产业的发展离不开政策支持和市场需求。从2016年到2017年,中央对数据标注的要求主要是建设数据资源库和标准测试集。这个阶段也是市场对图片、视频等类型的数据标注需求爆炸式增长的阶段。
从2021年起,中央文件中对数据标注的政策指向更加明确,提出提升数据的多样化处理能力、聚焦数据标注等数据处理环节等,从数据标注能力、数据标注的应用方向等角度更进一步地为市场指明了发展思路。
2024年5月24日,
国家数据局在第七届数字中国建设峰会上公布成都、沈阳、合肥、长沙、海口、保定、大同为全国数据标注试点城市
,数据标注上升至国家战略。
国家数据局数字科技和基础设施建设司指导已组织召开了两次数据标注产业供需对接会。
1月13日,国家发展改革委、国家数据局、财政部、人力资源社会保障部联合印发
《关于促进数据标注产业高质量发展的实施意见》
(以下简称《实施意见》)。
自
动驾驶、低空经济、智能制造、智慧医疗等领域都离不开数据标注。据测算,2023年我国数据标注产业规模达800亿元左右。
本次发布的《意见》提出,到2027年,数据标注产业专业化、智能化及科技创新能力水平显著提升,产业规模大幅跃升,年均复合增长率超过20%。培育壮大数据标注产业,对于推动人工智能创新发展具有重要支撑作用。
清华大学计算社会科学与国家治理实验室执行主任 孟庆国:高质量数据短缺,是我们一些大模型发展过程中遇到的瓶颈,数据标注就是对数据进行筛选、清洗、分类、标记等各种加工处理,能产生高质量的数据集,让机器读得懂、学得快、训得好。现在的一个新趋势是,数据标注自身的自动化、智能化程度也在明显提高,与此同时,细分领域变多,也需要金融、交通、能源、医疗等一些背景的专业人才,数据标注正在逐步从传统的劳动密集型向知识密集型产业转变。
2025年1月9日,
国家数据局综合司发布通知,启动数据标注优秀案例征集活动
。
案例应为具体的实践成果,涉及内容均已实施完成,具备一定先进性、创新性、示范性、成效性、合规性,并取得了一定的经济效益和社会效益。
1月13日,北京市开展数据标注优秀案例征集工作,聚焦数据标注技术创新、行业赋能、标准应用、生态培育、人才培养等五个方向,案例须适合向社会公开推广,鼓励与国家算力枢纽节点、数据标注基地、数据基础设施等协同联动。
案例应为具体的实践成果,涉及内容均已实施完成,具备一定先进性、创新性、示范性、成效性、合规性,并取得了一定的经济效益和社会效益。
1月14日,湖南省启动征集数据标注优秀案例,同样聚焦数据标注技术创新、行业赋能、标准应用、生态培育、人才培养等五个方向。
1月15日,武汉市组织征集数据标注优秀案例活动,聚焦五个方向,面向武汉市区域内注册登记的企事业单位,具有独立法人资格。
国家数据局:征集数据标注优秀案例
七大试点城市联合发起共建数据标注产业可信数据空间倡议
4.2 亿!人工智能数据标注和定制化数据服务项目
全国首批7家数据标注基地试点城市建设动态盘点
国家数据局发布首批7家数据标注基地试点城市