专栏名称: 赛迪智库
赛迪智库感谢您的关注。作为中国工业和信息化领域的咨询翘楚,我们密切关注工业和信息化领域热点问题,同步追踪国内外工业和信息化最新动向。
目录
相关文章推荐
贵州日报  ·  中方表态:强烈不满,坚决反对 ·  11 小时前  
贵州日报  ·  黔南州最新人事 ·  16 小时前  
百姓关注  ·  贵阳⇌兴义高铁,来了!开通时间确定→ ·  3 天前  
51好读  ›  专栏  ›  赛迪智库

前瞻|总第873期 人工智能语料库发展趋势和建议

赛迪智库  · 公众号  ·  · 2024-12-11 17:00

正文


重磅福利
赛迪出版物

赛迪出版物线上全新亮相!即日起,赛迪智库系列出版物开启全文免费在线阅读模式,轻点手机即可触达!

在线阅读方式:一、关注“赛迪智库”微信公众号,点击底部菜单栏“出版物”;二、浏览赛迪报告库网页report.ccidgroup.com搜索刊名。


人工智能(AI)语料库是汇集大量来自书籍、学术文章、社 交媒体等渠道的文本、图片、音频、视频数据集合,是人工智能领域研究和应用的基础数据。目前,国际主流大模型训练语料库以英文语料为主,中文语料占比不超过5%。中文人工智能语料库匮乏制约了我国大模型性能飞跃和技术创新。赛迪研究院建议加快专业语料库建设,提升语料数据质量;优化基础设施建设,维护语料数据安全;完善语料生态环境,构建评估作价体系。


点击文末 “阅读全文” 可查看下载全文

一、语料库是AI模型开发的基石,国内外AI语料库在数据规模、语料质量和开源共享方面存在差距

(一)大规模、高质量的语料数据是训练和评估模型的基础;

(二)国外语料库在数据规模、开源建设和应用场景方面具有先发优势;

(三)国内企业和研究机构积极跟进中文AI语料库建设

二、AI语料库面临的三大挑战

(一)语料收集受限于数据来源、版权以及隐私保护法规;

(二)语料数据的清洗和标注需要投入大量人力成本;

(三)海量语料存储、同步处理和安全管理的难度大

三、措施建议

(一)加快专业语料库建设,提升语料数据质量;

(二)优化基础设施建设,维护语料数据安全;

(三)完善语料生态环境,构建评估作价体系

本文作者:电子信息研究所 谢馨慧 赵燕 陈渌萍

电子邮件:[email protected]


点击文末 “阅读全文” 查看下载全文


温馨提示

如果你喜欢本文,请分享到朋友圈,想要获得更多信息,请关注“赛迪智库”。

我们的推送时间是10:00或17:00,一定不要忘了给“赛迪智库”设星标哦!







请到「今天看啥」查看全文