专栏名称: 21世纪商业评论
《21世纪商业评论》敏感于一切商业新知、商业产品、商业模式和商业英雄,敏感于新公司的新玩意、老公司的新改造、旧话题的新表达、老商业的新颠覆,为您提供最新鲜实用的商业养分。
目录
相关文章推荐
21世纪商业评论  ·  刘强东,三年6次给员工加薪 ·  2 天前  
FT中文网  ·  美联储开始降息之后会怎样? ·  2 天前  
哈佛商业评论  ·  退休,对你意味着什么? ·  2 天前  
中国建材集团  ·  中国建材入围多项影响力榜单! ·  4 天前  
中国建材集团  ·  中国建材入围多项影响力榜单! ·  4 天前  
21世纪商业评论  ·  280亿热水器巨头,低迷时刻出手变招 ·  6 天前  
51好读  ›  专栏  ›  21世纪商业评论

AI数据告急,大厂盯上廉价年轻人

21世纪商业评论  · 公众号  · 商业  · 2024-09-06 20:22

正文


本文字数:2190|预计3分钟读完

自造数据,喂养模型。


来源丨字母榜

作者丨马舒叶



为了拿到新数据训练AI大模型,字节等互联网大厂亲自下场找人。

 

两人结组、单次3小时,包括80分钟自由聊天,60组有提示词的对话,单次结算金额为300元。

 

由于互联网数据散布在不同平台,并有重重壁垒,AI大模型可以用来训练的公开数据,正在枯竭

 

大钟寺录音室内部图


如何寻找高质量的新数据“喂养”大模型,成了所有AI团队的共同难题。

 

跳过品控不稳定的第三方平台,试图亲自下场为AI写“剧本”,或许是大模型厂商的一条新路子。

 


1


条件苛刻

 


00元单次、录制地在北京大钟寺的“头部大厂录音兼职”,显得颇具诱惑力。


8月,兼职群内,有了200多名等候录音的人。


做AI录音员,“给AI写剧本”并不轻松


录音前,所有人必须上传一段2至3分钟对话录音做“样音”,审核人员要通过样音效果来决定是否选用。


这个过程会有3名员工负责审核,其中2名员工审核都通过,才能直接预约录音时间,如果不通过,还有交叉审核。


“审核老师喜欢能聊的,爱聊的。”情绪高昂的对话,内容有主题,让不少人卡在了第一道门槛外。


样音二审过后,张雪于第二周预约了晚上6-9点录音。


大钟寺录音群


录制当晚,张雪在录音室,通过耳机收听字节员工指令。


第一个环节,80分钟无主题自由聊天。要求聊天要有内容,每个话题不超过10分钟,不能出现大段独白,对话状态要相对平均。


为了保证语音质量,出现杂音要重录,聊天“不自然,引导痕迹过重”,也要重录。第一个环节就花费近2个小时。


第二个环节,60组有提示词的对话,有剧本参考。张雪不仅要根据情境编对话,还要保证严格的对话模式。


如果上一组对话是A结束收尾,那么下一组对话必须由B开始。


为了满足大模型的调试需求,每一次指令必须清晰明确地说出提示词。



“可以详细一些吗?”在耳机内,字节人员明确表示,剧本可以改,提示词不能动,换个说法,AI就可能难以识别。


为了保证录音质量,录音不清晰、吞字或者情绪不足,都会重新录制


等录制结束,已接近晚上10点。一次3小时录音,工作人员一天要录制3场,每周日程几乎都是满的。


除了北京,字节还在上海、杭州、重庆、南京、成都、天津等多个城市招募录音员。

 


2


制造数据

 


2023年,AI大模型成为行业风口,大厂除通过第三方公司购买数据外,也创造出了“大数据标注师”“AI编辑”等外包岗位。


小语种专业的阿霖,做验收,即检验大模型图片识别生成的小语种文字,是否与图片一致。


按照“一个词或一句话算一个核算框,一个框算1毛钱”的价格,核算几百条,阿霖一次能赚几十元。


今年,阿霖通过第三方数据公司接单,做翻译类AI数据标注,价格涨至1元多一条。



阿霖发现,对于社交平台新词,或者小众领域的惯用词,如果数据库没有收录,大模型就错漏百出。


“受限于版权,学不到新的文本内容,翻译效果受影响。”


除了第三方外包公司,大厂也建立起自己的数据基地


百度的数据基地分布在南昌、阳泉等非一线城市,进行数据标注、方言朗读等模型训练。


“招一些当地的专科生,会操作电脑就行。月工资也往往在3000-5000元之间。”美团早就有了驻厂AI训练师。


相比舍得砸钱的大厂,大模型四小龙想要拿到高质量数据,难度高不少。


“核心的闭源高质量数据,往往都已经被大厂垄断。AI创业公司,甚至是AI四小龙,都可能只能拿到边缘数据。”某大模型厂商算法人员Leo说。


由于高质量数据能够显著提升模型效果,大模型厂商除了开源的公开数据,还需要更高质量的数据


这些数据往往被大公司把握,如国内的新闻数据掌握在腾讯、字节等大厂内部,海外则由Common Crawl、GDELT、The Pile等占据。


要想实现技术突围,AI公司就得交一笔不小的“数据费”。

 


3


量多质缺

 


大模型创业下半场,对于厂商来说,“大数据幻觉”是大模型集体“降智”的原因之一。


向MiniMax的海螺AI输入“一个小女孩怀里抱着一只布偶猫”,生成的6秒视频中,小女孩的手指细节丰富,但怀里不是布偶猫。


面对生成结果,员工解释:“用于训练大模型的数据,在猫咪的绑定图片里,并没有布偶猫。”


当模型被要求生成的内容,与事实或用户输入不一致,大模型就会开始“胡说八道”


对于渴望新用户的大模型厂商而言,生成效果好坏,决定产品是否有机会出圈。


忠实用户孔昉已经抓到好几次AI“胡言乱语”的瞬间,或是编纂出不存在的引用文献,或是不能理解新概念。这让孔昉对大模型产生信任危机。 



现在,孔昉会同时用2-3个不同厂商的大模型“跑”同一个问题交叉对比,二次确认关键信息,“现在AI生成很像抽卡,效果不可控,还容易智障。


高质量数据或将逐渐耗尽,想要解决“大模型幻觉”问题,拿什么数据来“喂养”大模型,显然颇为关键


某接近百度的人士透露,大模型厂商会通过三方公司直接购买数据。


这样做省时省力但并“不省事”,购买来的数据,无论是文本、录音还是视频,质量都不可控。


对于积极发展B端客户的头部大模型而言,针对某个客户,个性化地定制大模型,成为如今大厂AI业务主要收入来源。


想要训练出个性化模型,就需要高标准数据来“喂养”,甚至根据不同阶段的学习效果,进行数据需求调控。



不是随便买一堆语音来,大模型就能学会的”。


阿霖发现,作为提供数据的甲方,她所在的公司,并不关心大模型生成的语音质量。


她只需要对大模型成果进行粗略打分,对于细节差异,如何改进,三方公司不会询问。


“用哪家的大模型,生成的内容都差不多。”用户表示。


这给急着商业化的大模型厂商蒙上阴影。


大手笔咬牙“买数据”,恐怕将成为大模型厂商的新赛点。




推荐文章
21世纪商业评论  ·  刘强东,三年6次给员工加薪
2 天前
FT中文网  ·  美联储开始降息之后会怎样?
2 天前
哈佛商业评论  ·  退休,对你意味着什么?
2 天前
中国建材集团  ·  中国建材入围多项影响力榜单!
4 天前
中国建材集团  ·  中国建材入围多项影响力榜单!
4 天前
21世纪商业评论  ·  280亿热水器巨头,低迷时刻出手变招
6 天前
台海军事热点  ·  工资低于8000的人,都看看吧!
7 年前