专栏名称: 21世纪商业评论

《21世纪商业评论》敏感于一切商业新知、商业产品、商业模式和商业英雄，敏感于新公司的新玩意、老公司的新改造、旧话题的新表达、老商业的新颠覆，为您提供最新鲜实用的商业养分。

AI数据告急，大厂盯上廉价年轻人

21世纪商业评论 · 公众号 · 商业 · 2024-09-06 20:22

正文

本文字数：2190｜预计3分钟读完

自造数据，喂养模型。

来源丨字母榜

作者丨马舒叶

为了拿到新数据训练AI大模型，字节等互联网大厂亲自下场找人。

两人结组、单次3小时，包括80分钟自由聊天，60组有提示词的对话，单次结算金额为300元。

由于互联网数据散布在不同平台，并有重重壁垒，AI大模型可以用来训练的公开数据，正在枯竭。

大钟寺录音室内部图

如何寻找高质量的新数据“喂养”大模型，成了所有AI团队的共同难题。

跳过品控不稳定的第三方平台，试图亲自下场为AI写“剧本”，或许是大模型厂商的一条新路子。

条件苛刻

00元单次、录制地在北京大钟寺的“头部大厂录音兼职”，显得颇具诱惑力。

8月，兼职群内，有了200多名等候录音的人。

做AI录音员，“给AI写剧本”并不轻松。

录音前，所有人必须上传一段2至3分钟对话录音做“样音”，审核人员要通过样音效果来决定是否选用。

这个过程会有3名员工负责审核，其中2名员工审核都通过，才能直接预约录音时间，如果不通过，还有交叉审核。

“审核老师喜欢能聊的，爱聊的。”情绪高昂的对话，内容有主题，让不少人卡在了第一道门槛外。

样音二审过后，张雪于第二周预约了晚上6-9点录音。

大钟寺录音群

录制当晚，张雪在录音室，通过耳机收听字节员工指令。

第一个环节，80分钟无主题自由聊天。要求聊天要有内容，每个话题不超过10分钟，不能出现大段独白，对话状态要相对平均。

为了保证语音质量，出现杂音要重录，聊天“不自然，引导痕迹过重”，也要重录。第一个环节就花费近2个小时。

第二个环节，60组有提示词的对话，有剧本参考。张雪不仅要根据情境编对话，还要保证严格的对话模式。

如果上一组对话是A结束收尾，那么下一组对话必须由B开始。

为了满足大模型的调试需求，每一次指令必须清晰明确地说出提示词。

“可以详细一些吗？”在耳机内，字节人员明确表示，剧本可以改，提示词不能动，换个说法，AI就可能难以识别。

为了保证录音质量，录音不清晰、吞字或者情绪不足，都会重新录制。

等录制结束，已接近晚上10点。一次3小时录音，工作人员一天要录制3场，每周日程几乎都是满的。

除了北京，字节还在上海、杭州、重庆、南京、成都、天津等多个城市招募录音员。

制造数据

2023年，AI大模型成为行业风口，大厂除通过第三方公司购买数据外，也创造出了“大数据标注师”“AI编辑”等外包岗位。

小语种专业的阿霖，做验收，即检验大模型图片识别生成的小语种文字，是否与图片一致。

按照“一个词或一句话算一个核算框，一个框算1毛钱”的价格，核算几百条，阿霖一次能赚几十元。

今年，阿霖通过第三方数据公司接单，做翻译类AI数据标注，价格涨至1元多一条。

阿霖发现，对于社交平台新词，或者小众领域的惯用词，如果数据库没有收录，大模型就错漏百出。

“受限于版权，学不到新的文本内容，翻译效果受影响。”

除了第三方外包公司，大厂也建立起自己的数据基地。

百度的数据基地分布在南昌、阳泉等非一线城市，进行数据标注、方言朗读等模型训练。

“招一些当地的专科生，会操作电脑就行。月工资也往往在3000-5000元之间。”美团早就有了驻厂AI训练师。

相比舍得砸钱的大厂，大模型四小龙想要拿到高质量数据，难度高不少。

“核心的闭源高质量数据，往往都已经被大厂垄断。AI创业公司，甚至是AI四小龙，都可能只能拿到边缘数据。”某大模型厂商算法人员Leo说。

由于高质量数据能够显著提升模型效果，大模型厂商除了开源的公开数据，还需要更高质量的数据。

这些数据往往被大公司把握，如国内的新闻数据掌握在腾讯、字节等大厂内部，海外则由Common Crawl、GDELT、The Pile等占据。

要想实现技术突围，AI公司就得交一笔不小的“数据费”。

量多质缺

大模型创业下半场，对于厂商来说，“大数据幻觉”是大模型集体“降智”的原因之一。

向MiniMax的海螺AI输入“一个小女孩怀里抱着一只布偶猫”，生成的6秒视频中，小女孩的手指细节丰富，但怀里不是布偶猫。

面对生成结果，员工解释：“用于训练大模型的数据，在猫咪的绑定图片里，并没有布偶猫。”

当模型被要求生成的内容，与事实或用户输入不一致，大模型就会开始“胡说八道”。

对于渴望新用户的大模型厂商而言，生成效果好坏，决定产品是否有机会出圈。

忠实用户孔昉已经抓到好几次AI“胡言乱语”的瞬间，或是编纂出不存在的引用文献，或是不能理解新概念。这让孔昉对大模型产生信任危机。

现在，孔昉会同时用2-3个不同厂商的大模型“跑”同一个问题交叉对比，二次确认关键信息，“现在AI生成很像抽卡，效果不可控，还容易智障。”

高质量数据或将逐渐耗尽，想要解决“大模型幻觉”问题，拿什么数据来“喂养”大模型，显然颇为关键。

某接近百度的人士透露，大模型厂商会通过三方公司直接购买数据。

这样做省时省力但并“不省事”，购买来的数据，无论是文本、录音还是视频，质量都不可控。

对于积极发展B端客户的头部大模型而言，针对某个客户，个性化地定制大模型，成为如今大厂AI业务主要收入来源。

想要训练出个性化模型，就需要高标准数据来“喂养”，甚至根据不同阶段的学习效果，进行数据需求调控。

“不是随便买一堆语音来，大模型就能学会的”。

阿霖发现，作为提供数据的甲方，她所在的公司，并不关心大模型生成的语音质量。

她只需要对大模型成果进行粗略打分，对于细节差异，如何改进，三方公司不会询问。

“用哪家的大模型，生成的内容都差不多。”有用户表示。

这给急着商业化的大模型厂商蒙上阴影。

大手笔咬牙“买数据”，恐怕将成为大模型厂商的新赛点。