专栏名称: 知社学术圈
海归学者发起的公益学术交流平台,旨在分享学术信息,整合学术资源,加强学术交流,促进学术进步
目录
相关文章推荐
田俊国讲坛  ·  【2月26日】第32期《10天非凡心力训练营 ... ·  昨天  
食品论坛  ·  培训通知 | ... ·  2 天前  
进出口财税通  ·  25年2月21号上海《智慧税务下出口退税智能 ... ·  2 天前  
田俊国讲坛  ·  【2月26日】第32期《10天非凡心力训练营 ... ·  3 天前  
51好读  ›  专栏  ›  知社学术圈

文字工作者在用最后一点血肉饲养AI

知社学术圈  · 公众号  ·  · 2024-09-10 11:30

正文

海归学者发起的公益学术平台

分享信息,整合资源

交流学术,偶尔风月

目前, LLM 越做越好,但是在发展上却遇到了瓶颈。 因此各大科技公司都在雇佣人类写作者产出高级语言样本,用于模型训练。 对于这些人类写作者而言,自己心血凝结的创作成果尚未面世就投喂给 AI ,无异于“以身殉剑”的悲剧,更糟糕的是,这把剑到头来还是砍向自己的职业生涯。

图片来源:Getty/View Stock RF;Leigh Prather/Alamy

最近,一些境遇不太好的小说家、撰稿人、新闻从业者得到了一个新的兼职机会。他们每周都会花上几个小时,为那些身家数十亿美元的科技企业写作。确切的说,他们是在为这些公司的人工智能模型产出训练用的文本材料。


ChatGPT等大型语言模型(LLM) 早已向世界证明了它们杰出的文本生成能力。在大多数人享受着AI带来的便捷与新鲜感时,那些依靠码字而生的写作者却对此忧心忡忡。毫无疑问,按照外界的宣传,这些AI将以终结者的姿态取走他们的工作岗位。而他们,则像是趴在泰坦尼克号翘起的船尾上俯瞰雄伟的冰山。


当然,行业毁灭的一天还没有真的到来。在此之前,AI还需要进一步的训练与成长,因此科技公司正在竭尽全力收集高价值的文本材料。而雇佣文字工作者直接写作生产,就是举措之一。只是那些接受这份兼职的写作者,难免会有一点“自掘坟墓”的悲凉体验。


不过没办法,科技公司给的真的挺多。有人表示,这些兼职工作时间灵活,薪水也高于行业一般水准,而工作机会更是极其充裕。谁会跟钱过不去呢?


他们将这份工作称之为AI注释员。工作的核心部分,是对可能的聊天问题撰写回答。AI智能只能在了解了好的写作方式之后,才有可能做到自己写出好东西。也就是说,人类写作者通过自己的创作实践,在为AI树立写作的金标准。


除此之外,人类写作者还要负责教导AI言而有据。胡编乱造一直是AI的大病。而人类工作者将使用搜索引擎展示写作资料的引用来源,这种注释示例的方法,将能很好的帮助AI学会严谨的表达,从而在最大程度上避免满口胡诹的错误。


AI的世界其实是人类世界的有机重组。如果没有更好的语言样本,那么这些语言模型就无从进步。但或许有人困惑,这些模型不是已经接受了互联网上数十亿个单词和句子的训练吗?为何还需要进一步补充语言样本?


首先,互联网是有限的。当互联网上能被合理利用的样本,均被投喂给AI,这时模型仍然不完美,我们该怎么做?该如何寻求AI的进一步发展?一些研究人员在今年6月宣布,如果LLM按照目前的发展趋势继续下去,大约在2026年至2032年之间的某一天,“训练模型的数据集规模,将与人类现有公共文本数据库存的总规模相当”。


“人类现有公共文本数据库存”,请注意这几个字的分量。它几乎囊括了历史上所有保存下来的人类文本。


但即便数据文本规模已经如此之大,AI的文本生成能力仍然十分有限。如何让AI继续进步呢?有人曾经尝试过,让AI自己担任自己的导师,通过他们自己的输出来训练自己。以一种左右互搏的方式,实现写作技艺的进步。这种方法曾经在某些棋类竞技的AI中获得过巨大成功。


但对于大型语言模型来说,这条路子行不通。Ilia Shumailov博士表示:“不加鉴别地学习其他模型产出的数据,会导致AI本身‘模型崩溃’。这是一个退化的过程,随着时间的推移,模型会逐渐忘记真正的底层数据分布。” 换言之,它们会逐渐偏离法则,最终产生出一堆无意义的东西。离开“新鲜文本”的投喂,AI终将逐渐萎缩。因此,它们需要再次回归起点,寻求人类导师的悉心指导。


AI背后的资本更加着急。眼看着AI在步入实用领域之前,就陷入了发展停滞的瓶颈,他们正寻求一切可能的方法来突破AI的发展限制。比如,OpenAI最近就与英国《金融时报》等媒体巨头签署了许可协议,合同价值可能高达数亿美元。资本力量对于提升AI能力的需求是十分迫切的。


但这不仅仅是积累更多原创样本的问题。这些媒体公司有着自己的写作风格,这需要AI对文章进行有目的地模仿,而非仅仅是选择性地吸收。这正是AI注释员的教导发挥作用的地方。


George 第一次担任“高级数据质控专家”时(这是AI注释员的官方名称),他称自己非常清楚地感受到了其处境的讽刺之处。大型语言模型会使写作自动化,而他现在把AI教导得越好,那么他本来的职业生涯就会越快衰落。这简直是一个后现代版的“教会徒弟,饿死师傅”。


George说, 这就像有人付钱让你在沙滩上写字。即使我们的文字能留下痕迹,我们也永远无法认出它。 George 的比喻是精当的。这些AI注释员产出的文字根本不会被他人看到,只能像沙滩上的字迹一样,被人工智能浪潮所吞噬,然后轻轻拭去。


目前AI注释员的职业需求仍然很旺盛。畅销计算机科学教科书作者François Chollet表示,“大概有两万人全职从事创建注释数据来训练大型语言模型的工作”。他表示,如果没有这些岗位的付出,LLM的输出结果会“一塌糊涂”。


Contextual AI的数据主管Alex Manthey表示,AI注释员在LLM开发中扮演关键角色。这种做法“至关重要”,因为模型“需要人类参与其中,以确保其输入让最终用户满意”。她说,“每家公司都花费大量时间和巨额资金来实现这一点,这不是没有原因的”。


Chollet 和 Manthey 都透露,该岗位的招聘最近已从“低薪数据工人”转变为更专业、高薪的职位。因为,随着模型的写作能力越来越强,它们所需的训练数据质量也水涨船高。随之而来的是更高的薪水成本。有的远程注释岗位就将向作者支付每小时30英镑以上的报酬。这种高质量训练数据的稀缺性也催生了一大批第三方注释供应商,比如该领域中的企业Scale AI。


庞大的资金投入让投资人感到有些不对劲。Manthey 表示,“巨额数据预算”中的相当一部分流向了AI注释员,这一点可能招致投资者的质疑。有人讥讽到,如果我们需要花费如此多的资金雇佣人工来写作,那么这个所谓的人工智能是不是有点太“人工”了?Chollet也表示,许多科技公司确实尴尬地依赖着AI注释员的支持,但这一趋向可能会在未来得到纠正。 但乐观的开发人员认为,对 AI 注释员的投入并不是一个无底洞。 在一定规模的投入后, AI 将能够完成对某些法则的突破。 那时才是 AI 真正的出师之日。
参考文献:
https://www.nature.com/articles/s41586-024-07566-y#Bib1


点击下方 知社人才广场 ,查看最新学术招聘








请到「今天看啥」查看全文