专栏名称: 智药邦
人工智能在药物研发领域的进展、探索与实践。
目录
相关文章推荐
湖北经视  ·  直播微视评:赛场不是“饭圈”的法外之地 ·  22 小时前  
湖北经视  ·  百万粉丝网红被杀害!细节披露 ·  昨天  
格上财富  ·  谁的运不是国运呢? ·  2 天前  
51好读  ›  专栏  ›  智药邦

Nature|人工智能革命正在耗尽数据,研究人员能做什么

智药邦  · 公众号  ·  · 2024-12-20 08:00

正文

人工智能开发人员正在迅速利用互联网数据,以训练如ChatGPT背后的大型语言模型。然而,他们面临数据枯竭的挑战,并试图寻找解决之道。

2024年12月11日,Nature发表文章The AI revolution is running out of data. What can researchers do,讲述了他们试图绕过这个问题的方法。

互联网虽是人类知识的宝库,但其资源并非无穷无尽。近十年来,人工智能的飞速发展主要得益于神经网络的扩大及在海量数据上的训练。这种扩展策略对于提升大型语言模型的会话能力和推理能力尤为有效。然而,有专家指出,我们已接近数据规模的极限。这不仅因为计算所需的能源持续攀升,更因为传统数据集已难以满足LLM的训练需求。

Epoch AI的研究员Pablo Villalobos预测, 到2028年,用于训练AI模型的数据集规模预计将与公共在线文本总量持平。 这意味着,在短短四年内,人工智能可能会耗尽训练数据。同时,内容所有者如报纸出版商等,正加强对内容使用的限制,进一步缩减了数据的可获取范围。

剑桥麻省理工学院的人工智能研究员Shayne Longpre表示,这导致了“数据共享”规模上的危机,他领导着Data Provenance Initiative,这是一个对人工智能数据集进行审计的组织。

面对数据瓶颈,开发人员并未坐以待毙。他们正在探索多种解决方案,包括 生成新数据和寻找非传统数据源 。例如,OpenAI和Anthropic等知名AI公司已公开承认这一问题,并表示正计划通过合作伙伴关系、合成数据生成等方式解决数据短缺问题。OpenAI的一位发言人告诉Nature:“我们使用了许多来源,包括公开可用的数据、与非公开数据提供者的合作伙伴关系、合成数据生成和人工智能培训师的数据。”

尽管数据紧缩可能会减缓AI系统的改进速度,但它也可能促使生成式AI模型发生转变。 从大型、通用的LLM转向更小、更专业的模型,或许成为一种趋势。

过去十年,LLM的发展揭示了其对数据的巨大需求。尽管一些开发人员没有公布他们最新模型的规格,但Villalobos估计,自2020年以来,用于训练LLM的tokens数量已增长了100倍,从数千亿增至数万亿。

可用互联网内容的增长速度惊人地缓慢:Villalobos的论文估计,其年增长率不到10%,而人工智能训练数据集的规模每年翻一番多。 预测这些趋势表明,这两条线在2028年左右汇合。

与此同时,内容提供商正通过软件代码或完善使用条款来阻止爬虫或AI公司抓取数据。Longpre和他的同事们今年7月发布了一份预印本文章,显示阻止特定爬虫访问其网站的数据提供商数量急剧增加。

此外,几起诉讼正试图为AI培训中使用的数据提供商赢得赔偿,进一步加剧了数据获取的难度。2023年12月,《纽约时报》起诉OpenAI及其合作伙伴微软侵犯版权;今年4月,纽约市Alden Global Capital旗下的8家报纸联合提起了类似的诉讼。相反的观点是,应该允许人工智能以与人相同的方式阅读和学习在线内容,这构成了对材料的合理使用。OpenAI曾公开表示,它认为《纽约时报》的诉讼“没有法律依据”。

为应对数据短缺,开发人员正在考虑多种策略。 一种选择是收集非公开数据 ,如社交媒体消息或视频转录文本。然而,这种方式的合法性尚未明确,且可能引发隐私和版权问题。 另一种选择是专注于快速增长的专业数据集 ,如天文或基因组数据。但这些数据对于训练LLM的有用性和可用性尚待验证。

Meta首席人工智能科学家、纽约大学计算机科学家Yann LeCun被认为是现代人工智能的创始人之一,他在今年2月在加拿大温哥华举行的人工智能会议上的一次演讲中强调了这些可能性。用于训练现代LLM的10的13次方个tokens听起来很多:LeCun计算出,一个人需要17万年才能读到这么多。但是,他说,一个4岁的孩子在醒着的时候仅仅通过看物体就吸收了比这大50倍的数据量。仅仅通过语言训练,我们永远无法达到人类水平的人工智能,这是不可能的。

如果找不到数据,可以做更多。一些人工智能公司付费让人们为人工智能培训生成内容;其他人使用人工智能生成的合成数据来实现人工智能。这是一个潜在的巨大来源:今年早些时候,OpenAI表示,它每天生成1000亿个单词,即每年超过36万亿个单词,与当前的人工智能训练数据集的大小大致相同。而且这个产量正在迅速增长。

此外,一些AI公司正在尝试使用合成数据或付费生成内容来训练模型。合成数据在具有明确规则的领域可能有效,但在更复杂、更抽象的领域则可能存在问题。同时,放弃“越大越好”的概念,追求更高效、更专注于单个任务的小型模型也成为一种趋势。

总的来说, 人工智能的努力已经在用更少的资源做更多的事情。 2024年的一项研究得出结论,由于算法的改进,LLM实现相同性能所需的计算能力每八个月左右减半。

这一点,再加上专门用于人工智能和其他硬件改进的计算机芯片,为不同地使用计算资源打开了大门: 一种策略是让人工智能模型多次重新读取其训练数据集。 斯坦福大学博士生、数据来源倡议组织成员Niklas Muennighoff表示,尽管许多人认为计算机具有完美的记忆力,只需要“阅读”一次材料,但人工智能系统以统计方式工作,这意味着 重读可以提高性能。 在2023年他在纽约市人工智能公司HuggingFace发表的一篇论文中,他和他的同事们表明,一个模型从四次重新读取给定的数据集中学到的东西与读取相同数量的独特数据中学到的一样多--尽管在那之后重新读取的好处很快就会下降。

尽管OpenAI尚未披露其最新LLM o1的模型或训练数据集的大小,但该公司强调,该模型倾向于一种新方法:将更多时间花在强化学习上(模型获得最佳答案反馈的过程),并将更多时间思考每个响应。

LLM可能已经阅读了大部分互联网,不再需要更多的数据来变得更聪明。宾夕法尼亚州匹兹堡卡内基梅隆大学研究人工智能安全的研究生Andy Zou表示:“人工智能的自我反思可能很快就会带来进步。现在 它有了一个基础知识库,这可能比任何一个人都要多,这意味着它只需要坐下来思考。 我认为我们可能非常接近这一点。”

总之,面对数据枯竭的挑战,开发人员正在积极探索多种解决方案。从生成新数据到寻找非传统数据源,再到提高数据使用效率,他们正努力克服这一难题,推动人工智能的持续进步。尽管未来充满不确定性,但相信在开发人员的共同努力下,人工智能将迎来更加广阔的发展前景。

参考资料:







请到「今天看啥」查看全文