专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
爱可可-爱生活  ·  【GitHub Copilot ... ·  21 小时前  
爱可可-爱生活  ·  通俗版解读 查看图片-20250207091030 ·  22 小时前  
爱可可-爱生活  ·  【《深入大语言模型》随书代码】 ... ·  2 天前  
黄建同学  ·  学习-20250205192620 ·  2 天前  
宝玉xp  ·  //@5ilunch:好的应用会给出质量高的 ... ·  3 天前  
51好读  ›  专栏  ›  人工智能学家

Nature研究报告:AI革命的数据正在枯竭,研究人员该怎么办?

人工智能学家  · 公众号  · AI  · 2024-12-12 17:04

正文


AI开发人员正在快速“清空”互联网中的数据,以训练诸如ChatGPT背后的大型语言模型。以下是他们试图解决这一问题的方法。
互联网是一个浩瀚的人类知识海洋,但它并不是无限的,而人工智能(AI)研究人员几乎已经将其“榨干”了。
过去十年中,人工智能的飞速进步在很大程度上依赖于扩大神经网络的规模,并使用越来越多的数据对其进行训练。这种“扩展化”方法在提高大型语言模型(LLMs)能力方面表现出了出人意料的有效性,不仅使其在模仿对话语言方面表现更为出色,还赋予了它们诸如推理等的“涌现特性”。然而,一些专家表示,这种扩展策略的极限可能即将到来。其一是由于计算所需的能源需求急剧增加;其二则是因为LLM开发者正在耗尽用于训练模型的传统数据集。
今年,一项具有广泛影响力的研究量化了这一问题:虚拟研究机构Epoch AI的研究人员预测,到2028年,用于训练AI模型的典型数据集的规模将达到公共在线文本总量的估计规模。换句话说,大约在四年内,AI可能会耗尽可用于训练的数据(详见“数据耗尽”)。与此同时,数据所有者(如新闻出版商)也开始收紧其内容的使用规则,进一步限制对数据的访问。这种情况导致了“数据公地”规模的危机。麻省理工学院(MIT)剑桥分校的AI研究员、数据来源倡议(Data Provenance Initiative)的负责人Shayne Longpre指出,这一现象正对AI数据集的获取产生深远影响。
即将到来的数据训练瓶颈可能已经开始显现。“我强烈怀疑这已经在发生了,”Longpre表示。
数据耗尽


数据显示,训练大型语言模型所用的文本数据量正在逼近互联网中可用的文本数据总量,预计到2028年,开发者使用的数据集规模将等同于整个互联网可用的文本量。

虽然一些专家认为,数据访问的限制可能会减缓AI系统的快速进步,但开发者们正在寻找应对方法。“我不认为大型AI公司有人在恐慌,”Epoch AI的马德里研究员、2028年“数据枯竭”研究的主要作者Pablo Villalobos表示。“至少他们没有给我发过这样的邮件。”
例如,旧金山的知名AI公司OpenAI和Anthropic都已公开承认这一问题,并暗示他们已计划采用应对策略,包括生成新数据和寻找非常规数据源。OpenAI的发言人告诉《自然》杂志:“我们使用了多种数据来源,包括公开可用的数据、通过合作伙伴获取的非公开数据、合成数据生成以及来自AI训练师的数据。”
即便如此,数据短缺的危机可能会迫使生成式AI模型的类型发生巨大变革,可能从大规模的通用LLM转向更小、更专业化的模型。

万亿级的单词数据

过去十年间,LLM的发展显示了其对数据的巨大需求。尽管一些开发者并未公布其最新模型的具体参数,但Villalobos估计,自2020年以来,训练LLM所使用的“标记”(tokens,即词语的部分)的数量已增长了100倍,从数千亿增长到数十万亿。
这可能已经消耗了互联网中很大一部分的内容,尽管由于互联网总文本量过于庞大,精确估计仍十分困难。Villalobos估计,当前互联网的总文本量约为3,100万亿个标记。各种服务使用网络爬虫来抓取这些内容,然后消除重复内容,过滤掉不良内容(如色情内容),以生成更干净的数据集。一个名为“RedPajama”的常用数据集包含了数十万亿个单词。一些公司或学术机构也会自行爬取和清理数据,以制作专门用于训练LLM的定制数据集。互联网中只有一小部分被认为是“高质量”的,比如人类编辑的、社会可接受的文本,这些文本通常存在于书籍或新闻中。
然而,互联网可用内容的增长速度出乎意料地缓慢。Villalobos的研究估计,互联网可用内容的年增长率不到10%,而AI训练数据集的规模每年却增长一倍以上。将这两个增长趋势投射到未来的情境中,预计2028年这两条趋势线将会交汇。
与此同时,内容提供商正日益使用软件代码或修订其使用条款,以阻止网络爬虫或AI公司抓取他们的数据。Longpre和他的同事们于2023年7月发布了一份预印本,显示出数据提供者封锁特定爬虫的趋势急剧上升。2023年,在三个主要的清理后数据集中,受限制的标记仅占不到3%;但到2024年,这一比例上升到了20%到33%。

数据来源的法律诉讼

目前,关于数据使用的法律诉讼正在进行,原告试图为用于AI训练的数据提供者争取赔偿。2023年12月,《纽约时报》以侵犯版权为由起诉了OpenAI及其合作伙伴微软;2024年4月,Alden Global Capital旗下的八家报纸联合提起了类似的诉讼。被告方的反驳是,AI应该被允许像人类一样读取和学习在线内容,这属于“合理使用”。OpenAI公开表示,认为《纽约时报》的诉讼“毫无根据”。
如果法院支持数据提供者应获得经济补偿的观点,这将使得AI开发者和研究人员更难获得所需数据,特别是对资金有限的学术研究人员来说。Longpre认为,学术界的研究人员将受到最严重的打击。

寻找数据的新路径

AI扩展策略面临的数据危机可能是一个重大挑战。虽然在不增加训练数据的情况下扩大模型的计算能力或参数数量是可行的,但这往往会导致AI的训练成本高昂且效率低下。Longpre指出,这种方式通常不受欢迎。
寻找新数据的一个潜在方法是获取非公共数据,比如WhatsApp消息或YouTube视频的转录内容。虽然以这种方式抓取第三方内容的合法性尚未得到司法确认,但公司可以使用自己的数据。许多社交媒体公司也表示,他们利用自己的内容来训练AI模型。例如,Meta表示,其虚拟现实头显Meta Quest收集的音频和图像用于训练AI。但不同公司的政策有所不同。视频会议平台Zoom的服务条款明确规定,不会使用客户内容来训练AI系统,而转录服务OtterAI则表示会使用去标识化和加密的音频和转录数据进行训练。

使用合成数据和再利用数据

一些AI公司开始使用“合成数据”来训练AI,即AI为AI生成数据。2024年,OpenAI宣布其每天生成1000亿个单词,这一年可生成36万亿个单词——相当于当前AI训练数据集的规模。
尽管如此,合成数据也面临一些问题,比如“递归自我强化”,这可能导致模型的学习质量下降。一项2023年的研究将这一现象称为“模型自噬障碍”(Model Autophagy Disorder),简称“MAD”。

“大而全”到“小而精”

面对数据危机,开发者开始转向小而高效的LLM,这些模型专注于特定任务,要求精炼的专用数据和更好的训练技术。

一项2024年的研究表明,由于算法的改进,训练一个具有相同性能的LLM所需的计算能力每八个月减少一半。OpenAI表示,其最新的o1模型更强调“推理训练”并依赖于反馈,这为扩展方法增添了新维度。

总的来说,AI的发展可能不再需要依赖更大的数据,而是从“更聪明的算法”中获益。Stanford大学的Andy Zou表示,AI可能只需“坐下来思考”,因为它的“基础知识库”可能已经比任何个人的知识储备都要丰富。

阅读报告全文,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库 是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究 资料 欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。



截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

  1. Air Street Capital《2024 年人工智能现状报告》

  2. 未来今日研究所:2024 技术趋势报告 - 广义计算篇

  3. 科睿唯安中国科学院 2024 研究前沿热度指数报告

  4. 文本到图像合成:十年回顾

  5. 《以人为中心的大型语言模型(LLM)研究综述》

  6. 经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版

  7. 波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告

  8. 理解世界还是预测未来?世界模型的综合综述

  9. Google Cloud CSA2024 AI 与安全状况调研报告

  10. 英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施

  11. 花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告

  12. 国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

  13. 国际可再生能源署 IRENA2024 年全球气候行动报告

  14. Cell: 物理学和化学 、人工智能知识领域的融合

  15. 智次方 2025 中国 5G 产业全景图谱报告

  16. 未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇

  17. Deepmind:AI 加速科学创新发现的黄金时代报告

  18. PitchBookNVCA2024 年第三季度全球风险投资监测报告

  19. 德科 2024 年未来全球劳动力报告

  20. 高工咨询 2024 年协作机器人产业发展蓝皮书

  21. 国际能源署 IEA2024 年全球能源效率报告

  22. 基因慧基因行业蓝皮书 2024 - 2025

  23. 普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战

  24. 中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书

  25. 中移智库 2024 先进感知新技术及新应用白皮书

  26. 智次方研究院 2025 中国 AIoT 产业全景图谱报告

  27. 未来今日研究所:2024 技术趋势报告 - 人工智能篇

  28. 国际电联:迈向衡量数字经济的通用框架的路线图

  29. 联合国粮食与农业组织:2024 年世界粮食安全和营养状况

  30. 大语言模型综述

  31. 李飞飞等,AI 智能体:探索多模式交互的前景综述

  32. 哈尔滨工业大学 - ChatGPT 调研报告

  33. 2024《美国核部署战略报告》最新文件

  34. 清华大学:AIGC 发展研究 3.0 发布版 b 版

  35. OpenAI:2024 年 OpenAI o1 大模型技术报告

  36. Verizon2024 年世界支付安全报告

  37. 皇家学会哲学学报 从复杂系统角度评估人工智能风险

  38. 复旦大学 大模型 AI 代理的兴起和潜力:综述

  39. 经合组织 OECD2024 年气候行动监测报告

  40. Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态

  41. 2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch

  42. 《全球金融稳定报告》 把舵定航 不确定性、人工智能与金融稳定

  43. 瑞士洛桑联邦理工学院 《人工智能中的 - 创造力:进展与挑战》

  44. 《你所需要知道的理 - 论:人工智能、人类认知与决策》牛津大学最新 53 页报告

  45. 世界经济论坛 新兴技术时代的网络弹性导航:应对复杂挑战的协作解决方案 2024

  46. ADL 理特咨询 2024 汽车出行未来展望报告

  47. 2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道

  48. 科学时代的大语言模型中的人工智能

  49. Gartner2025 年重要战略技术趋势报告

  50. CBInsights2024 年第三季度全球人工智能投融资状况报告

  51. TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻

  52. 天津大学 2024 大模型轻量化技术研究报告

  53. 欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版

  54. 美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告

  55. 国际原子能机构 2024 年世界聚变展望报告

  56. 复旦大学 2024 大语言模型的能力边界与发展思考报告

  57. 安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图

  58. YouGov2024 美国公众对人工智能 AI 的态度调研报告

  59. 麦肯锡中国报告:《中国与世界》完整版

  60. 麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域

  61. Project Sid,一个旨在模拟多智能体交互以研究 AI 文明的项目

  62. 德国研究与创新专家委员会 德国研究创新与科技成果报告

  63. 2024 年欧洲关键产业的科技重塑研究报告







请到「今天看啥」查看全文