专栏名称: Datawhale

一个专注于AI领域的开源组织，汇聚了众多顶尖院校和知名企业的优秀学习者，聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner，和学习者一起成长。

斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

Datawhale · 公众号 · 科技自媒体 AI · 2024-11-23 22:17

正文

Datawhale分享

作者：李飞飞团队，来源：AI道上

斯坦福大学教授李飞飞团队关于 2024 年人工智能发展报告总结。

1. 核心信息

在2024年，人工智能（AI）领域取得了显著的进展，但也面临着挑战。

AI 在特定任务上超越了人类，如图像分类和语言理解，但在更复杂的任务上仍有局限。

工业界在 AI 研究中发挥了主导作用，尤其在机器学习模型的产出上。

训练大型AI模型的成本不断上升，例如 GPT-4 花了约 7800 万美金的，Gimini 花了约 1.91 亿美金。

美国、中国和欧洲是AI模型的主要贡献者，其中中国在 AI 专利方面领先。

AI 模型的可靠性评估缺乏统一标准，生成式 AI 投资激增，AI 提高了工作者的效率和质量，加速了科学和医疗的发展，美国 AI 相关条款发布数量急剧增加，全球对 AI 潜在影响的意识增强，紧张情绪上升。

2. AI 研究和发展

2.1 核心要点

AI 研究继续由工业界主导，公开源码的模型数量增加，训练成本上升，美国、中国和欧洲在 AI 大模型发展上占主导地位。中国在 AI 专利方面占据领先地位，GitHub上的 AI 研究资源和相关论文发表数量持续增长。

2.2 核心对比信息

从 2010 年到 2022 年，AI 相关的论文发表数量逐年增加，美国在发布优秀的机器学习模型数量上保持世界首位。

2.3 模型是否会用尽数据

AI模型的发展依赖于大量数据，但有担忧表示，计算机科学家可能很快就会用尽高质量数据。尽管合成数据可以缓解这一问题，但使用合成数据训练的模型可能会出现性能下降。

2.4 基础模型发展

基础模型在广泛的数据集上训练，具有多功能性，并适用于许多下游应用。这些模型在实际场景中的部署越来越多，不同国家和组织在基础模型的发布数量上有所不同。

2.5 训练模型成本

训练大型AI模型的成本不断上升，达到数千万美元甚至数亿美元。这表明了 AI 领域在资源投入方面的增长。

3. 技术性能

3.1 核心要点

AI 在特定任务上超越了人类，多模态AI模型的出现，如 Google 的 Gemini 和 OpenAI 的 GPT-4，展示了处理图像和文本信息的能力。新的 benchmarks 评估集的出现，如 SWE-bench 和 HEIM，以及人类评估的引入，如聊天机器人竞技场排行榜，反映了 AI 技术性能的提升。

3.2 重要模型发布情况

2023 年见证了多个重要 AI 模型的发布，包括 Anthropic 的 Claude、OpenAI 的 GPT-4、Stability AI 的 Stable Diffusion v2 等，这些模型在多项benchmarks 中超越了人类水平。

3.3 AI 表现情况

AI 在图像分类、英语理解和自然语言推理等任务中超越了人类，但在竞赛数学、多语言理解和视觉常识推理等任务上仍有局限。

3.4 多学科、高难度评估集 (MMMU & GPQA & ARC)

新的评估集如 MMMU、GPQA 和 ARC 的出现，旨在评估 AI 的多学科推理能力和抽象归纳能力。尽管 AI 模型在这些评估中取得了一定的成绩，但与人类专家相比仍有差距。

3.5 Agents

基于大型语言模型的AI代理在特定场景中自动处理任务的能力得到了提升，如 AgentBench 评估的基于 LLM 的 25 个 agents。

3.6 RLHF & RLAIF

RLHF 和 RLAIF 是两种基于强化学习的方法，用于训练 AI 模型以更好地符合人类的偏好和反馈。RLAIF 在生成无害对话任务中表现优于RLHF。

3.7 LLM 随着时间迭代效果对比

随着时间的推移，LLM 的效果有所变化。一些研究表明，随着新数据和用户反馈的加入，某些任务的效果可能出现下降。

3.8 提升 LLM 效果的技巧

包括 prompting、OPRO 和 fine-tuning 在内的多种技术被用来提升 LLM 的效果。这些技术通过不同的方法优化模型性能，如通过自然语言描述任务或减少内存需求。

3.9 训练 AI 系统对环境的影响

训练大型 AI 模型消耗大量资源并释放二氧化碳，对环境造成影响。尽管如此，AI 系统也可以用于预测城市空气质量和优化能源使用，从而对环境产生积极影响。

4. AI 可靠性

AI 的可靠性评估涉及隐私、数据治理、透明性和可解释性、安全性和公平性等多个方面。目前，对 LLM 的全面标准评估存在缺陷，政治伪造内容的产生和检测成为一个问题，ChatGPT 在政治上的偏见也引起了关注。

4.1 AI 可靠性定义

AI 的可靠性从数据治理、可解释性、公平性、隐私、安全性和透明性等多个维度进行定义和评估。

5. AI 对经济的影响

AI 对经济的影响是多方面的，包括提高生产效率、改变工作市场和投资趋势。生成式AI的投资增长迅速，AI 相关工作职位数量减少，但 AI 降低了企业支出并提升了收益。中国在工业机器人领域占据主导地位，AI 提高了工作者的产能和效率。《财富》500 强公司越来越多地讨论人工智能，特别是生成式 AI。

5.1 AI 重大新闻

2023年，AI 领域发生了多项重大新闻，包括 BioNTech 收购 AI 公司InstaDeep、微软对 OpenAI 的投资、GitHub Copilot 的发布、Einstein GPT 和微软 Office 的融合、Bloomberg 使用 LLM 进行金融数据分析等。

5.2 工作信息

AI 相关工作在工作市场占比有所变化，美国 AI 工作技能的需求有所下降，但香港对 AI 人才的需求相对较高。全球新兴成立的 AI 公司数量持续增加。

5.3 开发者对 AI 工具使用情况

开发者对 AI 工具的使用情况显示，GitHub Copilot 和 ChatGPT 的使用量最高，云服务平台的使用也相当普遍。

6. AI 在医疗与教育的进展

AI 在医疗和教育领域的应用取得了显著进展。AI 加快了科技进步，如 AlphaDev 和 GNoME 的应用。在医疗领域，AI系统如 EVEscape 和 AlphaMissence 的发布提高了疾病预测和基因分类的效率。FDA 批准的 AI 相关医疗设备数量增加，国际上人工智能相关的学位课程也在迅速增加。

一起“点赞”三连↓