AI一天,人间一年,这句话生动地勾勒出AI领域的飞速发展。那么,过去一年里,AI行业又经历了哪些重要的变革呢?每年,各类专业报告都会对行业进行全方位总结,其中最值得关注的,莫过于《人工智能状态报告》(State of AI)和斯坦福大学发布的《AI指数报告》。
几天前,今年的《人工智能状态报告》刚刚出炉,内容丰富至极,整整212页的PPT。我花费了大量时间阅读,并将其翻译成了中文(文末有获取方式)。基于这份报告,我对AI的现状进行了重新梳理和归纳,并特别补充了中国AI企业的现状。
同时,我还聚焦了大多数人关心的几个热点——大模型、算力、视频生成、机器人以及AI应用的最新进展。而至于报告中提到的政治、安全和未来预测部分,我在这篇文章中没有详细展开,感兴趣的朋友可以自行查阅原文。
希望通过这篇文章,能够带你回顾和了解AI在这一年中的蓬勃发展。
OpenAI 去年3月份发布了GPT-4,一年之后也就是2024年5月发布了GPT-4o。在这一年多的时间里,基准测试和社区排行榜显示 GPT-4 与其他优秀模型之间存在明显差距。然而,Claude 3.5 Sonnet、Gemini 1.5 、Grok 2 以及来自中国的通义千问、deepseek以及零一万物等已经几乎缩小了这一差距,现在这些模型的性能开始趋于一致。
许多模型之间的差异已相当微小,因此更可能是由于实现方式的不同。例如,GPT-4o 在 MMLU 测试中的表现超过了 Claude 3.5 Sonnet,但在更具挑战性的 MMLU-Pro 测试中却落后于它。
鉴于不同架构之间的技术差异相对微妙,以及预训练数据之间可能存在的高度重叠,模型开发者现在更加注重新能力和产品特性的竞争。比如Anthropic率先在Claude里面新增了Artifacts功能,这使得聊天代理瞬间变成了一个非常好的互动开发助手。这样一个新颖的功能带来了大量用户,以至于OpenAI后来几乎完全复刻了这个功能,并命名叫Canvas。
而国内也有很多这样的创新,比如Kimi以及阿里的通义千问都集成了AIPPT的功能,Kimi甚至还增加了打赏功能。而腾讯的元宝则跟微信公众号做了很好的集成,在这里你可以实时搜索到公众号的文章,另外在论文深度阅读方面也颇具特色。
除此之外,语音功能特别是高级语音功能也是各家竞相推出的特色功能。MINIMAX的海螺可能是最早推出声音复刻功能的,只需要5秒就能完美复刻,这样的功能也几乎已经变成了国内大模型的标配。
OpenAI推出的高级语音功能不仅能实时参与对话、进行互动翻译,甚至还能模拟各种声音,这样的功能也得到国内公司的纷纷效仿。
在GPT-4o发布后的差不多半年时间里,整个大模型市场里除了在效仿4o,几乎看不到任何新意,而OpenAI又发生了一系列严重的高层人士动荡,很多人认为OpenAI就快完蛋了。
但很快出现了转机,OpenAI在2024年9月份发布了OpenAI o1,也就是之前传了很久的strawberry,这无疑是一个重磅炸弹。o1的发布是一个重大的里程碑事件,以至于OpenAI没有继续使用GPT的名字,并且将版本重置为1。
那么o1为什么这么重要?我们认为至少有三个方面,首先这是一个具有强大推理能力的模型,通俗点说就是理科学渣突然变成了学霸。比如在奥数竞赛中,之前的4o得分为13.4,而o1直接到了83.83,所以OpenAI宣称o1的能力达到博士级别。
其次,o1为大模型的发展指明了新的方向。原来大家都专注于将计算重点放在预训练和后训练上,Scaling Law在很长一段时间非常有效,但到后来颓势尽显,以至于很多人认为大模型的发展已经到了迈不过去的瓶颈期。
o1打破了这个困局,它通过将计算重点从预训练和后训练转移到推理,Scaling Law再一次在推理阶段大显神威。
这就是 Transformer 技术的 AlphaGo 时刻。所有大实验室都在研究这个领域,OpenAI 是第一个推出的。
最后,o1的出现标志着AI的发展从L1—聊天机器人进入到了L2—推理者阶段,从而开始第三阶段,也就是Agent—代理的研发。这个L1-L5是OpenAI自己定义的一个通往AGI(通用人工智能)的路径,按照这样的节奏,似乎到AGI的时间也不远了?
关于这个问题,OpenAI的Sam Altman的预测是“几千天”,这个很含糊。这个几千天算下来少则5年,多则近30年。而Anthropic的CEO Dario Amodei的预测则非常明确且激进,他预测“强大的AI”(也就是AGI) 2026年就能到来,也就是说只剩一年半的时间。他甚至说这样的AI能在5-10年内消灭困扰了人类几千年来的所有疾病,人均寿命可以增长到150岁。
不管怎么样的预测以及准或者不准,不可否认的是,他们发生的时间点都在该公司将要进行大笔融资或推广产品的时候,所以这背后的目的和立场可能是明确的。
o1推出之后国内什么反应?毫无疑问,抄作业!据说月之暗面的研发团队国庆无休,疯狂加班就是为了率先推出类似版本,后面命名叫“探索版”。
但o1真的是打开了新世界的大门吗?机器真的会思考,还是一种模拟的假象?(它会思考一段时间给出答案,而不是立即返回)
很遗憾,是后者。
苹果(Apple)公司的几位工程师揭穿了这一现实,他们甚至发表了一篇论文来阐述。在这篇论文里面,他们直接给出了结论:这些所谓的推理模型,根本不懂推理,他们只不过仍然是在现有训练数据里面去找最相似的数据,然后吐给你。
这就不对了,前面不是说o1的推理能力到了博士级别吗?具体原因论文里面没有阐述,但可能是因为o1的训练数据受到了污染。简单来说就是,他们把奥数题拿去做训练了。你想想,你都提前知道了考卷和答案还能考不好吗?
苹果工程师做的事情也非常简单,直接把考卷的内容做简单的修改,比如改个名字啥的,结果你懂的,o1没绷住。
这样会“思考”的模型,背后需要大量的算力支撑。这使得o1的价格比GPT-4o高出了3-4倍,以至于甚至传闻OpenAI讨论过要将用户每个月的订阅费涨到1000美金,这简直是疯了!
本来训练成本就很高了,再来一个推理成本是训练的N倍,这让一般的AI公司咋活呢?这也就不难理解,最近传闻国内AI六小龙有两家已经放弃模型训练(指百川智能和零一万物),不过他们的创始人都进行了辟谣。
开源模型市场今年继续由Meta的Llama独领风骚,在4月份Meta 发布了 Llama 3 系列,随后在七月推出了 3.1 版本,九月推出了 3.2 版本。其中,Llama 3.1 405B 是迄今为止最大的版本,在推理、数学、多语言处理和长上下文任务上能够与 GPT-4o 和 Claude 3.5 Sonnet 不相上下。这是开放模型首次在这些领域与专有前沿模型相抗衡。
Llama 3.1 405B 是在超过 16,000 个 H100 GPU 上训练的,这是第一款在如此规模上训练的 Llama 模型。Meta为什么花重金训练开源模型,很多人不理解。但不管怎么样,ALL IN元宇宙差点让这家公司(Facebook母公司)挂掉,而正是AI以及开源模型把这家公司从死亡线上拉回来了,它的股价和市值也一路狂飙。
这一年,苹果发布了iPhone 16,而最引人瞩目的是其中的Apple Intelligence。手机里的人工智能,这已经成为新发型手机的标配,为移动设备开发的模型也迎来了爆发期。
今年推出了众多的端侧大模型,比如微软推出的 phi-3.5-mini 是一个 3.8B 的语言模型,与 7B 和 Llama 3.1 8B 等更大型模型竞争。这个模型在推理和问答任务中表现出色,但由于体积较小,它的事实知识相对有限。为了实现设备上的推理,该模型经过量化处理,内存占用降到了约 1.8GB。
另外苹果发布了 MobileCLIP,这是一系列高效的图像-文本模型,专为智能手机上的快速推理进行了优化。Hugging Face 也参与了这一趋势,推出了 SmolLM 系列小型语言模型,提供 135M、360M 和 1.7B 三种版本。
国内自然也少不了这样的模型,比如面壁智能的小钢炮MINICPM就是其中的佼佼者,它甚至能在脱机的情况下运行,这样强大的模型好到连斯坦福大学都来抄袭。
总结一下,在过去一年里,OpenAI仍然是这个行业的老大,但它的行业领先地位正逐渐消失,竞争对手如Anthropic、Google及Meta,还有众多中国公司在多个指标上迎头赶上。同时,AI模型的推理成本正在快速下降,这可能会吸引更多企业投资生成式AI技术。
在这一年里,英伟达成为了全球最强大的公司,它的市值在6月份到了3万亿美元,成为继微软和苹果之后第三家达到这一里程碑的美国公司,而且一度超过苹果,成为全球市值最高的公司。不仅如此,英伟达的股价自2016年以来,已经增长了20倍,而他的对手们总共才增长5倍。
英伟达发布了型号为B200和GB200的新款GPU,以取代前一代的H100,虽然上市比预期的略微延迟,并且导致英伟达股价一度暴跌,但截至到目前,未来12个月的供应量已经被销售一空。
英伟达的GPU仍然是最抢手的产品,老牌竞争对手AMD和Intel这一年也没有闲着,虽然他们也在积极推出一些产品,但遗憾的是,英伟达的地位仍然无法撼动,而且一度传闻Intel要被高通收购。
英伟达的垄断地位还能持续多久?有些人对此吃怀疑态度,GPU的稀缺性正在减弱,而且越来越多的大厂开始自研GPU以摆脱英伟达的垄断,比如Google推出Axion、Meta第二代AI推理加速器以及OpenAI也在试图组建相关团队。但市场似乎无视这些声音,很多人认为该公司未来10年市值能到“十万亿”美元。
很多人好奇,这么多GPU到底卖给谁了?就拿H100来说,目前最多的还是Facebook母公司Meta,它拥有35万片H100,所以Meta训练出来的开源模型Llama3能直接媲美OpenAI的GPT-4。马斯克的xAI和特斯拉大概拥有13.5万片H100,从数量上算排名第二。不过比这个更厉害的是据说他们只花了19天就把拥有10万片的H200集群搭建起来了,马斯克不愧是造火箭的,这速度!
在全世界范围内,能跟英伟达GPU媲美的还有来自中国的华为。据统计,华为的Ascend 910 GPU在论文中的使用增长了353%,但英伟达太猛了,它在论文中的使用频率是竞争对手总和的11倍,但这个比例已经下降了非常多。
当然,除了像华为这样的巨头,也有一些初创的芯片公司试图挑战英伟达的地位,出现了Cerebras、Graq及Graphcore(2024年中被软银收购)等公司。
摩尔定律已经不适用于GPU了,英伟达的GPU发布频率及性能提升也越来越快,从下图可以看到从 A100 到 H100 的发布周期缩短了 60%,而从 H200 到 GB200 的周期进一步缩短了 80%。与此同时,TFLOPs 性能增长了 6 倍。
说到GPU,就不得不提芯片禁令。美帝国主义对我国的芯片封锁日趋严格,之前只是简单的针对某款具体型号,而现在却从性能指标上直接进行限制。以至于英伟达又针对中国市场推出了阉割版的H20,因为阉割的太厉害了,据说这个卡就只能用来做推理。
但坦率的来说,国内的买家仍然可以通过各种渠道拿到货,而且也有越来越多的企业直接在海外租用或者购买,因为海外不受禁令限制。水货渠道今年比去年惨淡很多,比如H100,在2023年底一度炒到320多万一台,而半年之后就降到了大概240万,当然这里面有个很大的可能是需求的急剧减少。
去年中国有所谓的百模大战,那么今年我们大部分时候只能听到所谓的AI 六小龙,其他的大概率已经阵亡或者至少不需要大批量买卡了。
那么这些还在战场上的,活得好吗?
AI的主要玩家仍然在疯狂的进行融资,比如OpenAI的单笔融资甚至高达65亿美金。而国内的百川智能、月之暗面、智谱等也都今年融资超过几十亿人民币。虽然这些融资数字可能反映了投资者对未来回报的信心,但也为这些公司设定了一个高门槛,因为许多公司目前并没有明确的盈利路径。
OpenAI预计一年亏损50亿美金,而最新的分析预测,该公司2026年亏损可能高达140亿美元,要到2029年(也就是5年后)才能实现盈利,为此收入要达到1000亿美元。
OpenAI的成本大部分是算力,训练加推理的成本达到70亿美元,预计o1推出之后推理成本会进一步飙升。OpenAI这一年虽然人员动荡,创始团队(及高层)几乎流失完毕,但员工数却有超过1500人(2024年6月份),因此人力成本也高达15亿美元。也就是说,OpenAI的成本总计高达85亿美元。
而收入方面受到竞争对手的影响,同时加上中国企业的价格战。OpenAI的推理成本1年直接下降了100倍,国内也早就卷进了“厘时代”。(厘/千token)OpenAI的全年销售额将在35亿至45亿美元之间。
中国AI企业的数据很少被披露,《金融时报》最近报道MINIMAX今年的销售额将达到7000万美元(约合5亿RMB)。据坊间消息,那可能是该公司去年营收的十倍,同时达到了智谱AI去年的营收。
除了融资,伪收购也是美国在AI领域流行的一种方式,目的就是为了摆脱监管机构的反垄断调查。这样的模式,可以让科技巨头吸纳初创公司的创始人和团队成员,而公司不再专注于模型研发,转而投向企业级产品。这一模式被微软(通过 Inflection)和亚马逊(通过 Adept)频繁使用。然而,监管机构已经识破了这种操作,并开始在欧美两地对此进行严格审查。
有意思的是,虽然阿里巴巴投资了中国所有的头部公司(AI 六小龙),但中国目前还没有出现这种伪收购的模式,最近有传闻AI六小龙个别几家已经放弃大模型训练,不知道是不是有可能朝着被大厂收购(或伪收购)这种方向发展?
今年意外爆发的是AI编程赛道,而这个据说可能是最早诞生AI时代超级APP的。目前最受开发者欢迎的 AI 工具 Copilot 的使用率每年增长 180%,其年度营收已经达到了 20 亿美元(是 2022 年的两倍)。Copilot(占 Github 收入的 40%)单独的业务规模,已经超过了 Microsoft 收购 Github 时的整体业务水平。不过,Copilot 只是众多编程公司中的一员,一些公司正在获得巨额融资。
而国内也出现了非常多、并且非常优秀的AI编程工具,例如阿里的通义灵码、百度的文心快码,还有传闻六小龙之一的某家也将在近期推出AI编程工具。
AI 搜索开始崭露头角,但仍有“成长的烦恼”。
Perplexity 在成立 18 个月内估值达到了 10 亿美元,并得到了 Jeff Bezos 和 Nvidia 的投资,有传言说他们正考虑将估值翻三倍。
Perplexity 已经成为备受瞩目的 AI 搜索挑战者,根据最新预测,Google 在美国搜索广告市场的份额明年可能首次降至 50% 以下,结束其十多年的主导地位。同时,Perplexity AI 宣称正在吸引“顶级”广告商,给 Google 带来压力。
一项研究发现,年轻用户,尤其是 Z 世代和 Alpha 世代,已经不再把“Google”作为动词使用,取而代之的是“搜索”。
与此同时,OpenAI 正在测试原型搜索功能——SearchGPT,并计划将其集成到 ChatGPT 中。虽然技术细节尚未公开,但从宣传图片看,其用户体验可能会与 Perplexity 类似。
这类等新兴人工智能工具,利用经过大量数据训练的大型语言模型,以自然语言回答用户提问。从网络搜索或知识库中提取信息,然后生成带有内嵌引用的摘要。而 Google 也正在推出搜索摘要功能。这些公司都面临同样的挑战:结果的准确性取决于所依赖的信息源。
国内此类产品比较知名的只有秘塔,而最近月之暗面的Kimi上线了类似功能的“探索版”,说明头部玩家已经看中了这个赛道,接下来势必会有越来越多的参与者。
这一年以来,文生图领域相对平稳,没有出现太多新的玩家,依然是以Midjourney和Stability为主导,而国内的大部分AI公司也都把文生图作为标配来提供。
在这个赛道唯一值得一提的是一家叫Black Forest Labs的公司,他们推出一个叫FLUX的文生图模型一度引爆社交媒体,而且是马斯克的Grok里面的图片生成提供商。这家公司成立的时间非常短,也就几个月,但生成的图片质量甚至超越了老牌的Stability,原因何在?因为这家公司就是Stability的原班人马出来干的。
图:FLUX生成的TED演讲者图片,一度以假乱真
大家都知道开发了Stable diffusion的StabilityAI一度风雨飘摇,债台高筑,最后连创始人&CEO都跑路了。但奇怪的是,他们居然把大导演詹姆斯卡梅隆请进了董事会,看来AI未来一年将在影视行业有非常大的应用出现。
AI视频这一年虽然没有在影视行业有突飞猛进的进展,但却在互联网上大放异彩。中国的社交媒体一度被AI视频爆改影视剧刷屏,而这背后正是文生视频的崛起。
OpenAI发布ChatGPT后,它的视频生成模型Sora再次震撼了这个业界,但一年过去了,他们仍然没有正式对外发布,但却激发了这个赛道涌现出众多的模仿对象,一度让AI视频变成今年最卷的领域。
Sora已逐步让人遗忘,甚至OpenAI Sora的主要负责人都跳槽去了谷歌。而这一波疯狂引爆社交媒体并逐步占领用户心智的,是来自于中国的可灵(快手出品)以及海螺AI(MINIMAX出品),看
着老外在社交媒体上疯传国产品牌,是一件挺自豪的事情。
如果说这些产品是模仿Sora,那可以很自信的说,至少就Sora发布的Demo水平,现在中国的产品已经远远超越了,在这个领域,中国已经直接飙到了第一梯队。
当然国外也有Runway、Luma AI以及包括Adobe Firefly、Meta Moviegen这样的产品。反而是某段时间爆火的Pika,似乎出道即巅峰,后面都是下坡路,看不到太多的身影。
这一年以来,视频领域可算是突飞猛进。视频的生成质量普遍都达到了非常逼真如摄影机的拍摄效果。从功能方面来看,特别是中国的产品,也新增了大量用户喜欢的功能。比如图生视频、动态笔刷、镜头运动控制、甚至包括文字生成。
另一个最大的突破是角色的一致性问题似乎得到了解决。如果生成的视频和视频之间,人物没法保持一样,终究是没有太大用处的。但像生数科技的Vidu、MINIMAX的海螺似乎已经解决了这个最难的问题。可以预见,接下来视频会真正进入到影视制作的各个环节。
机器人领域今年异常火爆,大量资本涌入,吸引了全球的目光。像 Figure、Sanctuary 和 1X 这样的类人机器人初创公司,已经从三星、微软、英特尔、OpenAI 和 NVIDIA 等科技巨头处筹集了近十亿美元的资金支持。
而在国内,机器人创业的热潮同样不容小觑,涌现出了银河通用(由美团、科大讯飞、商汤等投资)、星动纪元(获得阿里和联想的投资)以及逐际动力(阿里投资)等一批新锐公司。无论是世界人工智能大会(WAIC)上震撼亮相的十八金刚机器人阵列,还是阿里云栖大会的机器人展览,都成为了全场焦点,吸引了大量观众驻足。
然而,尽管热度高涨,机器人距离真正的商用化依然任重道远。
专家预测,至少还需要五年时间才能实现大规模商用。
即便是马斯克的擎天柱机器人,在发布会上引发轰动的展示,实际上也是由真人远程操控完成的。
这一领域,虽然未来可期,但眼下还在持续打磨中。
许多人可能觉得过去一年,AI领域似乎波澜不惊,缺少引人瞩目的大动作。其实不然,我之前已经通过一些重要的节点回顾了这一年的整体情况,可以说,进展远超以往,AI行业的边界也在不断扩展。
最具象征意义的事件,莫过于瑞典皇家科学院将诺贝尔奖授予深度学习的开创者及其在科学领域最著名应用的设计者。这一里程碑不仅标志着人工智能真正成熟为一门科学学科,也彰显了其加速科学进步的潜力。消息传出后,整个行业欢呼雀跃,AI再次成为公众热议的焦点。