当OpenAI于2024年2月15日正式发布文生视频AI工具Sora时,人们被其视频效果惊艳了。一个戴墨镜的高冷女人行走在东京的大街上,周围霓虹闪烁,行人如织。一切看起来都是那么真实。而这段视频的“创作者”是人工智能,人只是用文字给出了指令:“一位女士行走在夜晚的东京街道上”。我的疑惑是:看不出这个工具有什么用。当然,这作为概念证明
(Proof-of-Concept)
是成功的,一下子点燃了人们的兴趣,也吸引了投资人的注意。但在新鲜感过去之后,谁会去看一个个一分钟不到、没有故事线也没有感情的短视频呢?
正如之前的元宇宙一样,如果一种技术无法满足人们的现实需求,无法形成稳定的商业模式和供需关系,那么它最终就会沦为炒作的噱头。
今天的Sora远不像鼓吹者所说的那样是通用人工智能
(AGI)
的重大突破,抑或进一步拉大了中美之间在AI领域的技术差距,而只是
一个重资本支撑下不计成本的“暴力计算”的产物,在技术上没有多少创新,在社会效益上成本大于收益。
从技术上讲,作为Sora之基础的大模型虽然涉及Transformer、Diffusion、GAN等算法创新,但这些创新并不是OpenAI独自做出的。
OpenAI的成功是基于算力、算法和数据的规模升级,
是摩尔定律和梅特卡夫定律所揭示的技术的政治经济效应的表现。换句话说,大模型依靠的是“暴力计算”,即高性能GPU运行千亿级参数模型通过海量数据进行预训练。用OpenAI首席科学家伊利亚·苏茨克沃的话来说:“如何解决难题?使用大量训练数据以及一个大型神经网络。这样,你可能得到的唯一结果就是成功。”为此,OpenAI的主要投资者微软投入数亿美元资金为OpenAI打造了一套超算系统,由上万颗单价数万美元的英伟达A100芯片组成,这套系统为训练ChatGPT提供了3640PF-days的算力消耗
(即假如每秒计算1000万亿次,连续计算3640天)
。这个道理行内人都懂,只是能够如此烧钱打造“大装置”,并能够获取足够多的数据供其训练算法的人很少。
由此可见,大模型训练是一个烧钱和耗能的游戏,充满重资本的味道,一点儿也不节能环保
。
这时,我们就需要对大模型的商业和社会应用进行一番成本-收益分析,看看它所带来的收益是否大于成本,以及收益的归属和成本的分担。
在进行这种分析的时候,我们应当注意尚未被计入成本的那些外部性,比如实际上由公众承担成本的环境损害和系统性风险,以及它可能带来的好处。大模型能够带来的好处似乎是显而易见的。虽然训练成本高昂,但一经训练成功,它就可以产生巨大的生产力,自动化地生产文字、图像和音视频内容,比如帮助文字工作者生成文案和文学作品,帮助医生了解病人的病史和症状描述并形成诊断和治疗方案,帮助老师、科研人员和学生阅读大量文本并提取关键知识点和主要论点,帮助法律职业者审阅法律文件、分析法律问题并形成初步法律意见书,等等。但这些好处本身也可能直接转化为坏处,因为这些“帮助”都可以变成“替代”。尤其是当普通劳动者、消费者和内容创作者对技术及其部署毫无发言权和影响力的时候。正因如此,AI不只是技术议题,更是公共议题,技术的发展方向和应用场景是由技术之外的政治、经济和法律因素决定的。用一本题为《AI需要你》的新书中的话来说:“人工智能不是价值中立的,也不应该是。历史告诉我们,今天的人工智能科学家和建设者应该带着意图和目标前进,而不是拥抱虚假的中立。这一目的应该是致力于和平的,是清醒认识到技术之局限性的,是将服务于公共福祉的项目摆在优先地位的,并且是植根于社会信任与和谐的。”以下将分别讨论发展AI的目的
(目的决定方向,包括技术和应用的发展方向)
、发展AI的成本和收益以及可能的规制路径。
生成式人工智能的第一种可能未来,是作为资本炒作故事
(hype)
而烟消云散,
正像之前的区块链和元宇宙一样。这是最没有技术和商业模式的创新,最有损中小投资者和消费者的利益,却
最有可能出现的未来
。在ChatGPT横空出世之际,人们还没从元宇宙热中走出。然而,
热潮过后留下的是个烂摊子:浪费的资源,收不回的成本,鸡肋般的架构设计和战略布局。到2022年,Meta的元宇宙部门“现实实验室”在财务年报中上报了
137亿美元的营业损失
。
生成式人工智能当然与元宇宙不一样。元宇宙的发展限度在于,它超出了单一企业
(无论何等规模的巨头)
能够控制的数字基础设施能力,包括但不限于网络带宽。元宇宙模式所传输的三位全息影像都是无比庞大的数据集,一旦超出一定规模来部署,必定会导致严重的卡顿和延迟,更不用说达到鼓吹者所说的流畅的临境感。
而生成式人工智能仅仅在研发端需要庞大的算力和数据,一旦研发成功,在用户端则不会占据过多的网络传输和终端算力资源。
实际上,我国企业在生成式人工智能的可持续商业模式方面已经探索出一条可行的道路,那就是面向企业
(B端)
市场,
比如华为的盘古大模型在气象预测、工控系统和政务系统中的应用;商汤的日日新大模型系列中面向医疗系统的“大医”、面向汽车和交通行业的“绝影”、面向城市规划和空间设计行业的“琼宇”、面向制造业和需要进行产品展示的商贸企业的“格物”等。
但目前引起媒体和公众广泛关注的,恰恰是面向个人用户
(C端)
的文字、音视频生成类应用,而这一类应用很可能只是昙花一现。
比如,用过ChatGPT之类的对话式内容生成工具的人都知道,它们生成的“小作文”中
充满了错误的引用、编造的法律条文或数据以及似是而非的话术
。这些被统称为“幻觉”的内容混杂在貌似言之成理的内容当中,使得查验与核实工作变得十分烦琐,
在严肃工作中实际上会加重而不是减轻专业人士的负担,
因此不会在这些工作场合得到广泛使用。
它得到生产性使用的场合,反而多是人类的法律和伦理所禁止或至少会做出否定性评价的用法,包括学生用来写小论文在
学业上蒙混过关
,媒体或自媒体用来编织真假难辨的
假新闻以吸引眼球
,需要做
应酬性讲话或报告
的各行业人士用来生成讲话内容。
Sora这样的文生视频工具不仅不会解决上述问题,反而加重了真实性和可靠性查验的成本,毕竟“有图有真相”“有视频有真相”之类过去的真实性判断方法,面对这样的工具已经不起作用了。
但比作为炒作而烟消云散更糟糕的,是
消费主义的生成式人工智能
真正落地并得到广泛使用的情况,我称之为地狱级噩梦
(Hell)
。OpenAI
(以及背后的金主微软)
用ChatGPT和Sora来向世人展示生成式人工智能的奇迹,是一种概念证明,就像时装秀一样:这种展示“不会显示庞大的机器,没有人类员工,没有资本投资,没有碳足迹,而只有一个具有超凡脱俗技能的基于抽象规则的系统。魔法和奇迹的叙事在人工智能的历史中反复出现,将聚光灯打在速度、效率和计算推理的壮观展示周围”。我们只要参观过任何一个为训练AI提供支撑的数据中心,了解过大型语言模型的训练过程,就知道AI也有“沉重的肉身”,有庞大的服务器阵列和“大装置”,有数以万计从事着烦琐枯燥的数据标注、校订、评估和编辑工作的当代蓝领,更不用说程序员了,以及算力系统每运行一秒钟就会消耗的大量电力和冷却用水。更不用说它背后极不公平的分配逻辑:即便在所谓“市场主导”的美国,人工智能产业也受到政府的大力资助,“人工智能行业的扩张得到了公共补贴:从国防资金和联邦研究机构到公共事业和税收减免,再到从所有使用搜索引擎或在线发布图像的人身上获取的数据和无偿劳动力。
人工智能最初是20世纪的一项重大公共项目,后来
被无情地私有化,为金字塔顶端的极少数人带来了巨大的经济收益
”。
可悲的是,被收割的“韭菜”们还不断惊叹科技巨头向它们展示的魔法,沉迷于“AI狂想曲”:幻想人工智能系统是脱离实体的大脑,独立于其创造者、基础设施和整个世界来吸收和产生知识。
在这个过程中,人类劳动的价值被不断贬低,沦落到为机器提供辅助性服务的地步。
ChatGPT所生成的似是而非的文本和Sora所生成的空洞虚幻的视频,都受到赞叹,而人类创作的各种内容却受到百般挑剔或者根本无人问津。这不仅影响到如今在世的所有人,还影响到教育和人类的未来:许多家长现在已经怀疑让孩子辛苦地学习各类知识到底有什么意义,毕竟未来大部分工作都不需要人了。虽然了解AI技术及其产业的人都知道这根本不是事实,但行业巨头们通过魔法展示所营造出的共识性幻想,却可能导致一个自我实现的预言:
青少年可能越来越多地借助AI工具来蒙混过关,在学习知识和训练技能的过程中投机取巧,
这样人类工作的质量会不断趋近,并最终低于AI从事同样工作的质量,然后给了雇主们用机器取代人的理由。
为了避免滑入这个向下沉沦的螺旋,在当下的数字素养教育中应该更多地纳入对AI进行人文和社科反思的内容,而不是直接接受行业巨头们编织的叙事。要让公众理解人工智能不是一种客观、通用或中立的计算技术,不能在没有人类指导的情况下做出决定。AI系统深深嵌入人类社会的政治经济结构和法律制度中,由人类的个体、商业组织和政府来决定它们做什么和怎么做。虽然AI与其他完全被动的由人类完全控制的工具不同,能够在与人类互动的过程中学习和自我演进,但它仍然是一种工具,是在人类设定目的的前提下寻找最优手段的工具。因此,
我们不能放弃对目的的追问和公开讨论,否则
我们的命运可能不是被AI控制,而是被掌握AI的人控制
。微软控制下的OpenAI,就是这样一个有舆论塑造能力的实体。
成功的企业都是善于讲故事的企业,公众很容易被它们标榜的价值所迷惑,因为它们实际上所做的事情对于公众来说是不透明的。
OpenAI对自己的定位是:“我们是一家人工智能研究和部署公司。我们的使命是确保通用人工智能造福全人类。我们正在构建安全且有益的通用人工智能,但如果我们的工作帮助其他人实现这一成果,我们也将认为我们的使命已经完成。”显然,OpenAI试图为自己树立开源、无私并服务于公共利益的“人设”。2015年,OpenAI作为一家非营利性的科研实验室而注册成立,
一开始,它将自己的宗旨表述为“为每一个人而不是股东创造价值”。
为此,它鼓励所有雇员“发表自己的作品,无论是以论文、博客日志还是代码的形式”。这与营利性公司极端重视知识产权和商业秘密的做法截然相反。它还宣布将与全世界共享自己获得专利的算法。
但即使在这个最初的阶段,
OpenAI也没有兑现自己的承诺
,没有形成开放的治理结构、民主或合作式的工作机制,也没有开放数据或允许外部开发者接入和使用研发大模型所需的高成本资源。
实际上,它的创始人中只有埃隆·马斯克真正信奉开放的宗旨,但他的想法被称为“马斯克让AI自由发展的疯狂计划”。在接受《连线》
(Wired)
记者采访时,当时的OpenAI主席格雷格·布洛克曼说:“把你做的所有研究都公开,并不见得是一种最好的方法……我们会产出很多开放的源代码。但我们也有很多不想马上发布的东西。”
保护商业秘密的立场,在2019年发布GPT-2之后就占据了上风。
这一年3月,OpenAI正式宣布放弃非营利的法律性质,转型为一家“
设利润上限的”营利公司,这个上限就是首轮投资者不能获得超过其投资额100倍的回报。在接受了微软的10亿美元投资之后,OpenAI将GPT-3大模型授权给微软独家使用,之后的所有大模型也都为微软所独享。
虽然从法律上OpenAI并没有并入微软,但它实际上已经成为后者的一个研发部门。
正因如此,在2023年的OpenAI首席执行官换人风波中,微软发挥了决定性的影响力。也因为如此,马斯克最近在加州旧金山初审法院提起诉讼,主张该公司违背了承诺,侵犯了自己作为创始人之一的权利。
OpenAI与微软的整合,会进一步强化微软在操作系统和生产力工具领域的垄断地位。
实际上,先进入开源平台成为它的重要开发者和用户,然后利用自己的算力和数据优势吸引开源平台上的开发者为自己服务,最终使开源平台私有化为自己的一部分,是包括微软在内的数字巨头常用的策略。
2018年,微软收购了全球开发者创建、存储、管理和共享代码的平台GitHub,
该平台有超过1亿的软件开发者用户,同时也是全球最大的源代码托管商。作为一个拥有超过20万名员工和庞大的官僚机构的巨型企业,微软的管理层认识到企业内部缺乏人工智能领域的创新力。将OpenAI留在微软外部并享有它的专属服务,对微软来说是一种新的或许更明智的策略。
得到OpenAI的专属服务后,微软已经将GPT-4等大模型整合到自己的现有产品和服务中,
比如搜索引擎必应和生产力工具Office软件。在搜索引擎方面,新的必应虽然为微软赢得了八倍的下载量,但未能撼动谷歌的绝对霸主地位。而在微软占据市场支配地位的生产力工具领域,
基于大模型的AI助手Office Copilot或许会进一步强化其垄断地位,
并保持遥遥领先。未来,微软还会将大模型整合进Windows操作系统。
垄断会带来垄断者任意定价和服务质量下降,损害消费者福祉。
使用过Windows的用户都很清楚它是多么不好用。重资本入场的平台企业,一开始会投入巨额资金补贴用户、改善用户体验、开展研发和创新活动,
一旦市场支配地位形成,便会实行垄断者定价,降低服务质量。
在存在自然垄断的领域
(数字市场就是这样一个领域)
,公共监督和法定监管通常优于通过竞争实现的市场规训。常见的监管方法包括法定价格范围、最低服务质量标准、交互可操作性要求、可信数据环境标准、安全标准等。简言之,就是采用规制+反垄断的组合拳。