2024年,自动驾驶、具身智能等关键技术领域迎来了重大突破,在产业界,端到端模型的进展打破了自动驾驶L2层限制,无人出租车队开始在多个城市中投入运营;具身智能技术为传统机械臂和机器人提供了智能化升级的路径,激发了公众对人形机器人参与工业生产和家庭生活的期待。
2024年,基础科学领域同样取得了显著进步,生物医学与能源材料的研究极速发展。诺贝尔物理学奖和化学奖相继颁发给人工智能领域的开创性工作,Anthropic公司的CEO Dario Amodei更是预测,在人工智能的助力下,科研领域的发展速度将提升十倍:“人类在50-100 年内可能取得的进步,将折叠到 5-10 年内完成”。(推荐阅读:《价值之探 | Claude CEO万字长文:人工智能如何缔造更美好的世界》)
在【年度回顾】系列的第一篇文章中,我们探讨了大模型如何“润物无声”地渗透各行各业,悄然改变日常运营模式。而在本文中,我们将聚焦于大模型在科研技术领域的“全速前进”。产业技术和基础科学变革背后的共性逻辑,在于跨学科融合与创新,通过数据驱动的方法替代传统的专家规则,极大地提高了研究的准确性和效率,提供了破解复杂系统问题的新方法、新工具。正如科幻小说《三体》中章北海所喊出的“前进四”,大模型已经成为科研范式极速变革的关键按钮,代表着人类直面未知和探索无垠的行动与决心。
一、大模型正在成为多个领域的深刻科技变革的共同“题眼”
大模型更为公众所熟悉的领域,是基于基础模型开发各类面向消费者和各行各业的应用。在这些“看得见的地方”,根据阿里、百度和字节披露的模型应用调用数据:发展速度惊人,每三个月翻三倍。预计到2025年底,中国的大模型调用量将是当前的近百倍。(推荐阅读:《大模型产业应用(一) | 润物无声:大模型已快速渗透千行百业》)
与此同时,在“看不见的地方”,大模型正在包括自动驾驶、具身智能、新材料研发等关键技术领域,以及生命科学、环境科学、脑机接口等基础科学领域重构底层逻辑,发挥加速作用。
以自动驾驶领域为例,在过去的十几年时间中一直徘徊在L2级别,只能在高速公路或封闭道路等结构化良好的环境中使用,难以应用在真实城市交通环境中。行人横穿马路、非机动车突然切入车道复杂路况,或是不规则的道路布局等,L2级系统无法做出正确的判断和响应,需要人类驾驶员接管。当特斯拉将Transformer架构引入自动驾驶领域后,在2024年3月正式发布端到端自动驾驶系统FSD V12,并在之后的8个月内急速演进,在最新发布的FSD 13版本中,体现出了交通场景理解和行为预测能力,并初步具备了极端情况下的应对策略,L4级别的自动驾驶已经接近实现[1]。当前国内领先的新势力车企(理想、小鹏、小米、蔚来等)也几乎全部转向端到端技术路线。
对传统自动驾驶系统,往往独立设计感知理解模块,根据摄像头、激光雷达等传感器收集环境数据,再通过大量人工标注和算法处理,识别道路标志、行人和车辆等。最后采用专家规则库(Rule-based System),确定了不同的路况对应不同的驾驶指令,例如“红灯停、绿灯行”就是明确的行驶规则。但真实路况难以穷举,即使规则系统不断追加代码,但如果遇到一个未知的交通障碍,系统无法正确识别,也就无法采取正确动作。
采用Transformer架构的端到端驾驶系统,Tesla通过前期积累的大量人类司机真实驾驶数据(环境感知数据与其对应的驾驶控制指令)训练模型,提取其中潜在的人类路况理解和驾驶决策模式,不再需要预先定义所有可能的场景和规则,从感知、决策到驾驶控制一气呵成,不仅响应速度更快,而且能像人类一样更好地处理复杂路况和未知情形。由此,中国主机厂商乐观预期,越复杂的路况和行为数据,模型可以从中学到的驾驶能力就越强,甚至可以成为全球竞争的独到优势。
在传统机器人领域,人工智能学者很早就提出了“莫拉维克悖论”(Moravec's Paradox),指出需要人类高度智力才能完成的任务,比如下棋,相对容易被编程实现;而那些人类甚至不假思索就能完成的基本任务,如感知世界、抓取物体等,却难以让机器人掌握。同时,以波士顿动力为代表的上一代机器人公司,依赖于预先编程的规则系统,机器人能够完成各种高难度动作,但仍然解决不了莫拉维克悖论,机器人可以在实验环境里后空翻,但不能在真实环境中系鞋带。演示效果炫目,但商业变现之路崎岖。这是因为高级的逻辑推理主要依赖于算法和计算,而低级的感觉运动技能则需要对环境的复杂交互有深刻的理解,正是具身智能的优势区。
和自动驾驶领域非常类似,以特斯拉和宇树科技为代表的新兴机器人企业,引入大模型学习人类运动数据,增强对物理空间的感知和理解,提升复杂环境决策的智能化水平,改善运动规划和控制的效率。虽然人形机器人要进入工业或者家庭面对的场景远比自动驾驶复杂和灵活,收集和积累人类生产和生活的行为数据也更具挑战,但二者在核心技术进步背后的原理是相通的——都依赖于数据驱动的方法和算力的加持进行范式转换,使得机器人不仅能够下棋,还能够“进厂打工”和“入室服务”,向更高级别的自主操作进化。(推荐阅读:《具身智能系列 | 摆脱“地心引力束缚”-人形机器人进厂实习背后的产业发展逻辑》)
在基础科学领域,大模型不仅遵循着与产业关键技术相同的变革逻辑,更全速推进科研的进步。这一趋势不仅体现在生命科学和环境科学中,也跨越到了脑机接口、量子计算以及其他前沿科研领域:
● 生命科学:大模型不再依赖于人类专家的既有经验,而是通过学习海量的蛋白质序列数据,自主捕捉潜在规律,实现对蛋白质结构的精准预测。它还能从基因表达、蛋白质相互作用网络等复杂的生物数据中提取特征,识别出那些可能影响疾病进程的关键分子——蛋白质和核酸,作为理想的药物靶点,确保“精准打击、避免误伤”。● 环境科学:通过对大气、海洋、陆地等多源地理数据以及长时间序列的温度、湿度、风速等气象信息的学习,大模型加深了对各类气象事件的理解。这使得它能够提供更为准确的长期气候变化预测,并及时预警极端天气事件。● 脑机接口(BCI):在神经科学与人工智能交汇的领域,大模型有助于解析大脑信号,促进脑机接口技术的发展。这些模型可以增强对脑电波和其他神经活动模式的理解,为开发更高效的脑控设备铺平道路,从而改善医疗康复、人机交互等领域。● 其他科研领域:在材料科学中,大模型通过模拟和预测材料性能来指导实验设计,加速了新材料的发现过程。在天文学中,它们协助分析来自望远镜的大量观测数据,帮助揭示宇宙的秘密。
这种跨学科的数据驱动方法变革,正在加速科学研究的步伐,推动我们向更深入理解自然世界迈进。无论是微观层面的分子作用机制,还是宏观尺度的天气现象,大模型的引入都预示着一个“全速前进”科学新时代的到来。
大模型展现了在多个前沿科技领域的广泛应用,本章节将深入探讨驱动这些变革背后的三大核心因素:
传统的研究方法受限于人类的认知和计算能力,难以穷尽所有可能性,往往只能对“人类所能观测到的”局部进行分析和建模,难以把握系统的整体特征和复杂关系。完成具体任务的小模型可以在局部表现优异,但往往错过对世界的一般理解。通用模型更有可能逼近生物大脑的表征方式,从而在各种任务上展现出优越的表现。(推荐阅读:《技术之辩 | 柏拉图表征假说:人工智能模型正朝着对现实底层结构的共同理解迈进》)
大模型架构提供了一种系统性研究复杂系统问题的工具和方法,使得相应前沿领域的科研人员,能够以全局视角,系统性地审视、分析和理解其研究对象。大模型擅长处理海量数据并探索各种可能性空间,并对不同可能性进行证实或者验伪,从而显著降低科研的试错成本,并且具备对未知任务的泛化性。
2.2 从专有系统到通用技术:跨领域共享基础设施和技术资产
支撑大模型训练和应用的技术体系,包括芯片、算力集群、模型架构、模型工具链、应用开发平台,以及相关人才等,在不同技术领域具有高度的通用性,构成了跨领域技术创新的坚实基础。
这种通用性显著降低了跨领域研究的门槛,并促进了不同学科之间的深度交流与合作,从而加速了技术创新的进程。例如,通用模型训练和推理中建设的基础设施和积累的技术资产,可以在关键技术和基础科学各个领域中复用。这种跨学科的知识和方法论的相互借鉴,以及共享的算力设施、复用的人员技能,不仅降低了研发成本,还全方位地降低了技术门槛,从而有力地促进了跨领域的合作和技术创新。
2.3 从经验规则到数据驱动:重塑复杂系统的科研范式
大模型驱动变革的诸多领域,如自动驾驶、具身智能、生命科学和环境科学等,本质上都属于复杂系统。复杂系统往往具有高度的非线性、动态性和不确定性等特点,系统中的变量众多,相互作用复杂,传统方法难以准确描述和预测其行为。长期以来,针对复杂系统的科学研究和工程实践主要依赖基于经验和人工规则的方法。
得益于大模型特有的技术机制和架构,能够高效学习海量的领域数据,捕捉数据中隐藏的复杂模式和规律,从而有效应对复杂系统。例如,模型允许从多个“视角”来理解数据,在生物医药中,它可以理解药物多种相互作用产生的复杂影响;模型支持处理长序列格式的数据来总结规律,在自动驾驶中,它可以将连续的路况视频串联成动作轨迹;模型并行计算效率高,在气候预测中,对处理长时间跨度的海量气候和水文数据来说非常关键。
这推动了越来越多的复杂系统领域从经验与规则主导的模式向数据驱动的模式转变,大模型成为了破解复杂系统问题的新方法、新工具。
3.1 需厘清“领域模型”和所谓“行业大模型”的区别,以做到精准施策
领域模型并无准确定义,根据产业实践,是针对某个特定的关键技术或基础科学领域利用大模型基础架构进行训练的到的模型,例如本文提到的自动驾驶、具身智能、生命医药、环境科学等领域,具体包括上文提到的Tesla的FSD(Full-Self Driving),Deepmind的AlphaFold、阿里支持复旦大学发布的气象模型,联手国家天文台和中科院,打造的“观星”和“探月”模型。它们旨在捕捉该领域数据中固有的模式和规律,为该领域的各种下游任务提供强大的基础能力。
然而,各地大模型产业政策中频繁出现的“行业大模型”(如政务大模型、金融大模型等),本质上是基于通用模型开发的各类应用,其形态和价值在“大模型产业应用”系列文章第一篇中已有详细阐述。
因此,对于产业关键技术与基础科学的领域模型,有必要进一步加大政策扶持和资源投入。对于千行百业的各类应用,则考虑鼓励以“公共云+模型API”的方式进行的快速探索与规模化铺开。不必要再行创造“行业大模型”概念,获得额外的扶持鼓励。
3.2 需打破产业垂直划分壁垒,开展横向跨行业共性技术与平台的融合推进
2024年以来,各地加速出台了针对大模型产业、人形机器人、智能网联汽车、工业设备大规模更新的独立发展规划。如前文所述,这些领域虽然应用场景各异,但其技术体系高度同源,均依赖于大模型的算力设施、训练数据和仿真环境等共性资源。
随着大模型在产业的落地,数字经济背后的技术体系正在呈现出跨行业的横向融合的特征,对传统的纵向行业划分、规划方法和落地路径提出了全新的挑战。为了适应这一趋势,须打破产业间传统划分方式的认知壁垒,推动横向跨行业开展共性的技术平台建设与资源共享。加强科研领域间的资源共享与技术合作,不仅有助于减少重复投资和技术冗余,还能加速技术创新,进一步提升各领域的协同效应。
3.3 需构建敏捷治理框架,以适应与匹配新科技范式的不确定性
大模型全速前进,正在推动多个复杂系统的研究演进,带来了全新的技术发展和应用范式,也必然带来对社会的风险与影响。其治理不能以限制发展为代价,而是需要构建敏捷治理框架,以接纳和包容新技术范式的复杂性和不确定性。
首先,新一轮科技变革之中,政产学研各方的“共同无知”成为常态,需正视无人具备标准答案的现实,治理要从“闭卷判断”转向“开卷问答”。敏捷治理框架强调通过开放式的交流与试验,推动技术问题的风险识别。
其次,新一轮科技治理应当动态平衡多元目标,兼顾发展和安全,须在技术效率、资源利用与系统稳定性之间找到动态优化的方案,鼓励企业与科研机构加强自律与透明度,推动多方的互信与协同。
最后,新一轮科技发展需要基于“反馈迭代”积累治理的公共知识,逐步形成公众心智和产业共识。从未知走向已知需要不断试错和调整,治理框架需要在技术开发、评估和优化中快速的学习与调整。[2]
/ 大模型产业应用系列文章 /
[1] Tesla’s 2024 Highlights: A Look Back at Tesla's Best Features and Milestones, Karan Singh, 2024. https://www.notateslaapp.com/news/2468/teslas-2024-highlights-a-look-back-at-teslas-best-features-and-milestones
[2] 应对不确定性挑战:算法敏捷治理的理论界定, 贾开、赵静、傅宏宇,2023。https://mp.weixin.qq.com/s/saOCDrdztEdjJF59ZjbMyA