在讨论人工智能的系统方案时,我认为需要从五个方面进行全面阐述。首先,从概述入手,明确人工智能系统的整体框架和目标。其次,介绍普兰提尔(Palantrie)这一概念或技术,作为系统方案的重要组成部分。第三,从底层技术角度分析现代智能系统的瓶颈,探讨当前面临的挑战和限制。第四,聚焦多尺度的态势感知,强调其在人工智能系统中的关键作用,以及如何通过多维度数据融合提升智能决策能力。这五个方面共同构成了人工智能系统方案的完整视角。
刚才我们讨论了硬件的成分,现在来看看 Deepseek、ChatGPT 以及前几天发布的Grok3。前段时间我做了一个采访,了解到 Deepseek 可以说是小力出奇迹。它们都是基于 transformer 架构,Deepseek 有几个显著特点:采用了混合专家技术,号称满血状态下有 671B,但实际计算时仅为 37B,资源占用大幅降低,速度也大幅提升。不过,这种方式也存在缺点,那就是精度有所下降。第二,Deepseek 在前期对一些信息进行了压缩;第三,相较于传统的暴力计算方式,它能够实现更多、更长的预测;第四,通过双管齐下的信息交流模式,节省了时间成本。第五,它的强化学习方式与传统强化学习有所不同,存在相对强化,这意味着对局部最优和全局最优进行了调整。我们提出多尺度的强化学习,正是受其启发。在不同尺度,即小尺度、中尺度和高尺度的情况下,进行弹性切换,以此提升整体性能和效果。
总体而言,之前DeepSeek 的生态建设面临很大困难。它采用的是 Cuta 的指令集,如果能够成功破解,便可以在小范围内改善当前生态,甚至重建一个全新的生态。在计算精度方面,DeepSeek 采用 LP 混合精度,即浮点计算 8 和 16 混合,而 GPT 和 Grok 采用的是 32 精度,相对来说,GPT 和 Grok 的精度更高。此外,DeepSeek 处于半开源状态,大家都知道,它最底层的框架并未开放。这就是 DeepSeek 目前的整体情况。
在这里需要特别指出,从最严格的标准来看,所有基于该架构的大模型都存在可靠性问题。追根溯源,这类模型源于2017年《Attention is all your need》的那篇论文。前段时间,NVIDIA 的老总黄仁勋邀请了论文的 8 位作者中的 7 位聚餐交流,席间这 7 位作者一致认为,这个体系和框架存在极大的不完善之处 ,这也从侧面反映出基于此架构的大模型并不可靠。
在这个被指出不完善的基座上,却诞生了众多大模型,这不禁让人好奇,它为什么不完善呢?其实,20 年前纽约大学计算机系系主任马库斯写过一本书,可能现在大家不太关注。3 年前,我们受委托在机械工业出版社出版了该书的译本 ——《代数大脑:揭秘智能背后的逻辑》。这本书里明确提到,在 Transformer 架构的多内层神经网络系统中,基本函数由线性函数和激活函数这两个函数构成,它们形成了一个非线性复合函数。在反向传播过程中,多内层的 Token 权重分配无法解释,呈现黑盒状态,这或许就是 Transformer 架构不完善的原因。
这意味着,只要采用这种架构的多模态大模型,必然会出现机器错误,也就是我们常说的机器幻觉,即模型会一本正经地输出错误信息,只是无法预测这种情况何时发生,这是第一点。第二点,现任 DeepMind 首席的 Hassabis 毕业于剑桥大学计算机系,同时也是 AlphaGo Zero的负责人。他指出,大模型会出现机器欺骗现象。究其原因,由于模型所接收的人类提供的 Token 中,本身就包含真实和虚假信息,模型在学习过程中一并吸收。当它实时接触大量信息源时,就容易引发机器幻觉和机器欺骗。五角大楼和海军等发布了诸多文件,强调在军事领域应用大模型时,必须要严格审查。从这可以看出,在一些重要领域,对大模型的使用十分谨慎。
另外,在一些特定领域,对于大模型的使用也有严格考量。在经过特定训练后,大模型在图像识别等特定方面,效果还是不错的,并非完全无用。不过,在国防、安全以及精密工业等关键领域,仍需谨慎使用大模型,就如同医药使用需要严格把控一样,这就是目前大模型的应用现状。
总体而言,大模型的极限在一定程度上反映了当前 AI 的极限。从数据层面来看,大模型依赖大数据、大样本,而人类学习往往基于小数据、小样本。
在推理方面,存在一个普遍误区,不仅我们有误解,美国人也同样如此。他们将智能单纯等同于计算和逻辑,这是错误的认知。真正的智能,除了计算和逻辑,还包含非计算、非逻辑部分。需要注意的是,数学并非纯粹的逻辑,数学是基于公理的逻辑,是有前提条件的。目前所有大模型主要依靠统计、概率等数学规则运行,这就导致在推理认知上出现了偏差。
以奥特曼提出的未来智能五个发展阶段为例:
第一阶段是能够实现交互;
第二阶段是能够进行推理,但在这一阶段就暴露出了问题;
第三阶段是能够实现调用;
第四阶段是能够进行创新;
第五阶段是能够完成组织。
在表征方面,人类的表征极为灵活,常说的 “一花一世界,一树一菩提” 就体现了人类能够将万事万物相互关联。与之对比,AI 的表征则显得较为死板,缺乏人类表征所具备的灵活性,难以实现如此广泛和灵活的关联。
智能的实现不能仅仅依靠语言,思维同样占据着重要地位。人类有许多只可意会、不可言传的思维内容,这些内容是智能的重要组成部分,而这恰恰是当前 AI 所欠缺的。
价值和事实是不同的,这是一个哲学层面的问题。目前,我们所有的任务规划基本都是基于事实进行的,并没有涉及到价值层面的规划。然而在实际作战中,常常会出现 “枪声一响,所有作战计划都要重新改写” 的情况,这表明事实性的变化速度远远比不上价值性的变化速度,价值因素在实际作战中有着关键影响。
以上就是关于智能及 AI 的五个特点分析。
大模型在某些情况下可能会干扰人类的决策,主要原因可以从以下几个方面分析:
第一,信息准确率问题。大模型依赖于数据源的质量,但在实际应用中,很难获取完全完备且干净的数据,这可能导致计算结果出现偏差。
第二,缺乏可解释性。大模型通常被视为“黑盒”,其决策过程缺乏透明性,用户难以理解其内在逻辑,从而降低了信任度。
第三,迎合用户偏好。大模型可能会根据用户的历史行为或偏好生成结果,这可能导致信息茧房效应,限制了用户的视野。
第四,偏差与歧视。由于训练数据可能存在偏见,大模型可能会继承甚至放大这些偏见,导致不公平的决策结果。
第五,过度依赖和虚假的自信。用户可能过度依赖大模型的结果,而忽视其局限性,甚至产生盲目的自信,从而影响判断。
第六,价值观冲突。大模型的输出可能与用户的价值观或社会伦理产生冲突,引发争议或不适。
第七,动态环境适应不足。大模型在面对快速变化的环境时,可能无法及时调整,导致决策滞后或失误。
第八,情感操作。大模型可能通过情感分析或生成内容影响用户情绪,进而干扰其决策。
尽管大模型在许多场景下能够提供帮助,但在特定场合下,上述问题可能导致其干扰人类决策。因此,在使用大模型时,需要保持警惕,结合人类判断,避免过度依赖。
在大模型驱动的智能时代,人、机、环境三者协同的核心目标是实现安全、效率和交互的舒适性。人类擅长谋划和算计,但在计算能力上较弱,而这正是机器的优势。构建一个生态系统的关键在于融合主观与客观,真正的智能不仅包含逻辑与数据,还需要创造力与想象力。这种混合特性使得智能系统的构建超越了传统科学的范畴,成为一项复杂而富有挑战的任务。
我们对智能的理解可能存在一些偏差。系统智能有两个经典案例:一个是美军的陆军指控系统,代号“深绿”,这是目前指控类项目中最干净、架构最漂亮的项目之一;另一个是普兰提尔。“深绿”从1998年启动,到2012年转入地下,其系统包含三大模块:水晶球、闪电战和指挥员助手。与传统的专家系统不同,专家系统通常基于规则,只有计算而没有谋划能力,而“深绿”则更注重智能的全面性。
我们反对单纯的类脑研究,因为即使神经元数量再多,也无法完全模拟人类的智能。类脑研究存在局限性,只有将智能与外部环境结合,才能真正发挥作用。以“水晶球”为例,这是一个态势感知系统,其背后的公司业绩发展迅速,估值甚至达到2600亿。该系统有两个重要事件:一是被质疑为旁氏骗局,二是辅助美国中央情报局抓住了本·拉登。这两件事使其声名大噪。有人推测,马斯克在美国反腐行动中可能也使用了类似的系统。
普兰提尔的核心包含三个部分,其中最重要的是“歌坛系统”和“大都会模块”。最初,该系统主要基于大数据处理,类似于军事领域的大数据系统。最近两三年,普兰提尔引入了大模型技术,将数据分析与大模型结合,构建了更智能的处理架构,显著提升了系统的能力。
普兰提尔在金融领域主要用于风险管理、追溯以及犯罪预防等任务。其核心是人机共生,本质上是一个软件系统。普兰提尔并非完全自主的产品,而是需要与有经验的军人和金融工作者结合,才能发挥最佳效果。需要注意的是,“人机共生”这一概念本身存在争议,且其架构已经不再局限于传统追溯模式,而是特别强调了系统设计的根源。德国人在系统设计上非常注重从根源出发,这也是普兰提尔成功的关键之一。