专栏名称: 學人Scholar
汇聚优秀学人资源,致力于构建面向大众的交流平台,以传播学人思想,彰显学人精神,展现学人风采。联系、投稿、防失联可添加 xrscholar
目录
相关文章推荐
贵州日报  ·  贵阳市最新人事任免 ·  21 小时前  
贵州日报  ·  省委社会工作会议召开 徐麟出席并讲话 ·  2 天前  
百姓关注  ·  刚刚,娃哈哈声明 ·  2 天前  
51好读  ›  专栏  ›  學人Scholar

专访潘昱杉:AI发展让我们更需要学习,批判性思维更加不可或缺

學人Scholar  · 公众号  ·  · 2025-02-10 21:10

正文

图片

图片


学人简介:潘昱杉,西交利物浦大学智能工程学院助理教授、博士生导师。奥斯陆大学博士,曾任挪威科技大学研究员、高级研究员(终身岗),美国参数技术公司技术顾问。研究兴趣主要围绕人工智能与人机交互交叉学科展开,包括人工情感智能、认知人工智能与智能交互、信息融合技术、高光谱图像与人机交互安防方向、嵌入式软件工程。
采访人:赵逸轩、韩宗洋,学人播客团队成员。

学人:在过去一周里,DeepSeek深度求索这家公司及其技术,成为了中国乃至全球舆论场的热门话题。您如何看待这一现象?它为什么会成为热点?对于中国来说,它的意义或者原因是什么?作为一名专业研究人员,您的看法是什么?


潘昱杉:可以从三个方面来说。首先是多领域性能优异。从各大评测平台的对比来看,DeepSeek在多个测试中表现突出,比如事实性知识、中文事实性知识,以及Simple QA(简答问答)等方面,已经展现出比GPT、Claude 等模型更优的结果。其次是开源性。DeepSeek采用了比西方AI公司更开放的开源策略,这极大促进了它的应用发展。开源意味着用户可以在本地运行模型,保障数据隐私,同时也便于定制和扩展到不同场景,为开发者提供了更灵活的开发环境。此外,它的定价较低,尤其适合国内初创企业,加快 AI 应用的落地。第三是数学推理和编程能力突出。在非COT(Chain-of-Thought)测试中,DeepSeek在数学推理能力上优于GPT-4o,在编程能力上也比 Claude 3.5 表现更好。虽然在某些软件工程测试任务上,它的代码生成能力稍逊于Claude,但考虑到它是开源的,随着社区改进和版本迭代,未来完全有可能超越这些闭源模型。


最后,它的高效训练架构也是一大亮点。DeepSeek采用混合专家(MoE)架构,比如它的总参数量是 6700 亿,但每次推理只激活 370 亿个参数,而 GPT 和 Claude 这类Transformer结构的模型,每次推理调用的参数量远超这个数。这样既能保持高性能,又能降低训练和运行成本。再加上它采用强化学习训练方式,更接近人类的学习和推理模式,使得它在某些任务上的表现更加智能化。综合来看,DeepSeek的开源策略、高效训练方式以及多领域的优异表现,让它迅速成为了国内外关注的焦点,也吸引了全球 AI 公司的密切关注。


从我的角度来看,DeepSeek在多个领域展现了强大的能力,整体上它的表现值得肯定。第一,它的多领域表现优异。在和GPT、Claude的对比中,DeepSeek在教育类基准测试、开源模型评测等方面成绩突出,特别是在 中文事实性知识 处理上,超越了 GPT 和 Claude。这对国内用户来说是个重要优势,因为我们经常发现GPT和 Claude 在处理中文事实知识时稳定性不足,而 DeepSeek 解决了这个问题。第二,在数学推理和编程能力 上,DeepSeek 也表现不俗,甚至比GPT更强。我自己在给本科生上编程课时测试过DeepSeek v3,在非COT模型中的表现是最优的。当然,它在软件工程和代码自动生成 方面,比如测试类任务,目前的准确性还比Claude稍低,但从 训练效率和架构设计角度来看,DeepSeek 在低算力和低成本环境下的优势很明显。当然,DeepSeek也受到了不少质疑。比如,有人认为它可能使用了未经授权的数据,或者借鉴了GPT的技术,甚至有人讨论它的数据是否具有创新性、合规性。这些争议主要集中在数据来源和合法性问题上。


但从科研角度来看,DeepSeek的开源策略本身就意味着更透明、可检验的技术体系。它为开源社区提供了更丰富的开发空间,研究人员也可以基于它做出进一步的优化和调整。我认为,即便有负面评价,这些讨论依然是推动技术发展的重要部分,也说明DeepSeek在AI领域确实引起了足够的关注。


图片

学人:目前全球范围内最知名的AI语言模型公司,可能是OpenAI 及其 ChatGPT。请您对比一下DeepSeek和ChatGPT,两者有哪些异同?它们的商业模式又有什么不同?


潘昱杉:先说相同点吧,不管是DeepSeek,还是ChatGPT,它们都是基于语言模型的一种AI工具,用于为使用者理解和生成自然语言文本。所以相应的,它们都存在数据隐私和安全性的问题,这个是长期的,也不只是大语言模型的问题,这个是人工智能领域的共有问题,都涉及到数据隐私和安全的风险。比如说,现在有人质疑DeepSeek的数据存储于中国的服务器,它是否会引发一个个人的数据隐私风险甚至其他国家安全方面的担忧呢?当然,我们也可以理解为GPT也存在相应的数据漏洞和用户信息泄露的风险。这就引出了伦理问题,合规性的问题。而且,所有的人工智能算法或者模型,它都有一定的偏见性,或者是误导性,会存在风险,生成一些有害的内容。


目前,DeepSeek在中国的内容审查相对合规,比如遇到敏感问题时,它可能会拒绝回答或无法生成相关内容。当然,GPT的训练过程中也存在类似的问题,所以在这方面,两者并没有太大区别。我觉得它们的主要不同点可能体现在商业模式上。


DeepSeek的模型大多采用开源模式,这一点和传统软件的开源与闭源概念类似。开源的优势在于,用户可以在本地部署模型,保证数据的隐私性,同时还能根据特定需求进行定制。这种模式让开发者在应用场景上有更大的灵活性,可以自由调整和优化模型。相比之下,DeepSeek的定价也比GPT更低。


此外,DeepSeek还提供了轻量化客户端,比如我们可以在手机上下载一个简化版应用,进行基础的免费体验。这是DeepSeek和GPT的另一个显著区别。以GPT为例,OpenAI的模型是闭源的,不支持本地部署。如果我们想利用OpenAI的技术,比如开发一个法律模型,基于各地法律法规和审判数据进行训练,那我们的数据就需要上传到OpenAI的服务器,可能会涉及数据安全风险。而且,OpenAI的成本较高,部署灵活性也有限。因此,从商业模式和市场需求来看,DeepSeek可能更符合中国大陆市场的特点。


学人:因为我们听众几是分布在不同的年龄段,有不同的行业,听起来deep seek跟chatgpt主要的一个差别是和开源,闭源有关。不知道您能不能跟普通的听众说一下什么是开源,什么是闭源?然后这两条路线有什么样的异同?你怎么去评价这个事情?


潘昱杉:开源和闭源不是一个新话题了。在软件开发中,开源和闭源是两种软件的开发和发展模式,也具有各自的优点和使用场景。开源的一个优势在于成本效益比,所以它促进创新和协作的能力。开源项目本身就是一个活跃的开发者社群,内部并不收费,所以我们也可以去自由的贡献代码,去自愿修复系统中的漏洞,提升系统的功能,加速就软件的迭代。同时开源还有一个透明度的优势,因为我们的代码是开放的,所以不同的人都可以看到我们的代码的内容。所以不同人群可以根据各自不同的需求,把代码进行一些更改。也就是定制化他们具体的研究领域和应用方向,这样的话,大多数情况下都可以做到低成本甚至免费的一种开发部署。


开源模式不仅提升了 开发效率,也促进了行业标准化和系统兼容性。由于开源依赖 群体协作,大量资源可共享,避免了 重复性开发,从而加快了技术创新。例如,在软件工程领域,Linux、Unix、Windows、macOS 等操作系统并存,但许多创新工具往往 最先出现在开源社区,而非闭源环境。这一趋势也影响了 教育 和 人才培养——在学校里,学生通常先基于 开源平台 进行开发练习,从而降低学习成本。


然而,开源模式也存在挑战:首先是维护难度大,开源项目依赖 志愿者贡献,但往往 缺乏专门的维护团队,导致代码质量参差不齐,影响长期稳定性。而且它的更新与支持有限,开源软件通常没有商业支持,更新频率和安全性 难以保证,需要社区长期维护。还有一个安全与合规风险,教育平台这样的应用场景下,如果缺乏专门团队进行安全维护,可能导致数据泄露、个人信息风险,甚至合规性问题。


所以说在一定程度上呢,它确实有一些弊端,但同时,如果我们找到了一个好的模式,就像我刚才举的还是那个例子,就是学习超市那个例子,它的商业活动也可能在一定程度上运转起来。大家都说开源社区的工作呢,很难变现,比如说商业化比较难,当然这取决于我们在维护的过程中,是否有一个稳定的团队去做。如果有的话,我们的盈利模式或者商业模式,其实跟闭源的路线差不多。就拿我们现在的学习超市来说,它是分两部分的,一部分是对外的,一部分是对内的,因为有一个团队在做开发和后续的系统维护,所以它的商业模式是可以持续的。


当然,如果没有这样的团队,那它和闭源模式比起来就会有很大的困难。就是说,我前面提到的那些问题——比如维护难度大、支持力度有限,还有漏洞暴露等等。而对于闭源来说,这些问题相对来说就容易解决多了。像我们使用的Windows,或者其他收费软件、收费平台,它们背后都有专业的支持团队,也有持续的更新,比如说打补丁呀、修复漏洞呀之类的。而且它的代码是保密的,我们至今都不知道Windows的系统代码到底是什么样的,只有微软自己清楚。这样一来,它的安全性也会比较高,因为代码不公开,专业的安全措施也都是由内部团队来维护的。


所以说,它的变现能力就会比较强,因为闭源模式下,每一部分的工作、每一个工具,基本上都是通过商业化模式来运作的。但它也有弊端,比如说它限制了集思广益的过程,所有的开发和优化都由自己的团队来做,所以它的封闭性就会比较高。这样一来,它的灵活性也会比较差,不是每一个用户的需求都能被满足。而且它还涉及成本问题,你要养这么大的团队去做闭源软件的开发和维护,成本肯定不低。


再一个,它其实更依赖于行业垄断。比如说像微软、苹果这样的闭源软件厂商,基本上都是在市场占据主导地位的。以前它们的创新性比较好,是因为它们一直在根据用户需求做一些创新性的工具。但现在你会发现,苹果和微软反而开始去借鉴或者反超一些基于安卓或者开源社区的工作了,主要原因就是它们过度封闭,导致灵活性变差。


再加上维护成本又高,就容易形成行业垄断。它不像开源社区,每天都会有新的想法、新的功能出现。当然了,这些新的功能和想法最终能不能落地,还是取决于有没有持续的维护,才能达到最好的效果。这也是为什么,现在安卓和苹果的系统之间,你会发现它们的差距其实越来越小了,甚至有时候苹果也会去借鉴一些安卓的小功能,比如长截图啊、滚动截图啊之类的。


所以说,开源和闭源它其实不是对立的。就像我刚才说的,它们是可以互相补充的。如果做得好的话,开源也可以做到闭源那样的商业模式,而闭源也可以像开源一样,在业务上做一些创新。当然,这一切都取决于需求。如果需求不明确,那无论是开源还是闭源,在推动开放合作的时候,都会遇到一定的挑战。不管是在软件行业,还是在AI行业,这个问题都是一样的。


我们现在都知道,DeepSeek是一个高性能、低成本的模型,它的出现对全球 AI 行业的竞争格局带来了一定的冲击,同时也证明了中国在这一领域具有一定的创新能力,甚至改变了华尔街此前对“美国主导全球 AI 技术发展”这一观点的看法。当然,它也加剧了 AI 领域的竞争。比如,DeepSeek 的训练成本较低,同时模型效率却很高,这在一定程度上是一件好事。对于科研机构来说,我们的硬件资源相对有限,尤其是在当前对华禁售高端芯片的背景下,获取更多算力支持是非常困难的。而 DeepSeek 这种低成本、高效率的训练模式,使得 AI 研究可以在更有限的资源下取得突破。


另一方面,DeepSeek 的成功也展示了开源模型的潜力。正如我刚才提到的,开源模式的一个核心优势在于,它可以吸引更多人参与进来,降低 AI 研发的门槛,同时推动整个行业的成本结构优化。比如,传统的 AI 研发路径往往依赖昂贵的算力投入,而在 DeepSeek 这样的开源基座上,企业可以更关注算法本身的创新,以及模型架构的优化,而不是一味依赖大规模硬件。这种模式带来的正向反馈,是促使 AI 产业向更加高效、低成本的方向发展。与此同时,它也意味着更激烈的竞争——随着更多中小企业能够负担 AI 技术的开发和应用,市场上的竞争者会越来越多,行业格局也可能因此发生变化。


相比之下,ChatGPT 的成本明显更高,而且它没有办法做到真正的开源,这就导致用户在定制模型或者本地化部署方面受到较大限制。同时,它的定价相对较高,比如 OpenAI 的 GPT-4 Turbo,输入价格每百万 token 约为 15 美元,输出价格则高达 60 美元。对于普通用户来说,每月的订阅费用可能在 14 到 20 美元之间,这个价格还算可以接受。但对于企业而言,AI 模型的使用往往是面向整个团队的,成本就会大幅增加。相比之下,DeepSeek 作为一个开源模型,企业可以免费使用其基座,在此基础上进行定制化开发。这样一来,企业的 AI 应用成本主要集中在人力上,而不是模型本身的费用,因此大大降低了入门门槛。


回顾 2023 年到 2024 年国内AI产业的发展,我们可以看到一个很有意思的现象——2023 年时,国内 AI 赛道迎来了“百模大战”,各种 AI 模型层出不穷,但到了 2024 年,市场却开始“退潮”,不少企业退出了大模型的投资。这其中的原因,一方面是因为 AI 模型的长期研发投入成本太高,即便是 OpenAI 这样的全球顶级公司,也不得不在 2024 年 11 月大幅提高产品价格。即使是财力雄厚的微软和 OpenAI,也很难长期承受这样高昂的研发投入和运营成本。AI 产业从商业角度来看,竞争极其激烈,而且具有高度的不确定性——每年都需要巨额投资,但模型可能在短短几个月内就会被淘汰,而企业又无法有效防止技术外泄或者核心员工流失。因此,尽管 AI 赛道极具吸引力,但它的商业风险也是显而易见的。


怎么说呢?其实过去一段时间,我们对 AI 的理解可能存在一定的偏差。在传统认知中,我们往往认为要实现更强的人工智能,就必须依赖大数据,因为只有足够多的数据,才能覆盖人类的经验和先验知识。但问题在于,人类的认知方式其实并不是单纯依赖大数据的。例如,我们在生活中遇到新事物时,大脑往往会通过联想来理解它,而不需要庞大的训练数据。打个比方,我们看到一个门把手,不管是推拉式的还是旋转式的,我们基本上都会知道该如何开门,即使之前没有见过相同的门把手。而 AI 训练的传统方式则恰恰相反——过去的 AI 模型往往是依靠大规模数据训练,通过大量样本学习人类的行为模式,但这种方式成本极高。


DeepSeek的出现,在一定程度上改变了这一模式。它的低成本、高效率训练方式,使得 AI 产业重新思考是否真的需要“用大力出奇迹”——也就是说,是否真的需要巨量数据、超大算力才能训练出优秀的 AI 模型。DeepSeek 让我们看到了另一种可能性,即通过优化算法结构、调整神经网络的连接方式,使 AI 以更接近人类认知的方式去处理信息,而不是单纯依赖庞大数据集。这种模式带来的影响是深远的,甚至可能会促使整个行业重新思考 AI 的发展方向:我们究竟是在追求更强的自动化,还是在真正推动通用人工智能的发展?


目前来看,超级人工智能(AGI)还远未实现,大多数 AI 仍然属于“弱人工智能”范畴,只是比过去更强大、更高效了。但 DeepSeek 的出现,或许会推动 AI 产业进一步向更高效、低成本的方向演进,而这也是未来 AI 发展的重要趋势之一。


图片

梁文锋

学人:我能不能这样理解?如果我们用传统的 AI 预测方法,比如我今天中午要吃什么,它的计算方式是基于大量的历史数据,通过概率统计来预测可能的选择。这种方式的计算成本极高,可能需要消耗巨大的算力,就像需要一个太阳系甚至半个太阳系的能量来支撑计算。但如果我们换一种思路,模拟我的日常行为模式,而不是单纯依赖统计预测,那么所需的算力可能会大幅减少。当然,这样的方式虽然不会达到传统大数据驱动模型的高精准度,但它的结果仍然是可用的,并且更符合人的真实决策逻辑。


潘昱杉:是的,比如吃饭的这个例子,假设我们用传统 AI 模型来预测你中午吃什么,我们需要先提供一定时间跨度内的历史数据,比如你过去的饮食习惯。模型会基于这些数据进行统计分析,得出一个概率,预测你今天最有可能吃什么。这种方法依赖于过去的行为模式,实际上是一种统计学意义上的推测。

但问题在于,人类的决策方式并不是简单的概率计算。你过去吃过的东西并不能决定你未来一定会吃什么。比如,可能明天我会突然想吃爆炒的食物,或者一百八十度转弯,我决定减肥,可能会改吃轻食或减脂餐,这就突破了之前的规则。传统 AI 模型在预测时往往忽略了这种突发的行为变化,而人类决策恰恰受到这种意识变化的影响。

之前的模型是不关注这一部分的,而如果我们想要做到,比如说强人工智能的话,我们可能会更多地去把这些我们之前排除掉的因果信息重新加回到我们的数据驱动决策之中。无论是基于数据的决策,还是基于认知层次的决策,我们都需要对算法或模型进行一些改进。当然,这比之前“大力出奇迹”的办法可能在某种程度上更具挑战性,因为目前在强人工智能、超级人工智能或者说强人工智能方向,我们的科研形势或者公司都还没有完全实现理想中的成果。


当然,这也取决于历史上人工智能发展的三个阶段。最开始的时候,大家普遍认为人工智能应该基于人类的语义分析,包括人类的语言、意图,以及我们对世界的理解,从而建立起认知,再对这些认知进行逻辑化,并将逻辑化的信息编码化。这种编码可能是逻辑符号,也可能是通过逻辑符号引导我们重新对世界进行建模。但这只是人工智能早期的一个学派,目前仍然存在,但已经很少有人去做相关研究,因为它的挑战性太大了。


我们既要基于每一个认知环境或者每一个具体环境进行建模,而这些建模的个数非常多,相应的模型个数也很多,因此难以做到通用化。当然,后来出现的类似 OpenAI 或 GPT 这样的数据驱动形式,让人工智能的泛化能力达到了极致。我们用大量的数据训练出一个能够处理大规模统计数据的模型,最终得到一个强统计结果。基于这个强统计结果,我们可以在高概率的情况下预测用户的需求或者行为。但这种基于数据驱动的人工智能也有其弊端,就像我刚才提到的,它可能最终让我们走上了一条“大力出奇迹”的道路。


与此同时,还有一种强人工智能,它既不是基于语义的方式,也不是基于数据驱动的方式,而是更接近人脑的工作机制。但目前来说,这种方法面临极大的挑战,因为我们的脑科学研究尚不足以支撑我们理解,人类在处理信息时为何能展现出如此独特的能力。事实上,人类并没有使用那么多神经元去处理一个简单的数据或事件,但仍然能够高效地完成任务。


在脑科学研究中,比如研究人类在处理二分类图像时的方式,我们可以观察婴儿或小孩如何分辨他们所看到的图像和文字。他们并不是通过一个多层神经网络或者复杂的节点网络去识别图像,而是仅仅通过一到两次观察,就能做到举一反三,实现泛化。比如,他们看到不同的狗和猫后,能够迅速学会分辨这两类动物,并建立起稳定的分类能力。


DeepSeek 技术的出现,使得我们重新审视并质疑“大力出奇迹”这一发展方向。虽然之前也有人质疑,但一直未能找到更好的替代方案。然而,DeepSeek 的出现给了科研界和企业界新的希望。它证明了即使不依赖“大力出奇迹”的方式,我们依然可以实现相似的成果。

学人:在 DeepSeek 刚刚出现的时候,一些国外公司的领导或者主要负责人曾提到,DeepSeek招募了一些“神秘高深莫测的研究者”。但梁文锋表示,并不存在什么“高深莫测、深不见底”的研究者,参与这项工作的主要是一些刚刚毕业的研究生或者大学生。那么,您如何评价这些年轻人参与到最前沿科技公司的创造之中?此外,这种创造本身又有什么意义?


潘昱杉:我觉得在人工智能领域,它的情况可能与传统计算机行业有所不同。人工智能每天都会产生一些奇思妙想的观点或新的想法,而年轻人可能会更灵活,他们能够迅速把这些新的想法付诸实践。这就像过去大家讨论芯片制造时提到的——为什么国内能够设计不同纳米级别的芯片,但制造业却跟不上?一个重要的原因是我们之前忽视了制造的成本和工艺,导致即便有设计能力,也无法实现量产。同样,在人工智能领域,它的行业发展也已经接近 60 到 70 年了,虽然不能算是新兴产业,但它的某些特征让我们看到了一些新的可能性。


比如,相较于传统计算机行业,人工智能的入门门槛在某种程度上更低,使得更多来自不同领域的人可以参与其中,为这个行业或研究方向带来新的视角和理念。传统计算机行业更注重基础研究,以及如何基于基础研究进行应用开发,而人工智能的发展则在一定程度上降低了基础研究的门槛。


过去,我们培养计算机人才时,要求他们理解计算机系统结构、计算过程、数据结构,并在此基础上掌握编程语言的逻辑关系。但人工智能的出现,使得许多工作(包括编程、算法、数据结构等)都可以通过 AI 平台或工具跳跃式地学习。这样一来,初学者可以更直接地理解人工智能的实际应用,而不需要先经历传统计算机学科的完整学习过程。


当然,这种门槛的降低不仅仅影响计算机方向的学生,它还吸引了许多新人,比如人文社科背景的学生。因为人工智能不仅涉及算法和计算问题,还涉及伦理、安全等更广泛的社会问题。过去,我们在讨论计算机伦理时,主要关注的是机器、算法或模型本身的伦理,但如今,我们还要考虑 AI 技术的社会影响。因此,我觉得“高深莫测”这个词并不准确。就像芯片制造一样,人工智能并不是一个神秘莫测的行业,只不过是过去我们可能忽视了一些来自其他领域的声音,而这些不同背景的人其实可以为这个行业做出重要贡献。


图片

学人:在人工智能应用的领域,它们具体在处理哪一些的问题呢?


潘昱杉:目前我们在做的项目中,比如情感交互或者是情感计算,我们其实更多的是辅助治疗,而不是主动治疗。之所以我说是辅助治疗,是因为我们目前做这类研究,无论是情感计算也好,还是医疗领域中的AI应用也好,我们都没有办法完全替代专业领域的知识。因为我们是基于预训练好的数据进行一些识别任务,比如识别他的情感波动,识别可能潜在的医疗问题、病理病因等等。


在这些领域,AI的作用主要是识别,而不是主动治疗或主动干预。比如,我们可以用AI通过文本分析、语音分析、面部表情分析等方式来识别和监测用户的情感状态。但是这些情感状态的自动识别,比如说通过面部表情、语音语调、生理信号等等来感知人类的情绪,仍然存在一定局限性。因为你知道,人是一个非常复杂的个体,可以通过伪装来改变自己的表情或者语音语调,从而影响AI的判断。

在这种情况下,AI通过分析语言、语调、节奏、音频、音高等识别出的愤怒、悲伤或快乐情绪,可能会出现误差。这也是为什么在应用这个技术时,我们需要考虑到上下文环境,判断该应用场景是否可行。此外,不同的文化在这个识别过程中也会产生影响,比如说一些文化中,人们表达情绪的方式有所不同,这都会影响AI识别的准确性。


同样,我们再回到刚才提到的AI在医疗领域的应用。现在我们看到,AI在医疗领域的应用其实非常广泛,比如智能诊断、个性化治疗方案推荐、远程医疗等等。这些技术在医学影像分析方面已经取得了一定进展,比如可以帮助医生更快地识别异常。你可以注意到,我还是在强调“识别”这一点,因为目前AI最擅长的仍然是数据分析和模式识别。比如,AI算法可以用于X光片、CT扫描、医学图像处理等任务,从而帮助医生更快地发现病变。但本质上,这些仍然是医生的辅助工具,最终的诊断仍然需要结合医生的先验知识和经验知识。


比如,在糖尿病的诊断中,我们可以结合医学影像处理和遗传数据,提高判断的准确性。但是,问题在于,AI的判断结果并不意味着这个病人一定有病。我们只能说,AI提供的分析结果可能提示医生某种疾病风险的存在,但最终的确诊仍然需要医生来做出决定。


但是,在某些领域,我们其实可以利用AI来减少医生的重复性工作,减轻他们的工作负担。比如,自动生成临床文档、医疗文本处理、信息管理等。这些AI生成的文档、临床病例记录等,确实可以帮助医生节省时间,让他们专注于更重要的专业判断。但是在专业领域中的核心决策,比如是否需要手术、如何制定治疗方案等,目前AI仍然只是辅助工具,无法替代医生的专业判断。


当然,在这个过程中,还有一个很关键的问题:病患是否完全信任AI?医生是否信任AI的判断?这些因素会影响AI在医疗领域的应用程度。而且,我们也不能因为AI的普及,就完全放弃对医学知识的学习。相反,AI的发展可能会让我们更需要去读书,因为批判性思维仍然是不可或缺的。


学人:所以,在未来的AI时代,我们可能更需要的是复合型人才?比如说,律师需要结合自己的法律知识和计算机知识,共同去制定案件的受理策略;医生可能也需要去懂一定的代码知识,或者了解一定的人工智能,这样才能更好地与AI配合,实现一种人机共同决策,或者共同进行诊断、诉讼的方式。我可以这样理解吗?


潘昱杉:在某种程度上,你可以这样理解。但我们其实更提倡的是,让各行各业的从业者更深入地理解本行业的专业知识,而把AI当做一个辅助工具。并不一定要让所有人都像计算机科学家一样去学习如何开发AI底层技术,比如编写AI的基础代码或开发AI的算法架构。相反,行业从业者更需要知道的是如何使用AI工具,比如在低代码或无代码平台上,更高效地利用AI,而不是去重复计算机行业人员已经具备的工作和技能。


这也回到了我们最早讨论的一个问题——AI是否会改变人才培养模式。目前,我们的教育体系在推动“AI+X”(AI结合各学科)模式时,很多学科误以为应该学习大量AI知识,比如机器学习、强化学习等。但在我看来,这并不是必要的。毕竟,AI的核心开发仍然是计算机科学的工作,而其他专业的从业者,只需要理解AI的能力,并会使用它即可。


所以,未来各行各业可能会出现更专业化、更精英化的趋势。AI不会降低行业门槛,反而可能提高入门门槛,因为你不仅要掌握自己的专业知识,还需要具备一定的AI应用能力。但这并不意味着每个人都需要掌握AI算法,而是应该更关注如何实践性地使用AI,让AI成为工具,以便更精准地服务本专业的发展。


学人:我也听说,现在很多AI企业在招聘时,会吸纳大量人文社科的学生,包括商科学生和医学生,协助搭建训练AI用的虚拟环境。那么,我能不能这样理解:未来,无论是AI创业,还是它在社会应用层面的发展,都需要吸纳更多非计算机专业的人才加入企业?这是否意味着,AI开发会变成一个跨学科的综合体,对人才的需求也会更加多元化?


潘昱杉:是的,这可能在国内还是一个相对新颖的观点。我们会看到,许多传统的AI公司或计算机公司正在吸纳非计算机背景的人才。我不确定国内目前是否已经大规模实施这种模式,但我可以举一个身边的例子。我有一个朋友,他是学人类学的,现在在Google AI亚特兰大分部工作。他的主要任务是帮助AI团队改进AI伦理(AI Ethics)相关的研究和实践。他的贡献主要来自人类学的视角,而不是计算机科学的角度。例如,早些年谷歌的搜索算法在查询"criminology"(犯罪学)或"criminal"(犯罪)相关内容时,往往会更多地返回关于非裔群体的结果。这种偏见一直存在,但近年来,这类问题的改善得到了重视,这正是因为越来越多非计算机背景的专家参与到AI开发过程中。


类似的案例也发生在Autodesk这样的公司。Autodesk主要开发AutoCAD等工业软件,而它的团队成员不仅包括计算机科学家,还有大量来自建筑学、设计学等领域的专业人士。这些专家的贡献并不是指导如何编写代码或设计软件,而是提供各自行业的需求。正是这些需求,决定了AI如何更好地服务用户。如果AI开发者不了解行业诉求,最终做出的软件可能并不会被广泛使用,甚至会变成无用的开发浪费。


谷歌的Google Cloud团队也是类似的模式。它的核心开发团队规模并不算庞大,但却有大量的跨学科研究团队(Research Team)参与进来,包括人类学、社会学、经济学等领域的专家。这些研究人员的任务是辅助AI团队梳理需求、制定开发方案,并确保AI产品能够真正解决现实问题。在我看来,这种跨学科协作将成为未来所有科技公司发展的主流模式。


目前,我们在学术研究中也能看到类似趋势。例如,在情感计算(Affective Computing)领域,我们的模型对于情感的理解并不是完全依赖算法,而是结合心理学专家的知识。我们的数据分析结果,往往需要心理学领域的研究人员来进行解释和验证,而不仅仅是依靠计算机科学家的个人理解。


目前,我们鼓励计算机专业的学生选修设计学院或人文学院的课程。例如,在掌握计算机基础知识后,学生可以根据个人兴趣选择延展方向,而不是只局限于传统的"软件工程师"或"算法开发工程师"的培养模式。他们可以专注于软件设计、自然语言处理、情感计算等不同领域,从而成为既懂计算机又懂行业应用的复合型人才。


类似地,心理学等专业的学生也可以学习计算机相关课程,但不一定要掌握编程或算法,而是学习如何利用计算机工具进行研究。例如,心理学研究者可能需要使用计算机软件进行情感分析或心理测试,但他们对软件的评价标准会与计算机科学家不同。传统的软件评估主要关注功能性和性能,而心理学研究可能更关注软件对人的影响,例如用户体验、可用性、心理反馈等。这些评价标准可以反过来影响软件的更新迭代,优化AI在实际应用中的表现。






请到「今天看啥」查看全文