新的神经网络更加准确且易于解释

人工智能学家 · 公众号 · AI · 2025-03-04 17:14

正文

来源：悦智网

作者：Matthew Hutson

人工神经网络是现代人工智能的核心， 是聊天机器人和图像生成器的基础。但由于有许多神经元和复杂的连接，因此它们可能是一个黑匣子，无法对用户解释其内部工作原理。

现在，研究人员已经建造了一种全新形式的神经网络，它在某些方面超越了传统系统。证据表明，尽管这些新的网络规模小，但它们容易解释，而且准确性高。更重要的是，其开发者表示，这些柯尔莫戈洛夫-阿诺德网络（KAN）可以学习物理数据建模的简洁方式，有助于科学家发现新的自然规律。

约翰•霍普金斯大学的物理学家布利斯•梅纳德（Brice Ménard）说，十多年来，工程师们主要是通过反复试验来调整神经网络设计的。虽然他研究了神经网络的运作方式，但并没有参与这项新工作。“很高兴看到一种新的架构出现。”他说，尤其是一种根据基本原理设计的架构。

在传统神经网络中，两个神经元之间的每个连接或突触都会学习一个权重，权重是一个决定连接强度的数字。神经元是分层排列的，这样一层的神经元就可以接收来自前一层神经元的输入信号，并根据其突触连接的强度来进行加权。然后，每个神经元会对其输入的总和应用一个简单的“激活”函数，这个输出会以同样的方式传递给下一层神经元。

在新的架构中，突触扮演的角色更复杂。突触不会简单地学习两个神经元之间连接的权重，而是会学习一个将输入映射到输出的激活函数。这就会形成一个更复杂的激活函数，每个连接的激活函数都不同。另一方面，神经元变得更简单了，它们只是将之前所有突触的输出相加。

这种KAN以两位研究函数结合方式的数学家的名字命名，它在学习模型数据时更灵活，同时使用的学习参数更少。2024年4月，研究人员在arXiv预印本服务器上发表了他们的研究结果。

他们用相关科学任务测试了他们的KAN。在实验中，他们展示了一些简单的物理特性，例如控制两个有相对速度的物体擦肩而过的速度。他们使用这些方程式生成输入输出数据点，然后针对每个物理函数，用部分数据训练一个网络，并用其余数据进行测试。研究人员发现，与扩大传统神经网络规模相比，扩大KAN规模带来的性能速率提升更高。在求解偏微分方程时，KAN的精度是传统神经网络的100倍，而传统神经网络的参数是KAN的100倍。

在另一项实验中，他们训练了神经网络，使其根据一个数学扭结的属性（即它们的特征）来预测另一个数学扭结属性。使用约30万个参数的传统网络的准确率为78%，而KAN仅使用约200个参数，准确率就达到了81.6%。

此外，研究人员还可以直观地绘制出KAN，观察激活函数的形状，并了解每个连接的重要程度。他们可以修剪弱连接，用更简单的激活函数来取代一些激活函数。然后，用一个直观的单行函数总结整个KAN，在某些情况下，可以完美地重建创建数据集的物理函数。

“未来，我们希望它能够成为有用的日常科学研究工具。”麻省理工学院的物理学家、人工智能研究员刘子鸣（Ziming Liu，音）说，“如果我们不知道一个给定的数据集如何解释，就可以把它交给KAN，它可以为你生成一些假设。”

“这就像一个外星生命，它可以从不同角度看问题，但对人类来说也是可以理解的。 ”刘子鸣说。

已有几十篇论文引用了KAN的预印本。“我看到它的时候非常激动。”阿根廷圣安得利斯大学人工智能工程专业的本科生亚历山大•博德纳（Alexander Bodner）说。一周内，他和3个同学就将KAN与卷积神经网络结合在了一起，卷积神经网络是一种流行的图像处理架构。他们用手写数字或衣服分类，测试了这些卷积KAN的能力。最好的结果与传统卷积神经网络的性能大致相当，但使用的参数减少约40%。其他团队正在将KAN与转换器结合，转换器是支持流行大型语言模型的架构。

KAN的一个缺点是，尽管需要的参数少，但每个参数的训练时间长。在一定程度上，这是因为它们无法利用图形处理单元加速人工智能。刘子鸣说，即使训练瓶颈导致KAN无法取代大型卷积神经网络和转换器，在许多较小规模的物理问题方面它也不会有问题。

目前，刘子鸣正在寻找一种方法，让专家将他们的先验知识插入到KAN，比如手动选择激活函数等，并使用简单的界面轻松地从中提取知识。他说，有朝一日，KAN可能会帮助物理学家发现高温超导体或者控制核聚变的方法。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

2024 美国众议院人工智能报告：指导原则、前瞻性建议和政策提案
未来今日研究所：2024 技术趋势报告 - 移动性，机器人与无人机篇
Deepmind：AI 加速科学创新发现的黄金时代报告
Continental 大陆集团：2024 未来出行趋势调研报告
埃森哲：未来生活趋势 2025
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
哈尔滨工业大学：2024 具身大模型关键技术与应用报告
爱思唯尔（Elsevier）：洞察 2024：科研人员对人工智能的态度报告
李飞飞、谢赛宁新作「空间智能」等探索多模态大模型性能
欧洲议会：2024 欧盟人工智能伦理指南：背景和实施
通往人工超智能的道路：超级对齐的全面综述
清华大学：理解世界还是预测未来？世界模型综合综述
Transformer 发明人最新论文：利用基础模型自动搜索人工生命
兰德公司：新兴技术监督框架发展的现状和未来趋势的技术监督报告
麦肯锡全球研究院：2024 年全球前沿动态（数据）图表呈现
兰德公司：新兴技术领域的全球态势综述
前瞻：2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战
美国国家标准技术研究院（NIST）：2024 年度美国制造业统计数据报告（英文版）
罗戈研究：2024 决策智能：值得关注的决策革命研究报告
美国航空航天专家委员会：2024 十字路口的 NASA 研究报告
中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告
GenAI 引领全球科技变革关注 AI 应用的持续探索
国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告
2025 年计算机行业年度策略从 Infra 到 AgentAI 创新的无尽前沿
多模态可解释人工智能综述：过去、现在与未来
【斯坦福博士论文】探索自监督学习中对比学习的理论基础
《机器智能体的混合认知模型》最新 128 页
Open AI 管理 AI 智能体的实践
未来生命研究院 FLI2024 年 AI 安全指数报告英文版
兰德公司 2024 人工智能项目失败的五大根本原因及其成功之道 - 避免 AI 的反模式英文版
Linux 基金会 2024 去中心化与人工智能报告英文版
脑机接口报告脑机接口机器人中的人机交换
联合国贸发会议 2024 年全球科技创新合作促发展研究报告英文版

新的神经网络更加准确且易于解释

正文

请到「今天看啥」查看全文