独家 | 一种建立神经网络的新方式可以使AI更容易理解

数据派THU · 公众号 · 大数据 · 2024-09-21 17:00

正文

作者：Anil Ananthaswamy





    
翻译：陈超
校对：zrx‍‍
本文约2000字，建议阅读5分钟
本文介绍了一种建立神经网络的新方法Kolmogorov-Arnold网络（KANs），并与传统的AI多层感知器（MLP）进行了对比。

一种简化的方法能够更容易看清神经网络如何进行输出。

Stephanie arnett / MIT科技评论| envato

对人工神经元在神经网络中的工作方式进行微调，就可以使得AI更容易破译。

人工神经元——深层神经网络的基本组成部分——已经几十年没有变化了。尽管这些网络赋予现代人工智能以力量，他们仍然非常神秘。

现存的人工神经元用于GPT4等大型语言模型，其工作原理是接收大量输入，将它们加在一起，并通过神经元内部的另一种数学运算将总和转换为输出。神经元的组合可以产生神经网络，并且他们的组合结果可能很难编码。

但是新的神经元组合方式工作起来有一点不同。一些现存的神经元的复杂度得到了简化，并移出了神经元。对内，新神经元简单地对输入进行加和，并产生输出，不需要额外的隐藏操作。这种神经元网络叫做Kolmogorov-Arnold网络（KANs），以启发他们的俄国数学家命名。

简化过程由MIT研究者主导的小组发起，可以让人更容易理解为什么神经网络可以产生特定的输出，帮助证明他们的决策，甚至是寻找偏差。初步证据也表明，随着KANs规模越来越大，他们的准确率也比传统神经元建立的网络增长更快。

“有趣的工作”，纽约大学研究机器学习基础的Andrew Wilson这样说。“人们能够尽力从基础层面重新思考这些‘网络’是很不错的。”

KANs的基础元素在1990年代就已提出，研究者一直在建立这种网络的简版。但是MIT主导的团队进一步采用了这一概念，展现了如何建立并训练更大的KANs，对他们进行实证测试，并分析一些KANs来证明他们的问题解决能力如何被人类解释。“我们重新激活了这一概念，”团队成员、MIT Max Tegmark实验室的博士生Ziming Liu这样说。“并且，有这样的解释能力……我们‘可能’不再‘必须’认为神经网络是黑箱了。”

但在这还处在早期阶段，团队关于KANs的工作正在引起关注。GitHub页面如雨后春笋般涌现，展示了如何在无数应用中使用KANs，例如图像识别和解决流体动力学问题。

发现公式

当前的进展来自Liu和MIT，Caltech以及其他研究机构的同事在尽力理解标准人工神经网络内部工作的时候。

今天，几乎所有类型的AI，包括那些用于建立大语言模型和图像识别系统，包括多层感知器（MLP）的子网络。在MLP中，人工神经元被排列成密集的、相互连接的“层”。每个神经元内部有一些叫做“激活功能”的东西——一个接收一堆输入，并以某种预先指定的方式将它们转换为输出的数学操作。

在一个MLP中，每个人工神经元接受来自之前层的所有神经元的输入，并将每个输入与响应的“权重”（一个标记输入重要性的数字）相乘。这些加权的输入加和并喂给神经元内部的激活函数生成输出，然后传递给下一层的神经元。一个MLP学习区别猫和狗图片的差异，例如，通过为所有神经元的输入权重选择正确的值。关键是，激活函数进行修复并且不需要在训练过程中改变。

一旦训练了，一个MLP的所有神经元以及它们的连接加在一起，本质上就像另一个接收输入的函数（一张图像中有成千上万个像素）并产生理想的输出（猫是0，狗是1）。理解函数的是什么样的，意味着他们的数学形式，是理解为什么它们这样产生输出的重要一部分。例如，为什么要根据人们的财务状况来标记一些人信誉良好呢？但是MLP是黑箱。对于像图像识别这样的复杂任务，对网络进行逆向工程几乎是不可能的。

甚至当Liu和他的同事试图对MLP进行逆向工程，以完成涉及定制“合成”数据的更简单任务时，他们也遇到了困难。

Liu说：“如果我们甚至不能解释这些来自神经网络的合成数据集，那么处理现实世界的数据集就毫无希望了。”“我们发现很难理解这些神经网络。我们想改变结构。”

数学映射

主要的变化是移除修复的激活函数，并引入一个更简单的可学习的函数用于在每一个输入进入神经元之前进行转换。

与MLP神经元中的激活函数接受大量输入不同，KAN神经元外的每个简单函数接受一个数字并输出另一个数字。现在，在训练过程中，与MLP中学习单个权重不同，KAN只是学习如何表示每个简单函数。在今年发表在预印本服务器ArXiv上的一篇论文中，Liu和他的同事们表明，神经元之外的这些简单函数更容易解释，这使得重建整个KAN正在学习的函数的数学形式成为可能。

然而，该团队只在简单的合成数据集上测试了KANs的可解释性，而不是在更复杂的现实问题上，例如图像识别。“‘我们’正在慢慢地突破边界，”刘说。“可解释性是一项非常具有挑战性的任务。”

Liu和他的同事们还表明，随着规模的增加，KAN比MLP更准确地完成任务。该团队从理论上证明了这一结果，并在与科学相关的任务(如学习近似与物理相关的函数)中以经验证明了这一结果。Liu说：“目前还不清楚这种观测是否会扩展到标准的机器学习任务，但至少对于与科学相关的任务来说，它似乎很有希望。”

Liu承认KAN有一个重要的缺点：与MLP相比，训练KAN需要更多的时间和计算能力。

“这限制了KANs在大规模数据集和复杂任务上的应用效率，”中国苏州西交利物浦大学的Di Zhang说。但他表示，更高效的算法和硬件加速器可能会有所帮助。

Anil Ananthaswamy是一名科学记者和作家，他的文章涉及物理学、计算神经科学和机器学习。他的新书《机器为什么学习：现代人工智能背后的优雅数学》将由达顿(美国企鹅兰登书屋)于7月出版。

原文标题：A new way to build neural networks could make AI more understandable

原文链接：https://www.technologyreview.com/2024/08/30/1103385/a-new-way-to-build-neural-networks-could-make-ai-more-understandable/

编辑：黄继彦

译者简介

陈超，北京大学应用心理硕士，数据分析爱好者。本科曾混迹于计算机专业，后又在心理学的道路上不懈求索。在学习过程中越来越发现数据分析的应用范围之广，希望通过所学输出一些有意义的工作，很开心加入数据派大家庭，保持谦逊，保持渴望。

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

点击“阅读原文”拥抱组织