专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
目录
相关文章推荐
拆神  ·  339万起!白鹅潭江景新盘开价 ·  2 天前  
财宝宝  ·  @金籉霷:1995年,付了4000块电话初装 ... ·  3 天前  
51好读  ›  专栏  ›  学术头条

清华太极-Ⅱ 光芯片登上 Nature,首创架构突破智能光计算训练难题

学术头条  · 公众号  ·  · 2024-08-08 18:05

正文



撰文 | 马雪薇


前言

未来的人工智能(AI)模型,或许可以用“光”来训练了。


长期以来,传统的电子计算推动着 AI 模型规模的不断扩展,但大规模意味着高算力,也意味着高能耗,因此,亟需一种高效低能耗的计算方法来解决未来 AI 模型所面临的能源问题。


近年间,具有高算力低功耗特性的智能光计算逐步登上了算力发展的舞台。通用智能光计算芯片“太极”的问世便是其中的一个缩影,它首次将光计算从原理验证推向了大规模实验应用,以 160TOPS/W 的系统级能效为大规模复杂任务的“推理”带来了曙光,但未能够释放智能光计算的“训练之能”。


训练和推理是 AI 大模型核心能力的两大基石,缺一不可。相较于模型推理而言,模型训练更需要大规模算力。


然而,现有的光神经网络训练严重依赖电计算进行离线建模并且要求物理系统精准对齐。正因如此,光学训练的规模受到了极大的限制。


由清华大学电子工程系教授方璐、自动化系戴琼海院士及其科研团队提出的全前向智能光计算训练架构太极-II,摆脱了原有光计算系统对电计算离线建模的依赖,实现了大规模神经网络的在线训练,并有潜力支撑未来 AI 大模型的高速、低功耗训练。


相关研究论文以 “Fully forward mode training for optical neural networks” 为题,已发表在权威科学期刊 Nature 上。清华大学电子系博士生薛智威、博士后周天贶为共同一作。



据介绍,研究团队利用“光子传播对称性”,将神经网络训练中的前向与反向传播都等效为光的前向传播。在物理系统上实现计算密集的训练过程。


据清华大学官方报道, Nature 审稿人在审稿评述中指出“本文中提出的想法非常新颖,此类光学神经网络(ONN)的训练过程是前所未有的。所提出的方法不仅有效,而且容易实现。因此,它有望成为训练光学神经网络和其他光学计算系统的广泛采用的工具。”



太极-II 架构是如何工作的?


太极-II 架构是一种在物理系统上直接进行光学神经网络训练的方法。它利用空间对称性和洛伦兹互易性,消除了反向传播的需求,提高了训练效率,且可以应用于大规模学习、复杂场景智能成像、拓扑光子学等领域。原理如下:


  • 将光学系统参数化,映射到神经网络上。

  • 利用空间对称性和洛伦兹互易性,实现数据传播和误差传播的精准对齐。

  • 基于测量数据/误差传播的输出光场计算梯度,并进行参数更新。


图|太极-II 智能光计算训练架构。a, 传统上,光学AI 系统是通过离线建模和优化来设计的,这导致其设计效率和系统性能受限。b, 一般的光学系统,包括自由空间系统和集成光子系统,都包含了调制区域(深绿色)和传播区域(浅绿色),在这些区域中,折射率分别是可调和固定的。c, 光学系统中的这些区域可以映射到神经网络表示中的权重和神经元连接,这使得可以在输入和输出之间构建一个可微分的神经网络表征(左上)。利用空间对称的互易性,数据和误差计算共享前向物理传播和测量,并在设计区域内计算在线梯度以更新折射率(右上和左下)。通过在线梯度下降,光学系统逐渐收敛(右下)。



效果怎么样?


太极-II 架构在多个领域均展现出巨大的应用潜力。


1. 光学神经网络(ONN)


  • 深层 ONN 构建:太极-II 架构能够实现具有数百万参数的深层 ONN,并达到与理想模型相当的准确率。这对于光学计算至关重要,因为深层网络可以处理更复杂的任务并实现更高的性能。

  • 非线性 ONN:太极-II 架构支持非线性光学神经网络的训练,通过在数据传播中引入非线性激活函数,并利用记录的函数输入输出来计算梯度,实现高效精准的训练过程。


图 | 深度 ONN 的并行梯度下降训练。


2. 复杂场景智能成像


  • 穿散射成像:太极-II 架构能够透过散射介质实现接近衍射极限的聚焦成像,达到更高的分辨率。这对于显微成像和宏观成像等领域具有重要意义。

  • 非视域场景成像:太极-II 架构能够实现毫秒级的并行成像,并实现对非视域的目标进行全光处理。这对于非视域场景下的动态目标成像和识别具有重要意义。


图 | 利用 太极-II 架构,透过散射介质达到衍射极限分辨率。


3. 集成光子系统 (PIC)


  • 自设计 PIC 网络:太极-II 架构能够实现集成光子系统的自设计,并达到与理论相当的准确率。这对于构建高性能的光子计算系统具有重要意义。

  • 非厄米系统解析:太极-II 架构能够自动搜索非厄米系统的奇异点,并无需物理模型。这对于研究和解析复杂拓扑系统具有重要意义。


图 | 基于太极-II 架构的集成光子系统在线训练。







请到「今天看啥」查看全文