在迈向通用人工智能(AGI)的道路上,不断增加的计算性能和能源需求,已成为业内构建更强大大模型的主要限制和亟需解决的难题。
而光芯片,作为一种创新型技术,以其独特的光速处理能力和低能耗特性,被寄予厚望。
今天,
来自来自清华大学和北京信息科学与技术国家研究中心的研究团队,在光芯片领城实现了新的突破
——
他们摒弃传统电子深度计算范式,另辟蹊径,
首创分布式广度智能光计算架构
,
设计了一种能以极高能效解决先进 AI 任务的大规模光芯片——
Taichi
,有效地将光子架构的网络规模提升到百万神经元级别,与其他光子集成电路相比,能效提高了两倍,
适用于现实世界中的高级 AGI 应用
。
相关研究论文以“
Large-scale photonic chiplet Taichi empowers 160-TOPS/W artificial general intelligence
”为题,已发表在权威科学期刊
Science
上。
清华大学电子工程系博士生徐智昊、博士后周天贶(清华大学水木学者)为论文第一作者,清华大学电子工程系副教授方璐、自动化系戴琼海院士
为论文的通讯作者
。
徐智昊
表示,Taichi 表明了片上光子计算在处理具有大型网络模型的各种复杂任务方面的巨大潜力,实现了光子计算在现实生活中的应用。
“我们预计,Taichi 将加速开发更强大的光学解决方案,
作为基础模型和 AGI 新时代的关键支持
”。
Taichi 是如何炼成的?
对于来自现实世界的复杂多模态信息,我们迫切需要大容量、高吞吐量的计算架构。
在后摩尔时代,满足持续增长的高性能需求已成为一项挑战。
使用图形处理器(GPU)等电子设备进行高级 AI 模型(如语言处理和大规模智能成像中的基础模型)的计算与饱和能效有关,这对于支持现代 AGI 是不可持续的。
追求计算能力与能效之间的平衡是高性能计算研究的一个长期目标。
光子计算吸引了越来越多的关注,
提供了前所未有的光速低能耗计算。
然而,
当前的集成光子计算
,特别是光学神经网络(ONN),通常包含数百到数千个参数,其中数十个是可调参数,
仅支持基本任务,如简单的模式识别和元音识别
。
尽管
光子集成电路
具有空间紧凑和能效高的优点,但仍受到不可避免的时变误差的限制,网络规模和计算能力有限,
难以支持现实世界中的 AGI 任务
。
而且,要实现大规模、高能效的光子计算,简单地扩大现有的光子神经网络芯片是不现实的,因为随着神经网络层数的增加,不可避免的模拟噪声会呈指数级扩大。放大现有架构的规模并不能成比例地提高性能。
据论文描述,Taichi 是一种采用分布式计算架构的大规模光芯片,采用衍射-干涉混合,通过衍射编码器和解码器压缩高维输入数据,并通过可调矩阵乘法器实现特征提取。
Taichi 可以实现每瓦
160 万亿
次操作的能效,并支持超过
1000
个类别的图像分类,并在
1623
个类别的 Omniglot 数据集上达到了
91.89%
的准确率,超现有智能芯片 2—3 个数量级,可以为百亿像素大场景光速智能分析、百亿参数大模型训练推理、毫瓦级低功耗自主智能无人系统提供算力支撑。
图|Taichi 光芯片(来源:
该论
文)
与为深度计算堆叠一系列层的传统方法不同,Taichi 将计算资源分布到多个独立的集群中,为子任务分别组织集群,并最终合成这些子任务,从而完成复杂的高级任务。
光学衍射和干涉的灵活性启发研究团队设计了一种光学计算架构,来探索其在大规模网络模型和复杂任务中的独特方式。
具体来说,光学衍射层的全连接特性比传统深度神经网络中的卷积层具有更大的可变形性,这意味着光学网络有可能用比电子系统更少的层数实现相同的变换。
Taichi 的分布式架构深度较浅、宽度较宽,旨在以可持续和高效的方式扩展计算能力。在CIFAR-10 数据集中,具有四个分布式层的 Taichi 实现了与 16 层电子 VGG-16 网络相当的准确度。
图|Taichi 构建示意图。(来源:该论文)
另外,Taichi 利用衍射干涉混合芯片实现了高达两个数量级的能效提升(能效高达 160 TOPS/W)和面积效率(878.90 TMACS/mm2)。
此外,通过 Taichi 的分布式架构,研究团队实现了片上神经元密度(总神经元高达 4256个,可调神经元高达 160 个)和大规模网络(实验中高达 1396 万个)。
不足与展望