Ann已经18年没有开口说过话。
时钟拨回到2005年,30岁的Ann是加拿大一所高中的数学老师,她和丈夫Bill的女儿刚满一岁,一家人过着平静幸福的生活。可一场突发的中风打破了这一切,由于脑干中的血管堵塞,她失去了对全身肌肉的控制能力,从此瘫痪在床,发病初期甚至不能主动控制呼吸。
顽强的Ann活了下来,经过积极的理疗重新学会了怎么去呼吸、进食和摇头,她甚至重新能够哭和笑了,但是和很多中风患者一样,她的语言能力遭受了毁灭性打击。中风后的Ann有正常的思维和情感能力,却无法把所思所想表达出来,因为她大脑中语言脑区的发出的指令失去了对喉、舌等发音器官的控制能力。医学上有一个形象的术语来描述这种症状--闭锁综合症(Locked-in Syndrome),患者的思想仿佛被锁在密闭的房间里无法向外表达。
这么多年来,Ann依赖类似霍金所使用过的传统的人机交互系统,通过头动追踪来控制电脑屏幕上的光标,缓慢费力地使用语音合成软件来与人交流。Ann希望“读心术”真的存在,可以把她脑中的想法实时高效地读取出来给周围的人听。
这种天方夜谭般的愿望在2023年得到了实现。神经外科医生和科学家在Ann的大脑皮层之上植入了253个电极,高分辨率地记录语言脑区的神经活动,再使用人工智能算法解码,实时合成她想要说的话和脸部表情,最后通过扬声器及电脑屏幕播放出来。借助这一套先进的语言脑机接口系统(speech neuroprosthesis),被闭锁了十八年的Ann终于又可以畅所欲言了!
图1:Ann使用的语言脑机接口系统
主导这项医学奇迹是美国加州大学旧金山分校(UCSF)的华裔神经生物学家兼神经外科主任Edward Chang教授。滴水穿石,非一日之功。Eddie在语言神经科学领域深耕多年,取得了一系列开创性的基础发现,同时整合了最新的人工智能方法,最终催生了语言脑机接口技术的重大突破。
图2:Edward Chang教授在手术室
我国长期大力倡导产学研的结合,了解这一突破性技术的来龙去脉及背后的制度支撑有重要的启示意义。同时,对于渴望在科研上大有作为的年轻人,如何提出重要的科学问题,积累关键的技术能力,进而开辟出独树一帜的科研道路,Eddie的科研历程也是一个极好的范例。
为什么只有人类才能学习和使用复杂的语言?对于这个问题的探讨,从某种意义上来说,标志了脑科学这个学科的诞生。法国医生Pierre Broca从1860年代开始研究失语症患者—那些因为大脑损伤而失去了说话能力的人,发现他们主要共同点为左脑额叶的额下回(后命名为Broca脑区)有损伤,因此推断此脑区对说话至关重要。虽然此研究存在争议,但是却无法否认其非凡的意义,因为它第一次提出实证来支持大脑中存在功能分区的理论。
如果某个脑区负责产生语言,那是否意味着还有其他脑区负责理解语言,以及情感、记忆等特定的认知功能?后续Karl Wernicke等人的研究发现在颞叶中确实存在一个脑区,损伤后人会失去理解语言的能力。我们知道听和说在功能上是紧密联系在一起,进一步研究也发现Wernicke脑区和Broca脑区之间有着非常紧密的神经连接。这些早期的基于大脑损伤的研究构筑了语言神经系统的传统模型(classical model)。
图3:语言系统的传统模型和现代模型。Chang et al. 2015 J Neurosurg.[1]
进入20世纪后,一些新兴的技术方法被广泛地应用于语言神经机制的研究。这些方法可以非侵入式地记录大脑在产生或者理解语言时的神经活动,分为两大类,有各自的优缺点。首先就是基于神经电信号的脑电图(EEG)和脑磁图(MEG)等方法,拥有较高的时间分辨率,可以区分语言信息处理的不同阶段,但是空间分辨率较低,难以把信号源定位到特定的脑区。与此相反,基于血氧代谢信号的正电子断层造影(PET)和功能核磁成像(fMRI)等方法空间分辨率提高,可以区分不同脑区的神经活动,但是时间分辨率较低,难以区分信息处理的不同阶段。
通过这两类方法的结合,传统模型被进一步修正和扩充为双信息流的现代模型(dual stream model)。以理解语言输入为例,首先由Wernicke脑区中的颞上回(STG)和颞上沟(STS)处理基本的声学信息,然后信息进一步沿着腹侧和背侧两个方向并行处理。在腹侧,信息流向颞叶前部和中部,声音中蕴含的语义和概念被识别。在背侧,多个脑区包括传统模型中的Broca脑区、运动前皮层和顶叶-颞叶交界,负责感知与运动的整合(sensorimotor integration),将声学信息与发声器官的具体运动模式进行关联,以实现学习发声的功能。
需要指出的是,无论是传统模型还是现代模型,都是对某个脑区和语言某方面功能的粗略描述。由于脑电图或功能核磁成像等非侵入式方法所记录的每个数据点,可能都是几百万个神经元的活动的总和,每个脑区中的神经元具体是如何处理语言信息的并不为人所知。Eddie和他的课题组在这个重要的问题上取得了突破性的进展。
基础研究的突破,往往始于选取了合适的技术路径。前文提到,对于脑电图等非侵入式方法,虽然适用面很广,但是时间和空间分辨率不可兼得。解决这一问题有一个简单直接的思路,就是把电极直接放到语言脑区皮层之上或者之中记录神经活动,没有了头皮和颅骨的阻隔,信号质量可以得到质的飞跃。然而,这样的方法具有侵入性,只有在疾病条件下,在对治疗有益、反复验证安全性、征得患者允许的必要情况下,才可以使用。同时,只有神经外科医生才具有实施手术的资质。
也就是说,要使用侵入式方法深入研究语言的神经机制,需要具备医学和科学的双重背景。美国的医学/科学双博士(MD/PhD)项目为培养这样的交叉人才提供了制度基础,而Eddie正是通过加州大学旧金山分校的这一项目获得了完备的科学研究技能和神经外科手术资质。在伯克利完成博士后训练之后,他回到旧金山分校开展独立研究,同时对癫痫、脑瘤等患者进行手术治疗。在手术之前的检查中,通常需要使用电极记录等方法对病灶进行精确定位,同时也需要对语言等高级认知功能进行定位,以期最大限度地在术后得以保留,这为深入研究语言的大脑机制提供了宝贵的机遇。
在此基础上,Eddie进一步技术创新,开始将皮层脑电图(ECoG)应用到语言神经科学的研究。与普通脑电图(EEG)不同,皮层脑电图是在开颅手术后,将电极阵列直接置于大脑皮层之上,因此记录到的神经信号质量很高。一个阵列包含几百个独立的电极,可以高密度地覆盖好几个相邻的脑区,解决了时间和空间分辨率不可兼得的难题。此外,已有研究表明皮层脑电图信号中的高频部分(50-150Hz)与电极附近神经元的动作电位直接相关,因此有更好的可解读度。
图4:皮层脑电图ECoG示意图。Tang et al. 2017 Science[2]
使用这一方法,Eddie的课题组在大脑如何产生和理解语言的机制上取得了一系列突破性的进展。限于篇幅,笔者仅举例介绍其在发音控制机理上的发现,因为这些研究直接催生了本文开篇所描述的语言脑机接口的突破。
在我们说话的过程中,喉咙、舌头、下颌和嘴唇等多个发音器官需要精密地协调配合。早在1930年代,Wilder Penfield等人使用电极刺激的方法发现腹侧体感运动皮层vSMC(ventral sensorimotor cortex)控制发声器官的运动。然而,他们发现单点的刺激并不能产生有意义的发声,说明vSMC并不是以音素为单位,而是有其他的功能组织结构。
在2013年发表的研究中,Eddie的课题组使用皮层脑电图记录了三名英语母语的癫痫患者在产生辅音-元音音节时的神经活动,对vSMC脑区进行了精细的刻画[3]。发不同的音时需要不同的发音器官的参与,例如发辅音’b’需要先紧闭嘴唇,而发‘d’音需要舌尖顶住上颚。通过将发音器官的参与程度与电极的神经信号做关联分析,可推算出不同位置的电极控制何种发音器官。他们使用此方法发现vSMC中存在一个控制发音的躯体地图(somatotopic map),由腹侧到背侧依次控制喉、舌、下颌、嘴唇和喉,这个顺序和这些器官在声道中的解剖位置大致相符。此外,发同一个音时不同器官的运动有先后之分,vSMC脑区中不同的区域也相应地从不同的时间点开始激活,形成一个时间序列。进一步分析发现,同一电极在产生同一音素时的神经活动也不是固定不变的,而是受到上下游音素的影响[4]。
图5:vSMC脑区的发音躯体地图。Bouchard et al. 2013 Nature
细心的读者可能已经发现,在上图展示的躯体地图中,有两块相隔较远的脑区控制喉的运动。有趣的是,腹侧的喉区在其他灵长类中也存在,而背侧的喉区却是人类特有的。那么这个脑区有何特殊的功能呢?在我们说话的过程中,喉有两个主要的功能:一是通过声带的震动来产生声音,二是通过调节声带的张力来改变音调。这其中第一个功能是和其他灵长类共有的,但是只有人类才能自主地、灵活地控制音调的高低,那么人类特有的背侧喉区是否与此功能有关?Eddie的课题组在2018年发表的研究对此给出了肯定的回答[5]。他们设计了一个巧妙的任务,让被试重复说一句话,但每次都强调不同的单词,以此保证其他因素基本不变的情况下可以在不同的音节位点上改变音调,同时使用皮层脑电图记录语言脑区的神经活动。通过关联分析,他们惊奇地发现与音调相关的电极集中于背侧的喉区。更进一步,我们在唱歌时也可以灵活改变音调,而背侧喉区也与此相关。最后,如果使用电极直接刺激背侧喉区,可以观察到喉的运动,在清醒的被试中甚至可以听到发声,说明了此脑区直接参与发音的控制。
图6:背侧喉区控制音调。Dichter et al. 2018 Cell
说话发音本质上属于一种运动控制行为,但与四肢躯干等运动不同,喉与舌等体内发音器官的运动轨迹难以直接观察与测量,这在很大程度上阻碍了神经机制的研究。Eddie的课题组在这个问题上也做出了重要的贡献。一方面,他们将视频捕捉、超声、电子声门仪(EGG)等方法与皮层脑电图结合起来,直接同时观测多种发音器官的运动轨迹及语言脑区的神经活动[6,7]。另一方面,他们开发了强大的深度神经网络模型,通过声学信息反过来推算发音器官的运动模式[8]。综合这些方法,他们的研究揭示了vSMC脑区对于发音器官运动轨迹的编码模式及动力学性质。
这些基础发现对于开发语言脑机接口至关重要,因为在后续的应用研究中发现,相比于直接将神经活动解码为语音,先解码为发音器官的运动模式再由此转化为语音,可显著提高脑机接口的准确度[9]。
脑机接口技术的创新大致可以分为两大类。一类是神经活动记录方法上的创新,以更高的分辨率、更多的通道数和更好的稳定性为目标,包括前文介绍的皮层脑电图,以及新兴的neuropixel探针和Neuralink等公司所开发的技术。
另一类就是神经活动解码算法上的创新。尽管最新的探针可以同时记录上千个通道,但是这个数目相比于语言脑区中数以亿计的神经元来说也还是微不足道的,这也就意味着需要强大的算法模型来将神经活动解码为语音信息。早期的脑机接口主要依赖传统的机器学习算法,在有限制的词库中训练分类模型。近年来人工智能的爆发,为语音脑机接口技术的突破提供了强有力的加持。
Eddie的课题组也牢牢把握住了这个浪潮,在解码算法上引领了诸多创新。例如在2019年发表的研究中[9],他们首先训练一个双向长短期记忆网络(bLSTM),将皮层脑电图记录的神经活动转化为发音器官的运动模式,再训练另外一个bLSTM网络进一步转化为语音。可以看到,使用这套方法重构出的语音与训练数据达到了很高的相似度。更为神奇的是,训练好的模型甚至能够在被试只默念不出声的情况下解码其想说的话,离真正的“读心术”又近了一步。而在本文开头所提到的Ann的例子中[10],大脑神经活动的数据不仅被用于解码语音,同时也可以实时解码表情和文字,达到了多模态模型的效果。
图7:语言脑机接口从大脑活动中解码语句。Anumanchipalli et al. 2019 Nature
在众多人工智能技术中,以ChatGPT为代表的大语言模型火出了圈。其所使用的Transformer架构,可以从海量的文本数据中学习词句之间的关联性,达到给出提示就可以对答如流的神奇效果。最新的语言脑机接口技术也开始使用此架构作为其中的一个解码模块。
在几个月前发表于《新英格兰医学杂志》的研究中[11],来自加州大学戴维斯分校的团队使用融合了Transformer的算法将语言脑机接口的准确率提高到了令人咂舌的97.5%,帮助一名渐冻症患者实现了准确且稳定的语音交流。在一次学术会议报告此进展时,团队负责人之一的Sergey Stavisky教授感叹到,当患者第一次重新“开口说话”时,在场的所有人,包括患者本人、他的家人以及科研人员,无一不感动落泪。
“你做的这项研究有什么用?”这是一个科研工作者常常被问到的问题。从基础的研究发现,到开发造福人类的实际应用,往往是一个很漫长的过程。如果我们回顾语言神经科学的研究历史,就可以看到从Broca提出语言脑区,到脑机接口技术能够帮助瘫痪患者重新开口说话,已经跨越了超过一个半世纪。好几代科研工作者孜孜不倦地对于新知识的追求,才可以让那些过去只存在科幻作品中的想象成为现实。
这个过程离不开稳定的基础科研经费的支持,同时也离不开科研和教育制度的创新。从本文介绍的Eddie的例子中我们可以看到,美国的医学/科学双博士(MD/PhD)项目为他提供了一套独特的技能和资质,成为最有可能在语言神经科学作出突破的人之一。这无疑是一个非常具有挑战性的项目,不仅在招生上极为苛刻,而且整个过程可能持续七八年的时间,需要同时学习科学和医学的知识技能,也往往会进入最顶尖的实验室进行基础科研的训练。这些拥有医学/科学双博士学位的人,成为了在生物医学领域内最了解实际的应用需求、最热心且善于将基础研究成果进行转化的一股力量。这样的项目也许值得我们借鉴。
最后,已有的语言神经科学的研究以及语言脑机接口的应用主要集中于说英语的人群。中文作为世界上使用人口最多的语言,在语言学上与英语有很多显著的差别,已有的脑科学成果和应用在多大程度上能够直接适用中文,非常值得探索。
参考文献:(上下滑动可浏览)
[1] Chang, E. F., Raygor, K. P. & Berger, M. S. Contemporary model of language organization: an overview for neurosurgeons. J. Neurosurg. 122, 250–261 (2015).
[2]Tang, C., Hamilton, L. S. & Chang, E. F. Intonational speech prosody encoding in the human auditory cortex. Science 357, 797–801 (2017).
[3] Bouchard, K. E., Mesgarani, N., Johnson, K. & Chang, E. F. Functional organization of human sensorimotor cortex for speech articulation. Nature 495, 327–332 (2013).
[4]Bouchard, K. E. & Chang, E. F. Control of spoken vowel acoustics and the influence of phonetic context in human speech sensorimotor cortex. J. Neurosci. 34, 12662–12677 (2014).
[5]Dichter, B. K., Breshears, J. D., Leonard, M. K. & Chang, E. F. The Control of Vocal Pitch in Human Laryngeal Motor Cortex. Cell 174, 21–31.e9 (2018).
[6] Bouchard, K. E. et al. High-resolution, non-invasive imaging of upper vocal tract articulators compatible with human brain recordings. PLoS One 11, e0151327 (2016).
[7]Conant, D. F., Bouchard, K. E., Leonard, M. K. & Chang, E. F. Human sensorimotor cortex control of directly measured vocal tract movements during vowel production. J. Neurosci. 38, 2955–2966 (2018).
[8] Chartier, J., Anumanchipalli, G. K., Johnson, K. & Chang, E. F. Encoding of Articulatory Kinematic Trajectories in Human Speech Sensorimotor Cortex. Neuron 98, 1042–1054.e4 (2018).
[9] Anumanchipalli, G. K., Chartier, J. & Chang, E. F. Speech synthesis from neural decoding of spoken sentences. Nature 568, 493–498 (2019).
[10] Metzger, S. L. et al. A high-performance neuroprosthesis for speech decoding and avatar control. Nature 620, 1037–1046 (2023).
[11]Card, N. S. et al. An accurate and rapidly calibrating speech neuroprosthesis. N. Engl. J. Med. 391, 609–618 (2024).