只扫描大脑就能精确构建出你所看到的景象,这听起来像科幻小说,却也是中国研究团队的最新成果。
如何通过分析人脑扫描成像来重建画面,这是神经科学领域的热门话题,现有的做法是监视人脑视皮层的活动,但是,要解码相关的功能性磁共振成像(fMRI)并不容易。来自中科院自动化所类脑智能研究中心的杜长德团队利用深度学习技术来处理数据,让fMRI解码变得更为简单精准,这种方法还原出的图像质量也优于以往的方法。
图 | 不同的脑图重建技术比较:首行是原图,末行是最新的多视图生成式模型的运算结果
处理fMRI的关键在于把人脑中三维的体素的活动与画面中的二维像素对应起来。但是,fMRI扫描却很难避免噪声的干扰,每一个体素的活动都会受到相邻体素的影响,计算出精确的结果往往也意味着高昂的代价。实际上,很多方法都无法克服这一点,因此重建的画面品质也大大降低。
而杜长德团队的做法是从几组数据开始着手:他们让被试者观看一些简单的图像,例如单个数字或字母,并采集被试者视皮层的fMRI扫描结果,每一组数据都包含扫描结果和原始图像。
实验小组总共分析了超过1800组扫描数据及其原始图像,并用90%的数据来进行训练,让神经网络学会理解扫描结果和原始图像之间的关系。接下来,他们用剩下10%的数据进行测试:把扫描结果输入到神经网络,让其重建原始图像。
而结果也非常有趣,总体来说,他们还原的图像正是原始图像的清晰再现。大多数情况下,这种基于多视图生成式模型的视觉信息编解码比其他技术要精确得多。
为评估该模型,小组比较了该模型与其他重建技术的运算结果。他们使用标准的图片比较方法来考察重建图像与原始图像的近似程度。图像比较的结果也证实了这一点。实验小组认为,大量的实验比较证明,这种方法能够更准确地从fMRI扫描结果中重现视觉图像。
而该方法的最大优势就是神经网络学到了应该用哪些体素来重建图像,不用分析所有的扫描数据。
另外,神经网络还学会了体素和体素是如何关联的,这一点同样至关重要,因为体素之间的关联如果被不被识别,最终会被当成噪声被舍弃。这个新方法充分利用了体素的关联,将之与噪声区分开来。
这项研究不仅对计算神经科学意义重大,也是研发新一代脑机接口技术的基石。实验小组透露,他们的方法还可用于解码其他方面的脑数据(例如声音和动作任务),分析更复杂的场景以及移动的图像。
-End-
编辑:Dionysos
参考:
arxiv.org/abs/1704.07575: Sharing Deep Generative Representation for Perceived Image Reconstruction from Human Brain Activity
「DeepTech深科技」招募全球记者、采编
申请加入:[email protected]