本文来源 Nature News
译/
刘畅
粒子物理学家在20世纪80年代末开始尝试人工智能(AI),彼时,“神经网络”一词方才引起了公众的好奇。这些粒子物理学家们的研究领域正合适开展人工智能和机器学习算法研究:他们的实验目的即是在粒子探测器生成的无数相似数据中寻找特定的空间模式,而这恰好是AI力所能及。“我们花了好些年才让人们相信这些研究并不属于魔术、骗术、黑箱子之流。”首批接受AI技术的来自费米实验室的Boaz Klima说。现如今,AI已位列物理学研究标准技术之一。
粒子物理学家是一群探寻宇宙内在运行机制的人,他们的工作就是用亚原子粒子对撞产生新粒子。举例说来,2012年科研团队利用瑞典巨型强子对撞机(世界最大的质子对撞机)发现了早就存在于预测中的希格斯玻色子,它是物理学家解释其他基本粒子为何拥有质量的关键。
利用巨型强子对撞机,平均每十亿次质子对撞才堪堪产生一个希格斯玻色子,而它在1皮秒(万亿分之一秒)的十亿分之一就会衰变成为其他粒子(比如一对光子或四个μ介子)。要重现希格斯玻色子,物理学家必须辨认出其产生的粒子,用粒子对撞机将它们聚合成衰变前的样子。
据费米实验室的另一个物理学家 Pushpalatha Bhat称,诸如神经网络之类的算法在庞大背景中寻找信号的能力分外突出。在粒子探测器(通常是巨大的桶状传感器聚合装置)内部的子系统(又称电磁热量计)中,光子会如花洒一般产生大量粒子。当然,电子和强子也会有如此效应,只是其方式有细微差别。机器学习算法则可以发现其中的不同,它通过统计解释这一效应的多元变量的相关性来完成辨别任务。这些算法还可以通过随机配对帮助研究者区分来源于希格斯衰变的成对光量子。”算法进行的筛选就像是谚语所说的‘大海捞针’,”
机器学习在粒子物理学领域自然并非一家独大。物理学家们主要还是靠着自己对基础物理学的理解来决定如何从资料中搜寻新粒子和新现象的迹象。但是AI正变得愈加重要,劳伦斯伯克利国际实验室的计算机科学家Paolo Calafiura这样认为。研究者们计划在2024年对句型强子对撞机进行升级以提高其对撞率。到那个时候,Calafiura说,机器学习对于处理日渐增长的数据流将更加重要。
社交媒体拥有数以亿计用户,每个用户每年都产出大量的推特和邮件,这将社会科学推向了大数据时代。心理学家
Martin
Seligman
发现,社交媒体为
AI
提供了大量的实践机会来发掘人们在交流中表现出的意图。在宾夕法尼亚大学的积极心理学研究中心,
Martin Sligmen
和其他世界幸福工程项目的心理学家、内科医生以及计算机科学家用机器学习和自然语言编程来筛选数据,以期测量公众的情绪和心理健康。
按照惯例,这些工作本应通过调查完成。但是据Sligman所言,社交媒体产生的数据“数量大,价值低,不受重视”。社交媒体的调查毫无章法,而AI却给进一步研究提供了有力的条件。
Sligman和同事们最近研究了29000名Facebook用户的更新,这些用户都进行了抑郁症自我测评。利用这些数据,机器学习算法成功发现了用户用词和其抑郁程度之间的联系。这样一来,该算法便可以仅根据社交媒体更新来判断其他用户的抑郁程度。
在另外一个团队的研究中,研究者分析了1亿4800万个推特以预测一个县城中的心脏病致死率。研究证明与愤怒、不良关系有关的词汇是一项风险指标。这样的一个来源于社交媒体的死亡率风险指标做出的预测与实际死亡率十分接近,其契合程度超过了10项主要风险指标如吸烟、糖尿病等。除此之外,研究人员还利用社交媒体来预测用户的个性、收入和政治倾向,同时也对医院护理等其他课题进行了研究。这一团队甚至依据推特根据每个县的幸福、抑郁、信任和五种人格特征给美国地图上色标记。
“语言分析及其与心理学相关的领域将迎来一场革命。”德克萨斯大学奥斯汀分校的社会心理学家James Pennebaker说。这位专家关注的是风格而非内容,举例来说,通过大学入学论文的功能词使用可以用来预测入学分数。使用冠词和介词体现了分析思维,这预示着分数可能更高,而代词和副词体现了叙事思维,意味着分数不那么理想。曾有一种说法,即1728年的剧本《Double Falsehood》作者是莎士比亚,如今James Pennebaker则对这一说法给出了有力支持:机器学习算法根据认知复杂性、罕见词汇等因素将这个剧本与莎翁其他作品成功匹配。他说:“现在,我们能分析你发布的任何内容,无论是文章,还是你和别人的聊天记录。”
自闭症是遗传学家面临的令人头疼的挑战。遗传模式表明自闭症存在很强的遗传因素。然而已知的基因变异型对自闭症有影响的案例仅占全部案例的20%。如果想要找到其他的变异型,就需要在25000个其他基因中寻找线索,这一任务对于人类研究者来说相当艰巨。因此,普林斯顿大学计算生物学家Olga Troyanskaya引入了人工智能。
“我们所能做的和生物学家一样多,也就是揭示自闭症的遗传基础。”Robert Darnell说,他是纽约基因组中心的创业合伙人,也是纽约洛克菲勒大学的内科学学者。“科学家问10个问题的同时机器就可以问万亿,机器将带来变革。”
Troyanskaya整合了上百个数据集,这些数据包含了哪些基因在特定的人类细胞中具有活性、蛋白质之间如何相互作用、转录因子结合位点在哪里,以及其他关键基因特征位点所在之处的描述。她的团队继而利用机器学习构建了基因相互作用的图谱,同时将多个已知风险基因与数千个未知基因进行对比,试图寻找相似之处。
问题是,遗传学家最近才意识到基因并非独立工作。基因的行为由数百万临近的非编码碱基决定,而这些碱基则与DNA结合蛋白和其他因素形成相互作用。找到自闭症相关基因只是第一步,而识别对自闭症基因有影响的非编码碱基则困难许多,Troyanskaya在普林斯顿大学实验室的毕业生Zhou JIan正在致力用AI的力量解决这一问题。
周为了训练他的程序——一个深度学习系统——将它接入数据库中。数据均来自DNA百科全书和表观基因组路标(the Encyclopedia of DNA Elements and Roadmap Epigenomics)。这两个项目记录了成千上外个能够影响相邻基因的非编码碱基。这一系统实际上已经在评估未知非编码碱基的过程中学会了如何确定应寻找特征。
2015年10月,周和他的老师在Nature Method上介绍他们的研究计划“深海(DeepSEA)”时,加州大学计算机科学家Xie Xiaohui称该计划为“基因组研究深度学习的里程碑”。如今,周的团队正在利用“深海”研究自闭症患者的基因组,希望能够对非编码碱基的影响力进行排序。
Xie Xiaohui本人也在将AI应用于基因组研究,他的视野较自闭症更为宽广。他也希望能够将突变分级,因为它们可能有害。但他还是警示道,基因组研究中,深度学习系统最高只能达到它们接触的数据集的水平。“在我看来,当前人们对系统能否理解基因组还是持怀疑态度,”他说,“但是随着机器学习进一步发展,能接受它的人会越来越多。”
今年四月,天体物理学家Kevin Schawinski在推特上发布了四个星系的模糊图片,随图附上了一个请求,希望有天文学家帮忙进行分类。他的同事在下面回复说,这些图像中的星系看起来像是熟悉的椭圆和螺旋结构。
有些天文学家对此存疑,他们直言不讳:这些是真的星系?它们是物理学模型吗?对此,Kevin Schawinski实言相告:两者皆非。Schawinski、计算机科学家Zhang Ce和他们的合作者在苏黎世联邦理工学院完成了这张图。他们在神经网络内对星系进行了模拟,虽然神经网络本身对物理学一无所知。这似乎能帮助我们理解在深层次观察中,星系应当是什么模样。
Schawinski有一个小小的想法,想要看看神经网络的作品能够令多少人信服,所以他在推特上发表图片。当然他更有一个大大的目标,即开发一种电影中的神奇技术,能够提高观测图像的清晰度:神经网络能够让星空的图像看起来更加清晰,就好像望远镜提升了一个档次一般。如此天文学家则可以从观测中的到更为精确的结果。“我们向天文观测投资已有数亿甚至数十亿美元,”Schawinski说,“一旦有了这项计数,我们即刻就能获得更多信息。”