正文
发布人:Google Brain 团队高级软件工程师 Chris Shallue
最近,通过训练
神经网络
分析 NASA
开普勒太空望远镜
的数据和准确识别最有希望的行星信号,我们发现了
两颗系外行星
。尽管这期间仅对大约
700 颗恒星进行了初始分析,我们仍然认为这个结果成功地证明了可以使用机器学习发现系外行星,更概括地讲,这是能够使用机器学习在各个科学领域(例如,
医疗保健
、
量子化学
和
核聚变研究
)取得富有意义的收获的另一个佐证。
我们高兴地发布用于处理开普勒数据、训练神经网络模型和根据新候选行星信号进行预测的
代码
。我们希望这次发布成为一个良好的开端,激励大家为
NASA 的其他任务(例如,
K2
(开普勒的第二个任务)和即将开展的
凌日系外行星巡天测量卫星
任务)开发类似模型。伴随着代码的发布,我们也希望借此机会深入介绍一下我们使用的模型的工作方式。
发现行星的引子
首先,我们考虑一下如何使用开普勒望远镜收集的数据检测是否存在行星。下图称为光变曲线,它显示了恒星在一段时间内的亮度(由
开普勒的光度计
测得)。当行星经过恒星前方时,它会短暂地阻挡一些光线,这会导致测量亮度下降,然后在很短的时间内再次上升,从而在光变曲线中形成“U”形下沉。
|
开普勒太空望远镜的一条光变曲线,其中的“U”形下沉指示存在一颗凌日系外行星。
|
不过,其他天文和仪器现象也可能导致恒星的测量亮度下降,包括
联星
系统、
星斑
、
宇宙射线
击中开普勒光度计,以及仪器噪声。
|
第一条光变曲线呈“V”形,告诉我们有一个非常大的物体(即另一颗恒星)经过开普勒正在观测的恒星的前方。第二条光变曲线包含两个亮度下降的地方,这表明存在包含一明一暗两颗恒星的联星系统:较大下沉由较暗恒星经过较亮恒星前方引起,较小下沉则相反。第三条光变曲线是许多其他非行星信号的一个示例,其中,恒星的测量亮度看起来有所下降。
|
为了在开普勒数据中搜索行星,科学家们使用自动化软件(例如
开普勒数据处理管道
)检测可能由行星引起的信号,然后手动跟进,确定每个信号是一颗行星,还是误报。为了避免因为信号过多超出其控制范围而无从应对,科学家们对自动检测施加了一个限制:高于固定阈值的
信噪比
将被视为值得进行跟进分析,而低于该阈值的所有侦测结果都会被舍弃。即使施加了此限制,侦测结果的数量仍然令人生畏:截至目前,我们手动检查了超过
30,000 个开普勒侦测信号,其中的大约 2500 个已被验证为是真正的行星!
您可能会想:信噪比限制是否会遗漏一些真正行星信号?答案是肯定的!但是,如果天文学家需要手动跟进每一个侦测结果,那就没必要降低阈值,因为随着阈值的减小,误报侦测结果的比率会迅速增大,真正行星侦测结果将变得越来越少。不过,存在一种诱人的激励:一些像地球一样的潜在宜居行星可能就隐藏在传统检测阈值之下,这些行星相对较小,并且围绕相对较暗的恒星旋转 - 开普勒数据中可能存在未被发现的隐藏宝藏!
机器学习方法
Google Brain 团队
将机器学习应用到各类数据中,从
人类基因组
到
简笔画
,再到
形式数理逻辑
。考虑到开普勒望远镜收集的数据量非常大,我们想知道如果使用机器学习分析一些之前未探索的开普勒数据,我们能够发现什么。为此,我们与德克萨斯大学奥斯汀分校的
Andrew Vanderburg
合作开发了一个神经网络,帮助搜索低信噪比侦测结果中有无行星。
|
我们训练了一个
卷积神经网络
(CNN) 来预测给定开普勒信号由行星引起的可能性。我们之所以选择 CNN,是因为它们在具有空间和/或时间结构的其他问题(例如
音频生成
和
图像分类
)中非常成功。
|
幸运的是,我们拥有 30,000 个已经由人类手动检查和分类的开普勒信号。我们使用了其中大约 15,000 个信号(3,500 个是确认行星或者强力候选行星)训练我们的神经网络区分行星与误报。我们网络的输入是相同光变曲线的两个不同视图:广角视图让模型可以检查光变曲线上其他地方的信号(例如,由联星引起的第二信号),放大视图则让模型能够仔细检查所检测信号的形状(例如,区分“U”形信号与“V”形信号)。