华东理工大学药学院上海市新药设计重点实验/华东师范大学人工智能新药创智中心
李洪林/张凯
团队在
Briefings in
Bioinformatics
上发表题为
Multi-Modal Chemical Information Reconstruction
from Images and Texts for Exploring the Near-Drug Space
的文章
[1]
。
研究团队历时近4年之久,基于
多模态学习发展了一种从文本和图像中进行化学信息重建系统CIRS(
C
hemical
I
nformation
R
econstruction
S
ystem
)
,
实现快速高效的
Markush结构识别以及其与可变取代基文本的信息重建任务,进而
自动提取化学专利中的化学分子结构。该方法是目前唯一一个快速高效的Markush结构图像识别系统,对“近药空间“的构建以及候选新药的设计具有重要意义。
发现具有优良生物学效应的新化学实体是新药发现的目的及核心问题。因此,多样性化学空间的探索,特别是类药空间(Drug-like Space)的探索是化学信息学家和药物化学家最关注的技术难点问题。目前可合成的化学真实空间(Real Space)已达到10
10
(百亿)的级别
[2]
,而科学家初步估算的类药化学空间可能包含10
60
符合类药五规则的分子。传统的分子虚拟空间构建方法包括枚举法和虚拟库等方法,由于生成的分子多样性、可合成性及成药性不足,上述方法愈发无法满足需求了,随着近年来人工智能(AI)在药物设计中的涉入和计算能力的大幅提升,使得更大化学空间的构建成为可能。但是否构建的化学空间越大越好?答案当然不是!从巨大的化学空间中快速识别出包含活性分子的区域即药效空间(Pharmacological space)
才是药物发现的关键所在。
随着网络技术和信息技术的快速发展,文献、专利、网页、图片、生化数据库等各类知识为化学空间
和知识图谱构建提供了各种信息来源,其中,
专利类文献
在制药业和生物技术中始终占据重要地位,这不仅是因为其
具有
信息披露早
、
数据覆盖面全
、
数据来源可靠
的特点
,还因为
具有可合成性质和针对特定靶点的主要活性候选分子
仅在
专利中公开
[3]
,而散布在这些药物专利的核心结构周围的药效空间,是
具有最大可能发展成为候选药物的
“近药空间”分子(Near-Drug Space)
。不同于普通文献数据来源
[4]
,专利文献往往是以一个类属(Genus)化合物发明的通式——马库什(Markush)结构扩大其广泛的保护范围,这在化学领域——特别是化学药物领域尤为重要。因具有极强概括能力,Markush这一独特的结构在化学和生物医药领域被广泛应用。Markush概念实质上是一种简化和概括,以马库什方式撰写的文献和专利权利要求实质上是用简化的方法来描述具有相同或者相似功能的一类结构、设计或者系统
[5]
,而这种简化方法却提供了广泛的法律覆盖范围,因此Markush结构也是生物医药专利研究之热点和专利纠纷主要集中点。
尽管以Markush结构为核心部分,通过组合
可变取代基能够
衍生出大量性质相似的“近药空间”分子,进而为新药研发提供优质的起点分子。但其
可变取代基的复杂性使得马库什结构的检索和识别成为化学信息学领域的一大难题,亦是化学信息学领域几十年来的研究热点。同时,专利文献中
Markush
结构的绘图风格(原子标签、键描绘风格等)
不规范、
开放访问数据集匮乏以及传统算法
效率较低等问题限制了
Markush结构识别相关研究的发展
[6]
。现有的分子结构识别软件也只是简单的图像分子识别,多不能解决Markush结构中功能基团和R基团的识别,类如image2smiles也仅能识别简单的R基团却不支持特殊的键形式
[7]
。因此,
开发快速高效的
Markush
结构识别工具
,既可以
提高化学分子结构数据识别效率以解决该领域难点技术问题,也可
为“近药空间”的扩展提供广阔数据来源,进而
提高药物发现成功率并降低药物研发成本
。
因专利类文献中涵盖不同形式的化学信息,挖掘不同领域知识之间的联系对提取更为准确的化学信息至关重要。尤其Markush结构图像和可变取代基实体文本具有高度异构性,如何快速高效地融合两个领域知识并完成信息自动提取是化学信息领域的关键挑战之一。CIRS设计了图像处理单元(左)、异构数据生成器(中)和文本处理单元(右)(图1),可用于
同时处理专利文献中的Markush结构图像和可变取代基文本并通过二者内在关联规则完成化学信息的重建
。
该团队开发的系统框架具体流程如下:首先,数据生成器将生成
Markush
结构图像和原子
/
键标签(像素级),然后将其作为训练数据输入到图像处理单元。在图像处理单元中使用了分割模块(
U-Net3+
)和分类模块(
YOLO
),以便将图像数据中的像素分割成原子、键和电荷并为其分配正确的标签。在右侧的文本处理单元中,采用
BiLSTM-CRF
模型的完成化学实体识别,以识别文本中的化学实体,识别出的实体则通过建立的结构数据库转化为
SMILES
格式,最后将这两部分的输出进行融合,通过左侧的原子标签和右侧的实体类型进行化学信息重建,组合出图像及文本中涵盖的化学实体结构。值得一提的是,作为中心模块的数据生成器对生成训练样本的数量和多样性没有严格限制,它可以根据用户需求随机修改分子,因此为图像处理和文本处理单元的泛化性能提供基础,这也是
CIRS
适用于从大量知识来源中提取化学信息并推广到各类文献中分子结构提取的关键。
在Markush结构图像识别方面,该团队
基于异构数据生成器,随机模拟出含有官能团、官能团占位符(R 基)和椒盐噪声等的分子图,进而