本期解读NAR的一篇文献,NAR的影响因子每年都稳步上升,今年已经上了10,来看看这篇文献中的数据库构建思路。
药物不良反应
(ADR,Adverse drug reactions)
是在正常的药物治疗过程中意外发生的有毒害作用,在这个过程中导致了显著的临床损害,ADR也是新药研发失败的一大因素。
在计算机上评估药物的安全性是人们所希望的,但不幸的是被滥用的药物不良反应术语阻碍了这一进程,药物不良反应分类系统ADReCS (http://bioinf.xmu.edu.cn/ADReCS)是一个全面的ADR本体论数据库,不仅提供了ADR标准化术语,还对ADR 术语进行了层次分类。
ADReCS
为
每个ADR创建了唯一的数字ID并且分为4个等级,每个等级之间建立了ADR-ADR关系。现在数据库包含6544个标准的ADR术语和34796个同义词,1355个单活性成分药和134022个药和不良反应对应关系。总的来说,ADReCS提供了一个直接计算ADR术语的方式并且提供了基于ADRs挖掘其共有特征的线索。
ADR
(Adverse drug reactions)
的定义:在人正常药物治疗过程中产生的有毒害的意外的作用。这个与副作用是有区别的,根据维基百科,副作用可能是有利的,而ADR完全是有害的。
ADR术语滥用举例:如
Aggressive reaction
,
Violent
,
Violent behavior
和
Argumentativeness
与
Aggression
是同一个意思。但在
SIDER2(一个广泛用于计算毒性研究的数据库)
中,这些同义的术语被视为独立的术语。再如有歧义的术语
GU pain
,
GU
既可能是
genito-urinary
,也可能是
gastric ulcer
。这对于ADR研究造成了许多的不变和干扰。
WHO不良反应术语
(AHO-ART,WHO Adverse Reactions Terminology)
是世界上最被承认的ADR术语。然而目前市场监管过程中最全面和广泛被应用的ADR术语是
MedDRA
( Medical Dic-tionary for Regulatory Activities)
术语。
MedDRA
整合了主流的ADR术语数据库,如
WHO-ART
,
COSTART
,
J-ART
等。并且将ADR术语分为
5个等级
:
SOC
(System Organ
Class)
,
HLGT
(High Level Group Term
,
HLT
(High Level Term)
,
PT
(Preferred Term)
and
LLT
(Low Level Term)
。但需要注意的是,
MedDRA
并没有专门针对ADR术语进行发展,它也包含了很多的医学术语,所以在毒害作用研究中,
MedDRA
并不被推荐用来将ADR术语与其他术语区分开来。所以需要建立一个新的能够对ADR术语提供准确描述的数据库来被用户或者计算机所理解。目前有以下几个难题:
1.
许多ADR术语是模棱两可的,特别是在临床和实验室之间。
2.
ADR之间是难以被定量的。
3.
ADR不能被直接计算。因此,作者建立了一个全面的ADR本体论数据库
ADReCS
(Adverse Drug Reaction Classifica-tion System)
(http://bioinf.xmu.edu.cn/ADReCS)来对ADR术语标准化和层次分类。
数据库构建:
数据提取:
drug-ADR信息主要提取自
DailyMed
(http://dailymed.nlm.nih.gov/dailymed/about.cfm)
,
DailyMed
对市场上的药提供了全面的信息。还提取自
SIDER2
数据库以及其他可用的在线数据库如
USFDA
。在所有提取的数据中,
~80
%来源于
DailyMed
,16%来源于
SIDER2
,剩下的来源于其他数据库。并且药物的药理学和化学信息比如
药物描述、同义词、结构
等提取自公共医学数据库比如
UMLS
,
DrugBank
,
PubChem
,
KEGG
和
ATC
等。所有的数据在进一步处理之前都先对格式进行了预处理并且移除了明显的拼写错误。
ADR术语标准化:
ADR记录一般出现在很多情况下,如体检发现、病人抱怨、健康报告和实验结果,同一个ADR会被不同的语句所描述。所以需要先对ADR进行标准化。
ADReCS
参考
MedDRA
和
UMLS
对ADR进行了标准化。首先将ADR比对到MedDRA,结果只有
~1/3
的ADR能够比对到MedDRA中,剩下的比对不上
2/3
的根据UMLS手动修改后,再比对到MedDRA,但最后还是有
27
个ADR记录不能比对上去,这
27
个作为新的ADR术语。最终,
ADReCS
从
21237
条ADR中提取了
4906
条标准化后的ADR术语,其余的ADR作为其同义术语。标准化后的ADR的描述来自与MeSH,NCI和其他公共医学词典。
ADR术语层次分类:
层次分类对于数据检索和展示很重要及其他意义。ADReCS将ADR分为4个层级:
SOC
,
HLGT
,
HLT
,
PT
。从
SOC
到
PT
,ADR术语越来越具体,
SOC
是最高的层级,在系统组织层次进行描述,相反的,
PT
表示一个特定的,唯一的,无歧义的ADR概念。之前MedDRA将ADR分为5类,ADReCS将之前的
LLT
遗弃,其包含的ADR被整合到PT里。层级之间的关系是
is-a
关系而不能是
part-of
关系.每个ADR最少有一个从PT到SOC的通路。并且为了方便标准化和层次分类,对每个ADR都建立了数字ID。下图是荨麻疹ADR层次的例子: