本期解读NAR的一篇文献,NAR的影响因子每年都稳步上升,今年已经上了10,来看看这篇文献中的数据库构建思路。
药物不良反应(ADR,Adverse drug reactions)
是在正常的药物治疗过程中意外发生的有毒害作用,在这个过程中导致了显著的临床损害,ADR也是新药研发失败的一大因素。在计算机上评估药物的安全性是人们所希望的,但不幸的是被滥用的药物不良反应术语阻碍了这一进程,药物不良反应分类系统ADReCS (http://bioinf.xmu.edu.cn/ADReCS)是一个全面的ADR本体论数据库,不仅提供了ADR标准化术语,还对ADR 术语进行了层次分类。ADReCS 为每个ADR创建了唯一的数字ID并且分为4个等级,每个等级之间建立了ADR-ADR关系。现在数据库包含6544个标准的ADR术语和34796个同义词,1355个单活性成分药和134022个药和不良反应对应关系。总的来说,ADReCS提供了一个直接计算ADR术语的方式并且提供了基于ADRs挖掘其共有特征的线索。
ADR(Adverse drug reactions)
的定义:在人正常药物治疗过程中产生的有毒害的意外的作用。这个与副作用是有区别的,根据维基百科,副作用可能是有利的,而ADR完全是有害的。
ADR术语滥用举例:如Aggressive reaction
,Violent
,Violent behavior
和Argumentativeness
与Aggression
是同一个意思。但在SIDER2(一个广泛用于计算毒性研究的数据库)中,这些同义的术语被视为独立的术语。再如有歧义的术语GU pain
,GU
既可能是genito-urinary
,也可能是gastric ulcer
。这对于ADR研究造成了许多的不变和干扰。
WHO不良反应术语(AHO-ART,WHO Adverse Reactions Terminology)
是世界上最被承认的ADR术语。然而目前市场监管过程中最全面和广泛被应用的ADR术语是MedDRA( Medical Dic-tionary for Regulatory Activities)
术语。MedDRA
整合了主流的ADR术语数据库,如WHO-ART
,COSTART
,J-ART
等。并且将ADR术语分为5个等级: SOC(System Organ
Class)
, HLGT(High Level Group Term
, HLT(High Level Term)
, PT(Preferred Term)
and LLT(Low Level Term)
。但需要注意的是,MedDRA并没有专门针对ADR术语进行发展,它也包含了很多的医学术语,所以在毒害作用研究中,MedDRA并不被推荐用来将ADR术语与其他术语区分开来。所以需要建立一个新的能够对ADR术语提供准确描述的数据库来被用户或者计算机所理解。目前有以下几个难题:1.许多ADR术语是模棱两可的,特别是在临床和实验室之间。2.ADR之间是难以被定量的。3.ADR不能被直接计算。因此,作者建立了一个全面的ADR本体论数据库ADReCS(Adverse Drug Reaction Classifica-tion System)
(http://bioinf.xmu.edu.cn/ADReCS)来对ADR术语标准化和层次分类。
数据库构建:
数据提取:drug-ADR信息主要提取自DailyMed (http://dailymed.nlm.nih.gov/dailymed/about.cfm)
,DailyMed对市场上的药提供了全面的信息。还提取自SIDER2数据库以及其他可用的在线数据库如USFDA。在所有提取的数据中,~80%来源于DailyMed,16%来源于SIDER2,剩下的来源于其他数据库。并且药物的药理学和化学信息比如药物描述、同义词、结构等提取自公共医学数据库比如UMLS,DrugBank,PubChem,KEGG和ATC等。所有的数据在进一步处理之前都先对格式进行了预处理并且移除了明显的拼写错误。
ADR术语标准化:ADR记录一般出现在很多情况下,如体检发现、病人抱怨、健康报告和实验结果,同一个ADR会被不同的语句所描述。所以需要先对ADR进行标准化。ADReCS参考MedDRA和UMLS对ADR进行了标准化。首先将ADR比对到MedDRA,结果只有~1/3的ADR能够比对到MedDRA中,剩下的比对不上2/3的根据UMLS手动修改后,再比对到MedDRA,但最后还是有27个ADR记录不能比对上去,这27个作为新的ADR术语。最终,ADReCS从21237条ADR中提取了4906条标准化后的ADR术语,其余的ADR作为其同义术语。标准化后的ADR的描述来自与MeSH,NCI和其他公共医学词典。
ADR术语层次分类:层次分类对于数据检索和展示很重要及其他意义。ADReCS将ADR分为4个层级:SOC
,HLGT
,HLT
,PT
。从SOC
到PT
,ADR术语越来越具体,SOC
是最高的层级,在系统组织层次进行描述,相反的,PT
表示一个特定的,唯一的,无歧义的ADR概念。之前MedDRA将ADR分为5类,ADReCS将之前的LLT遗弃,其包含的ADR被整合到PT里。层级之间的关系是is-a
关系而不能是part-of
关系.每个ADR最少有一个从PT到SOC的通路。并且为了方便标准化和层次分类,对每个ADR都建立了数字ID。下图是荨麻疹ADR层次的例子:
数据库访问:ADReCS (http://bioinf.xmu.edu.cn/ADReCS/) 包含浏览页面(BROWSE),工具栏页面(TOOLS)和下载页面(DOWNLOAD),现在还多了查询一个ADR与蛋白、基因和突变关系的子数据库ADReCS-Target。所有的ADR本体论数据都可以在BROWSE页面找到,也可以在搜索栏根据药物名、结构和ID等进行搜索,也根据ADR术语进行精确搜索和模糊搜索。在工具栏页面(TOOLS)也可以画出药物分子结构,然后根据分子结构相似性搜索其ADR。
目前,ADReCS数据库是第一个提供术语标准化和层次分类的ADR本体论数据库。而在其最新更新的ADReCS-Target子数据库中,关联了蛋白、基因和突变的数据,这对于ADR的分子机制研究具有重要意义。
更多原创精彩视频敬请关注生信杂谈: