在过去的十年里,人工智能(AI)在罕见遗传病的致病基因和变异筛选方面取得了显著进展。这些方法主要利用语义相似性关联患者的表型与已知的致病基因,结合变异位点的注释信息构建评分或预测模型,实现对候选变异的过滤及排序,代表性工具包括:Exomiser
[1]
, VAAST
[2]
, Xrare
[3]
, AMELIE[4], GEM
[5]
, Emedgene
[6]
, and AI-MARRVEL
[7]
等,其中AI-MARRVEL(AIM)是今年4月新英格兰医学AI杂志发表的新方法,研究人员基于随机森林算法对内部数千个确诊病例的超350万个变异进行训练,可根据患者的临床特征和测序数据对孟德尔遗传病的潜在致病基因或变异进行优先排序,显著提高遗传病诊断的准确率。
尽管上述工具在临床诊断中展现了很高的应用价值,但它们大多数基于表型语义相似性度量,这要求将患者的临床表型信息转化为标准化的表型词条,例如人类表型本体(HPO)。这一转化过程既是知识密集型的工作、又是劳动密集型的工作,往往需要遗传分析专家的校准,耗时耗力的同时,也高度依赖于基因型与表型关联数据库的全面性和患者临床表型描述的精准度。
大语言模型
(large language model,LLM)的最新进展,为罕见病的分析解读提供全新的思路。如近期沙特阿拉伯阿卜杜拉国王科技大学和美国费城儿童医院的两个研究团队先后评估了大型语言模型在罕见遗传病诊断中进行基因优先排序的实用性。
-
美国费城儿童医院的研究团队的结果表明尽管目前LLMs在生成准确的候选基因预测结果方面落后于传统工具,但随着模型规模的增加,它的性能有望进一步提高,尤其在处理非结构化文本数据时,LLM展现了一定的优势
[8]
。
-
沙特阿拉伯阿卜杜拉国王科技大学的研究团队则通过真实的临床数据研究,展示了LLMs在基于表型的基因优先级排序任务中,不仅能够提供和传统工具相媲美甚至略优的基因排名,还能生成解释性的结果,有助于更高效的揭示基因与疾病之间的复杂联系
[9]
。
上述这些研究结果表明,LLMs凭借其在
处理大规模文本数据和复杂问题上的能力
,有望辅助临床医生和研究人员
更高效地识别疾病相关的基因和变异
,从而推动个性化精准医疗的飞速发展。