专栏名称: 飞桨PaddlePaddle
源于产业实践的开源深度学习平台
目录
相关文章推荐
CHINADAILY  ·  Tales and ... ·  昨天  
CHINADAILY  ·  Z WEEKLY丨Story behind ... ·  2 天前  
CHINADAILY  ·  Sports丨Reds on title ... ·  3 天前  
CHINADAILY  ·  Business丨Shenzhen ... ·  3 天前  
51好读  ›  专栏  ›  飞桨PaddlePaddle

第二届AI药物研发算法大赛正式启航,飞桨携手清华、Intel,探索药物研发新思路!

飞桨PaddlePaddle  · 公众号  ·  · 2024-08-20 20:53

正文

人工智能正逐步展现药物研发领域的变革之力。特别是在小分子药物的探索中,AI技术凭借其精准预测药物安全性和有效性的潜力,有望大幅缩短研发周期,降低研发成本。
百度在生物计算、药物研发领域一直不断探索,2020年发布了基于飞桨的生物计算平台螺旋桨(PaddleHelix)。2022年百度联合清华大学药学院,建设“AI+ 药学”产学研融合创新基地,推出AI+生物计算前沿课程和人才培养计划,助力 AI for Science 领域的人才培养。2024年,百度飞桨螺旋桨 PaddleHelix 团队研发并开源了基于大规模预训练方法的 HelixDock 全原子扩散模型,能够准确预测蛋白质和小分子的结合构象,为药物研发研究者们提供助力
2023年,百度飞桨携手清华大学药学院共同主办首届全球AI药物研发算法大赛,吸引了来自清华大学、上海交通大学中国科学院大学、微软亚洲研究院等知名高校、研究机构以及企业的878支团队的1105名选手参赛。

今年,第二届全球AI药物研发算法大赛再次启航!本次比赛由百度飞桨、清华大学药学院、Intel共同主办,旨在借助百度飞桨螺旋桨在生物计算方向上的算法优势,通过AI Studio平台,探索AI+药学领域前沿技术,挖掘和培育优秀人才,诚邀全球范围内生物计算、人工智能、药物研发等相关专业的高校师生、企业、科研机构及开发者参赛。
赛题背景
人工智能技术在制药领域展现出巨大的潜力,尤其在小分子药物的研发中。通过准确预测药物的安全性和有效性,AI有望显著缩短研发周期,降低成本。然而,AI在制药中的应用面临两大主要挑战:一方面,用于训练AI模型的数据难以大规模快速获取,且数据收集过程耗费大量人力和财力资源;另一方面,在数据有限的情况下,模型的泛化能力成为预测新分子性质的关键制约因素。因此,当前算法研究的重点是如何提升模型的泛化能力。
本次赛题聚焦于倍半萜类分子(一类含有15个碳原子的天然产物)的量子化学性质预测任务。 倍半萜类化合物广泛存在于动植物、真菌和海洋生物中,是重要的药物来源,青蒿素便是其典型代表。因此,准确预测这类化合物的量子化学性质,不仅对基础科学研究具有重要意义,也对药物的开发和应用具有深远影响。
本届AI药物研发算法大赛鼓励参赛者设计出能够灵活适应并泛化至多种不同类型分子的表示学习算法,这样的突破极有可能成为分子表示学习模型发展历程中的一个新里程碑。 我们期待通过这次大赛激发更多的创新思维和解决方案,共同推动AI在药物研发领域的应用与发展。
任务描述
参赛阶段
本届比赛分为初赛、复赛和决赛三个阶段。

初赛

时间:即日起至2024年10月15日
参赛要求:要求参赛选手通过分子的SMILES信息,准确预测其量子化学性质。初赛阶段,各参赛队每天限提交3次结果,AI Studio 将实时计算得到此次结果的评分,并在 AI Studio榜单上以历史最好成绩进行排名。
初赛结束时,初赛成绩排名前60%的队伍进入复赛。 (大赛举办方有权根据报名等情况确定最终晋级队伍数量)。

复赛

时间:10月16日至12月1日
参赛要求:复赛阶段,大赛会扩充数据集,各参赛队需要提交预测代码获得评分,每天限提交 3 次。 复赛结束时,组委会将对代码进行检查和复现,复赛成绩排名前7名的队伍将晋级决赛。 (大赛举办方有权根据复赛情况等确定最终数量)
若后面的队伍与第七名分数相差在0.5% 以内,则可以申请加分项:向主办方申请CPU,通过OpenVINO, Onnxruntime 或PaddleInference (CPU) 工具,将模型部署适配到该CPU上:在准确度变化不超过10%的情况下,相比原始硬件推理速度提升至2倍以上,则可额外加分0.6%,并以新的分数进行排名。

决赛

时间:预计12月进行
参赛要求:进入总决赛的队伍需参与最终现场答辩环节(需准备PPT,答辩时间10min)。 评委将对初赛、复赛阶段成绩、答辩成绩和代码质量进行综合评估,作为最终的决赛成绩。最终成绩在决赛答辩中公布,如不能参加决赛活动的队伍成绩将取消。
评估指标
选手的最终得分将基于其在四个测试集上RMSE(均方根误差)的均值计算得出。为了便于排名,我们将对计算出的得分取相反数。

score = - (RMSEID + RMSEXOOD + RMSEYOOD + RMSEXYOOD) / 4

学习资料

baseline

https://aistudio.baidu.com/projectdetail/8177552
本次比赛 baseline 基于百度飞桨 PaddlePaddle 进行开发,运用了 PaddleHelix 螺旋桨生物计算平台的 GEM模型






请到「今天看啥」查看全文