既生瑜何生亮,
前脚阿里联手中科大
/港科大发布最强国产生物学大模型Generator,当了一个星期的SOTA之后,后脚美帝的Evo2就踏马而来
,
占据各大媒体头条,一时间风光无两,让大家忽略了这个国产最强生物学大模型。
一些营销号喜欢把
Evo2称为生物界的Deepseek,但Deepseek的出圈最主要的原因是其在技术上实现了显著的降本增效,训练成本仅为OpenAI类似模型的零头。同时通过自研的架构和训练技术,大幅降低了算力需求,打破了“堆卡”模式,使得AI模型的训练和部署更加高效。
Evo2的训练用了2000多张H100,简直壕无人性。
同等参数量下
Generator接近模型极限,但在scaling law的重棒下,也得低头(后者参数仅为1.2B),相比之下,Generator作为生物界的Deepseek更为合适
。
Evo2与其他大模型的
规模
今天小编就带你一文搞定
Generator的三大核心优势、四个下游任务和五大应用场景。
一、
方法概述
Generator模型的核心技术之一是其独特的预训练策略。研究者采用了“基因序列训练”方法,
专注于基因区域的训练,而不是简单地将整个基因组序列输入模型
。
这种方法使得模型能够更有效地学习到基因组的功能性区域,从而在下游任务中表现出色。
-
Transformer解码器架构
:
GENERator采用Transformer解码器架构,解码器能处理长序列,在生成过程中避免看到未来信息,保证生成的序列符合生物学逻辑。
-
超长上下文建模:
模型具有98k碱基对的上下文长度,能处理复杂的基因结构。在生成长序列时保持连贯性和生物学意义。
-
6-mer分词器:
GENERator将 DNA 序列分割为长度为6的核苷酸片段,平衡了序列分辨率和上下文覆盖。
-
跨物种的泛化能力:
训练数据涵盖了3860亿bp的真核生物DNA数据,从酵母到人类,从启动子到蛋白编码,适用于广泛的基因组分析任务。
二
、
下游任务
1、
序列分类
:
Generator在所有分类任务中均优于现有模型
序列分类任务用于评估
Generator 模型对 DNA 片段的理解能力,主要涵盖 Genomic Benchmarks、Nucleotide Transformer Tasks(NT任务)及新提出的Gener Tasks。
-
Genomic Benchmarks主要针对人类基因组,涉及启动子、增强子等调控元件分类。
-
NT任务扩展到多个物种,包含启动子识别、剪接位点预测、增强子分类等。
-
Gener Tasks进一步测试模型在更长序列上的表现,包括基因分类(根据 DNA 片段预测基因类型)和分类学分类(根据 DNA 序列推测所属物种)。
实验结果显示,
Generator 在所有分类任务中均优于现有模型
,
如
DNABERT-2、HyenaDNA 和 Nucleotide Transformer,证明其在长序列理解上的优势。
Gener Tasks的评估
2、
下一
K-mer预测
:
Generator可用于 DNA 片段预测、基因调控序列生成等生物学研究
为评估生成能力,文章设计了下一
K-mer预测任务,实验对比了不同的分词方式(单碱基、K-mer、BPE),结果表明6-mer分词效果最佳,能够在较长序列上保持高精度。
Generator在该任务上的表现显著优于 DNABERT、GROVER 和 HyenaDNA,证明其在长序列生成和预测任务上的卓越能力
。
这一任务的成功表明
Generator 可用于 DNA 片段预测、基因调控序列生成等生物学研究。
下一
K-mer 预测任务的评估
3、
中心法则任务
:
Generator学会了生成具有类似功能的蛋白编码基因
在
中心法则任务
中,团队
评估
了
Generator 在生成蛋白编码 DNA 序列方面的能力。该任务要求模型生成能翻译成特定蛋白家族的 DNA 序列,并验证其生物学合理性。实验中,Generator 生成的 DNA 序列经过翻译后,与目标蛋白家族(如组蛋白、细胞色素 P450)的已知蛋白高度相似。使用 AlphaFold3 预测蛋白结构,并通过 Foldseek 进行比对,结果显示生成的蛋白折叠结构与数据库中的真实蛋白具有高度相似性,且序列
相似度
低于
0.3,表明模型并非简单复制已知序列,而是学会了生成具有类似功能的蛋白编码基因。
该任务验证了
Generator 在生物序列生成和功能蛋白设计上的潜力,可用于基因合成、蛋白工程等领域
。
组蛋白序列的生成
4、
序列设计
:通过简单指令设计高
/低活性基因开关,为合成生物学和基因工程提供了新的工具
序列设计任务聚焦于启动子序列的定向生成
。
实验以增强子设计为例,使用
DeepSTARR 数据集训练模型,
通过
prompt引导生成高活性或低活性增强子
。
结果表明,
Generator 生成的增强子序列在预测活性上与真实数据高度匹配,且显著优于 DeepSTARR 和 NT-multi
。
相比传统依赖大规模实验筛选的方法,
Generator 提供了一种高效、灵活的 DNA 设计方案,可用于基因调控优化、合成生物学和精准基因编辑。
这项研究展示了
LLM 在生物学序列优化中的潜力,未来可拓展至其他调控元件或功能 DNA 设计任务
。
增强子的设计
三
、