上次我们详细介绍了如何使用HDOCK 服务器:

HDOCK分子对接 详细教程

今天,分享简约版的 分子对接教程, 尤其关注下第六点

1. 提供对接分子的输入信息

HDOCK 服务器采用混合对接策略预测蛋白质和核酸等两种分子之间的结合复合物。因此,用户需要提供要对接的两个分子的输入信息。HDOCK 服务器可接受四种类型的分子输入:

a 上传 PDB 格式的 pdb 文件。

b 提供 PDB ID:ChainID 格式的 pdb 文件(如 1CGI:E)。

c 复制并粘贴 FASTA 格式的蛋白质序列。

d 上传 FASTA 格式的蛋白质序列文件


如果提供的输入类型超过一种,则使用第一种。对于 “PDB ID:ChainID ”输入,用户可以提供一个链 ID 或多个链 ID。例如,“1CGI:E ”代表 1CGI pdb 文件中的链 E;“1AHW:AB ”代表 1AHW pdb 文件中的链 A 和 B。如果只提供序列,服务器将使用内部建模管道(HH Suite、Clustalw2 和 MODELLER)从蛋白质数据库中的同源模板自动构建模型结构。此外,如果蛋白质包含多条链,我们也建议用户提交自己的 pdb 文件,因为我们的建模管道目前是针对单链蛋白质设计的。


分子类型(Molecular Type):

输入结构时不需要 “Select a type(选择类型)”,因为 HDOCK 服务器能够根据输入的结构确定分子类型。但对于序列输入,强烈建议用户选择分子类型,否则服务器将根据输入序列从 “蛋白质”、“ssRNA ”或 “dsDNA ”中猜测一个。


类型            描述

蛋白质 标准蛋白质分子

ssRNA 一般单链 RNA 分子

ssDNA 一般单链 DNA 分子

dsDNA 双链 B-DNA 双工分子

dsRNA 双链 A-RNA 双工分子

其中双链 (ds) RNA/DNA 分子的最大输入序列为 500。

2. RNA/DNA 三维结构建模

HDOCK 服务器现在可接受单链 (ss) 或双链 (ds) RNA/DNA 的序列输入。只需输入单链序列,其中可包含如下序列



或单链 (ss) RNA/DNA 的序列及其二级结构,如下所示




然后,HDOCK 将根据单序列构建其三维结构,或通过构建互补的 Watson-Crick 配对第二链来建立双链三维双工结构模型。

3. 指定结合位点 [可选]

HDOCK 通过全局对接来预测两个分子之间的结合复合物。因此,对接工作不需要结合位点信息。不过,如果有结合位点残基的信息,服务器也会为用户提供指定结合位点残基的选项,这样预测模型的准确性会更高。可以提供两种类型的结合位点信息。












195:A 236:B 8, 215-218:A 306:B 6

其中,受体上链 A 的残基 195 与配体上链 B 的残基 236 的距离将在 8 A 以内;受体上链 A 的残基 215-218 与配体上链 B 的残基 306 的距离将在 6 A 以内。同样,上述距离限制也可以以如下文件形式提供

195:A 236:B 8

215-218:A 306:B 6

注意 对于每个限制条件,第一个字段是受体,第二个字段是配体,第三个字段是限制距离。残基表示必须采用 num:chainID 或 num1-num2:chainID 格式,其中残基编号和链 ID 在输入为结构时指输入结构,在输入为序列时指建模结构。

对于服务器建模的三维结构,单链分子的链 ID 设置为 “A”。残基编号与输入序列一致。

4. SAXS 实验数据曲线

小角 X 射线散射(SAXS)实验数据可作为对接后的过滤数据,用于对 HDOCK 对接预测的结合模式进行排序。SAXS 数据文件包含 q、I(q) 和误差三列,如下所示

0.0000e+00 1.4612e+07 3.0685e+03

1.0000e-03 1.4743e+07 4.8653e+03

2.0000e-03 1.4827e+07 7.3394e+03

3.0000E-03 1.4685E+07 1.0573E+04

4.0000E-03 1.4674E+07 1.3206E+04

5.0000E-03 1.4659E+07 1.5831E+04

6.0000E-03 1.4729E+07 1.5466E+04

7.0000E-03 1.4707E+07 1.7649E+04

8.0000E-03 1.4594E+07 2.3642E+04

9.0000e-03 1.4787e+07 2.8835e+04

根据 SAXS 实验曲线,结合模型将按照我们的评分函数计算出的对接能量得分和 CHI 值的加权得分进行排序,CHI 值用于衡量预测的结合模式与 SAXS 实验数据的拟合程度。

5. 对接后处理(可选)

如果高级用户希望获得 100 个以上的预测复合模型,或者希望用自己的实验信息过滤对接后的复合模型,则可以使用此步骤。下载的软件包包含一个 HDOCK 输出文件,命名为 hdock_5c984053e4b83.out,其中包括所有 4392 个对接方案,如下所示

网格间距     1.200


初始旋转     0.00000 0.00000 0.00000

1CGI_r_b.pdb 23.562 26.523 22.675

1CGI_l_b.pdb 47.776 34.961 33.826

1.27246 0.01055 5.02167 -0.328 -0.164 0.264 -445.20 0.45 1.00

2.80075 0.00162 3.49381 -0.286 -0.209 0.111 -444.37 0.38 1.00

0.02137 0.00051 -0.00948 -0.267 -0.212 0.104 -444.28 0.36 1.00

2.98094 0.00164 3.31735 -0.237 -0.259 0.116 -444.15 0.37 1.00

3.04247 0.00300 3.25767 -0.340 -0.315 0.134 -442.80 0.49 1.00


其中前 5 行定义如下


第 2 行是三个旋转自由度的欧拉角步长。

第 3 行是对接前配体的初始旋转(可选)。

第 4 行是受体文件及其几何中心。

第 5 行是配体文件及其几何中心。

从第 6 行开始是预测的结合模式,每种模式由三个平移、三个旋转、结合得分、与配体初始方向的 RMSD 值以及旋转的平移 ID 表示。

用户可以下载我们的 “createpl_linux ”程序并在本地运行,以生成类似下面这样的复杂模型

createpl_linux hdock_5c984053e4b83.out top100.pdb -nmax 100 -complex -models




生成复杂模型后,用户还可以使用 FoXS 等第三方程序,根据模型的小角 X 射线散射(SAXS)剖面文件计算模型的 SAXS CHI 值。

6. 评价指标解释 (重要!!)

对接得分:对接得分由我们基于知识的迭代评分函数 ITScorePP 或 ITScorePR 计算得出。对接得分越负,表示可能的结合模型越多,但不应将该得分视为两个分子的真实结合亲和力,因为它尚未与实验数据进行校准。

置信度得分:鉴于 PDB 中的蛋白质-蛋白质/RNA/DNA 复合物的对接得分通常在-200 左右或更高,我们根据经验定义了一个与对接得分相关的置信度得分,用于表示两个分子的结合可能性,具体如下、

置信度得分 = 1.0/[1.0+e0.02*(对接得分+150)] (Confidence_score = 1.0/[1.0+e0.02*(Docking_Score+150))

粗略地说,当置信度高于 0.7 时,两个分子很有可能结合;当置信度介于 0.5 和 0.7 之间时,两个分子有可能结合;当置信度低于 0.5 时,两个分子不可能结合。然而,由于置信度的经验性质,应谨慎使用。

配体 RMSD:配体 RMSD 是通过比较对接模型中的配体和输入或建模的结构来计算的。因此,配体 RMSD 不一定是衡量相应模型准确性的指标。

界面信息:每个模型的界面信息包括相应模型中受体和配体之间 5.0 A 范围内的所有残基对。用户可以点击检查/下载不同模型的文件。

SAXS CHI 平方:预测模型的 CHI 值与 SAXS 数据曲线的比较,该值使用 FoXS 程序计算。CHI 平方越小,表示模型与 SAXS 数据的一致性越好。


