随着蛋白结晶技术的进步,大量蛋白/小分子化合物晶体结构被解析,为大规模分析分子相互作用成为可能。晶体结构虽然是瞬间结构、不能反映溶液里的动态平衡,但也在很大程度体现了蛋白/化合物的结合方式,所以是非常重要的信息。更重要的是这些结果信息来自电子密度,基本算是亲所见,所以非常可靠。现在新药项目有目标蛋白晶体结构(structurally enabled)是个重要条件,对先导物优化效率有很大影响。
现在PDB已经有十几万个晶体结构,包括76056个小分子蛋白结构,其中13000个化合物有结合强度数据,但作者只选了分辨率在2.5埃以下的结构作为分析对象。不同蛋白因为天然底物不同所以结合腔的形状和物化性质可以相差很多。PDB晶体结构涵盖500多个蛋白家族,所以多样性相当不错。化合物库的建立和筛选策略也间接影响这些晶体里相互作用的出现频率。如片段筛选需要高浓度,所以要求化合物水溶性很高。另外通过极性相互作用提高活性更难,所以也要求片段设计尽量以极性基团为主。这可以解释片段晶体结果中极性作用更多的发现。
小分子与蛋白结合在原子水平可以被划分成各种微观作用力。如果两个原子在空间上比4埃更近,作者则认为二者有相互作用。这不一定总正确,尤其对于分子量较大、刚性较大的分子。因为分子自由度是有限的,一旦几个关键相互作用决定了配体的位置,大部分其它原子只能服从大局,与蛋白的某个原子空间上接近不一定是相互吸引。如同你父母换工作你跟着转学,不是因为你喜欢新学校。所以这些相互作用出现频率不完全和其强度正相关。如盐桥的结合能非常高,但只排第五。而对角度非常敏感的氢键和对距离非常敏感(与距离10的12次方成反比,挪一下屁股结合能就全没了)的范德华力却排在前面。
药物发现实践中一般要通过高通量筛选先找到结合力不错的先导物,这个先导物基本有了目标药物70-80%的结合能,所以化合物库的设计对各种分子相互作用出现频率影响很大。所谓药物设计是根据SAR或利用其它设计技术如CADD补充缺失的20-30%结合能。而这小部分结合能也不太容易通过文章中提到的这些特异分子相互作用得到,而是主要通过所谓的疏水相互作用。疏水相互作用排在第一是有原因的。这个作用并非是药物与蛋白之间相互吸引,而是二者都有部分片段不喜欢在水里。这如同突然下雨大街上毫不相干的人都挤到房檐下避雨,并不是这些人相互喜欢。疏水作用虽然没有带来结合能但会增加整个系统的熵值,这是自由能的来源。遗憾的是疏水作用虽然最容易得到,但除了对活性有益之外几乎无一是处。选择性、水溶性、代谢稳定性以及衍生的药物-药物相互作用、制剂、给药方式等药物发现的主要技术障碍无不与先导物的过高脂溶性(疏水性)紧密相关。