主要观点总结
文章讲述了物理化学和有机化学的发展历程,从化学动力学的探索到物理有机化学的兴起,再到现代人工智能在化学领域的应用。介绍了线性自由能关系、哈米特方程等物理有机化学的重要理论,以及蒋锡夔等科学家在自由基自旋离域参数研究中的贡献。同时,探讨了数据密集型科学发现的第四范式,并展望了人工智能在有机反应动力学研究中的应用。
关键观点总结
关键观点1: 化学动力学的探索
物理化学家通过近半个世纪的探索,开创了利用物理图像支撑数学方程、研究化学反应的范式。
关键观点2: 物理有机化学的兴起
以哈米特方程为代表的线性自由能关系,是物理有机化学的重要理论,它简化了复杂的反应动力学问题,并将其归因于单一变量,为化学家理解和调控反应活性提供了信心和依据。
关键观点3: 蒋锡夔等科学家在自由基自旋离域参数研究中的贡献
蒋锡夔等人提出了衡量自由基自旋离域效应的取代基参数,为自由基化学与物理有机化学的交叉研究提供了重要工具。
关键观点4: 数据密集型科学发现的第四范式
随着计算机算力和算法的不断升级,通过海量数据的收集代替传统的经验观察,借助大规模计算补充人类的思考,有望产生远超经验范式的理论归纳能力。
关键观点5: 人工智能在有机反应动力学研究中的应用
虽然有机反应的动力学行为是一个复杂性难题,但借助人工智能,科学家们正在雄心勃勃地迎接一场关于合成方法学研究范式的变革。
正文
冯·诺依曼
曾说:“四个参数就能拟合出一头大象,五个参数就能让大象的鼻子动起来!”这话意在批评对数据的盲目拟合,强调物理图像的重要性。而另一方面,AI凭借海量参数在科学领域大显身手,大规模计算有望产生远超经验范式的理论归纳能力。是追求化繁为简,还是承认多者异也?这两种截然相反的研究思路,恰好贯穿了物理有机化学近百年的历程。
绘图:青骑士
撰文
|
郑超
(中国科学院上海有机化学研究所研究员)
前情提要
:在上篇文章《
一场勉强通过的答辩,让化学翻过“最黑暗的篇章”
》中,从威廉米到范特霍夫和阿伦尼乌斯,物理化学家经过近半个世纪的探索,终于在化学动力学的迷宫中找到了一条路线图,开创了利用物理图像支撑数学方程、研究化学反应的范式。化学反应是复杂的,那么描述化学反应的数学方程应该具有怎样的形式呢?
阿伦尼乌斯公式给出了温度对反应速率常数的影响规律,是化学动力学发展史上的一座里程碑。然而温度终究只是影响化学反应的外部因素,想细致刻画和深入理解化学反应,特别是纷繁复杂的有机反应的动力学特征,还是要从物质的微观结构和反应进程的细节等内因着手。化学反应是由原子外层电子的重新排布引起的,而电子的运动遵循量子力学。虽然量子力学的理论大厦已经在20世纪20年代建立起来,但是化学反应的复杂性给它的应用造成了巨大的障碍。正如量子力学奠基人之一狄拉克
(P. A. M. Dirac)
所言:全部化学所包含的数学规律已经完全清楚,困难只是在于应用这些规律所得出的方程无法求解。以英国人英戈尔德
(C. K. Ingold)
和鲁宾逊
(R. Robinson)
为代表的有机化学家没有“束手待毙”。他们吸收了量子力学中关于原子共享外层电子形成化学键的基本思想,在20世纪30年代构建出一种定性理论,用点、线和箭头组成的“图案”描述有机反应中的电子转移;同时与有机化学的传统观念相衔接,用诸如诱导效应、共轭效应和位阻效应等形象的语言,概括有机分子结构对于反应活性和选择性的影响。“运用之妙,存乎一心”。尽管对初学者而言,理解并接受这套形式逻辑可能颇费踌躇,但是在有机化学“武林高手”眼中,以此为基础演绎出的“反应机理
(reaction mechanism)
”足以在纸面上解读一切有机反应。
L. P. Hammett (1894~1987)
然而,依靠形象化语言定义的概念往往是含混模糊的。无论是诱导效应、共轭效应,还是位阻效应,它们的物理本质都是电磁相互作用。在分子世界中划分出林林总总“效应”的依据和目的,只是为了方便人类化学家的理解和使用。能否找到一条途径,把模糊但是对人类友好的概念定量化,用远比量子力学简单的数学方程来关联分子结构和反应性质呢?几乎与英戈尔德和鲁宾逊的工作同时,在大西洋对岸,美国哥伦比亚大学的哈米特
(L. P. Hammett)
展示了一种化繁为简的可能性。他通过巧妙的理论设计将相互纠缠的复杂影响因素解耦,仅用一元线性函数就解决了一系列典型有机反应的动力学问题!
哈米特是一位少有的关心有机化学问题的物理化学家,他最重要的贡献就是联通这两门差异极大的化学二级学科。1940年哈米特出版了《物理有机化学:反应速率、平衡和机理》,开启了这个新兴领域的研究热潮。哈米特发明了一种酸度函数,用来表征普通pH值无法衡量的浓酸溶液的酸性强弱。哈米特酸度函数的基础是一组含有不同取代基的苯胺分子。由于取代基性质的差异,这些苯胺的共轭酸显示出不同的酸性
(即电离平衡常数
K
a
不同)
,在常见的pH值之外构成了一组延伸的酸度标尺。也许哈米特就是从酸度函数的研究中得到启发:既然取代基的性质可以用来指示酸性强弱,那么反过来,利用一组相似酸的
K
a
数据,就有可能实现对取代基性质的度量。哈米特考察了对位(
p
)或者间位(
m
)带有不同取代基的苯甲酸的电离过程:
这些苯甲酸的电离平衡常数
K
a
随取代基X的不同而变化,将其取对数后再与未取代苯甲酸(X = H)的相应数值作差,就巧妙地把取代基性质对苯甲酸电离平衡的影响“封装”为无量纲的哈米特参数
σ
(X)
(14)
虽然
σ
(X)是基于一组特殊的化学平衡现象定义的,但令人惊讶的是,它似乎反映了取代基X的某种普适特征。哈米特发现在许多乍看起来完全不同的有机反应中,速率常数对取代基变化的响应行为都可以用类似的方式描述
(15)
(15)式被称作哈米特方程,其中
k
r
(X)和
k
r
(H)分别是带有取代基X的分子,以及无此取代基的分子作为原料时反应r的速率常数。它们取对数后的差值与取代基X的哈米特参数
σ
(X)线性相关,比例系数
ρ
r
体现了反应r的速率常数对取代基变化的敏感程度。如果把(14)式和(15)式相除,再利用范特霍夫等温方程,将速率常数
k
r
和平衡常数
K
a
分别用活化吉布斯自由能和反应吉布斯自由能来表达,可得
(16)
(16)式中左右两侧分别是引入取代基X所造成的化学反应r的活化吉布斯自由能的变化,和化学平衡a的反应吉布斯自由能的变化。这便是物理有机化学的一条重要法则——线性自由能关系。它预言
(在一些情况下)
原料分子的结构变化,如引入取代基X,对于化学反应热力学
(平衡)
和动力学
(速率)
的影响是成比例的。哈米特方程是线性自由能关系最重要的实例。
线性自由能关系不是能够从第一性原理导出的严格结论,而是一条经验规则。尽管如此,它仍然具有十分重要的意义。正如哈米特本人所指出的:线性自由能关系的存在带来一个令人欣慰的事实——即便无法找到理论依据来说明化学反应的简单性,也不必因此认为化学反应是无可救药的复杂
(hopelessly complicated)
。虽然化学家们通常愿意通过“熵焓互补”等化学图像来解释线性自由能关系,但是这种线性关系背后有更加本质的数学内涵。假定反应活性
f
r
是由取代基性质
σ
唯一决定的函数,那么只要这个函数关系不是“无可救药的差”,我们总能在取代基X和H之间将
f
r
对
σ
作泰勒展开
并且仅保留一次项。再令
f
r
= lg
k
r
和
σ
(H) = 0,就得到了哈米特方程。
图3. Hammett测定的常见取代基的
σ
参数(左)、部分有机反应的
ρ
值(中)以及第一幅线性自由能关系图(右)。图片来源:
J. Am. Chem. Soc.
1937,
59
, 96.
因此,如果某种线性自由能关系对一类有机反应成立,则意味着在该类反应中存在一定的取代基性质,对反应动力学起着确定性作用。对于哈米特的
σ
参数而言,它所刻画的取代基性质,大体上可以理解为诱导效应与一部分共轭效应的加和。哈米特在建立
σ
参数的过程中没有考虑苯甲酸邻位(
o
)的取代基,正是因为他意识到,邻位取代基的位阻效应对苯甲酸的电离平衡有不可忽视的影响。把它们排除在外,也就拆分了位阻效应与诱导/共轭效应,达成了用最简单的一元线性函数描述反应速率常数变化规律的目的。
哈米特的开创性工作引领了将有机化学参数化、定量化的第一波历史潮流。他的追随者们提出了种类繁多的取代基参数,有的专门刻画取代基的位阻效应或者共轭效应,有的专门面向某种特定反应类型,还有的专门用于描述溶剂的性质……这些取代基参数为有机反应的机理研究提供了崭新的工具。有了它们,有机化学家就能够使用动力学实验
(通常是测定一系列相似反应的速率常数之比)
弥补谱学表征手段的不足。透过哈米特方程中
ρ
值的正负和大小,能够窥探反应中难以分离鉴定的瞬态中间体的结构特征。例如著名的“非经典碳正离子”,最早就是由美国加州大学洛杉矶分校的温斯坦
(S. Winstein)
等人,在2-降冰片基苯磺酸酯的溶剂解反应的动力学实验中观察到反常结果,从中推断出来的。以哈米特方程为代表的线性自由能关系,在今天仍是有机化学专业高年级本科生和研究生课程的必修内容。对于整日在通风橱前“搬砖”的有机化学研究生来说,如果你能亲手测出一条类似
图3
的哈米特图
(Hammett plot)
,那一定是一个令人愉悦的美好时刻!
在线性自由能关系这一研究领域,中国科学家也做出了杰出的贡献。中国科学院上海有机化学研究所蒋锡夔先生领导的物理有机化学研究团队,于20世纪80年代至90年代在国际上首次提出了一套衡量自由基自旋离域效应的取代基参数
σ
•
JJ
(
JJ
是蒋锡夔和他的主要合作者计国桢先生姓氏拼音的缩写)
。自由基是有机反应中的一类常见中间体,和碳正离子、碳负离子、单线态卡宾等闭壳层中间体不同,自由基物种具有未成对电子,因此存在闭壳层物种不具备的自旋离域效应。如何定量评价取代基性质对自由基自旋离域效应的影响,是物理有机化学与自由基化学交叉前沿的重要科学问题。蒋锡夔等人巧妙地使用双参数线性自由能关系对此给出了答案。
蒋锡夔出身金陵名门,自幼接受了良好的教育。从上海圣约翰大学毕业后,他于1948年赴美留学,1952年获得华盛顿大学博士学位。1955年蒋锡夔放弃美国企业的高薪职位,冲破重重阻挠回到新中国。回国后,他先后在中国科学院化学研究所和上海有机化学研究所工作。在美国凯劳格公司
(The M. W. Kellogg Company)
工作期间,蒋锡夔发现三氟氯乙烯可以与三氧化硫反应生成
β
-磺内酯,推翻了多氟乙烯不能发生亲电反应的传统认知。这一反应为后来一系列含氟功能分子的合成奠定了基础。得益于在含氟烯烃化学领域的深厚积累,蒋锡夔在60年代领导了我国氟橡胶的研究工作,制备了多种氟橡胶产品,打破了西方国家对这一关键军用物资的封锁,为我国的国防工业做出了贡献。在氟橡胶的研制过程中,蒋锡夔发现三氟苯乙烯在加热条件下会发生二聚反应,生成二苯基六氟环丁烷,并且反应经历了1,4-双自由基中间体。蒋锡夔从这个源自应用研究的发现出发,依靠敏锐的学术洞察力和坚持不懈的努力,做出了国际公认的基础研究成果。
图4. (左)蒋锡夔先生关于自由基自旋离域参数
σ
•
JJ
的第一篇论文;(右)蒋锡夔先生
(右二)
和助手们讨论工作,右一为
计国桢先生
。图片来源:《化学学报》,1984年,第42卷第6期,599页(左);参考文献29(右)
长期以来,学术界对于如何区分极性效应和自旋离域效应对自由基反应活性的影响,一直存在争议。文献已报道的取代基参数都无法正确描述自旋离域效应的贡献。蒋锡夔意识到,三氟苯乙烯的二聚反应是研究取代基性质对自由基反应活性影响规律的绝佳平台。他提出了在同一个反应体系中完全拆分极性效应和自旋离域效应的方法。首先记录对位带有不同取代基(Y)的三氟苯乙烯的
19
F核磁共振波谱数据,利用氟原子化学位移的变动值建立取代基参数
σ
mb
(Y)
(其中mb意为多重键,multiple bond)
,它完全体现了取代基Y的极性效应。随后,通过动力学实验测定对位取代的三氟苯乙烯,以及无取代的三氟苯乙烯(Y = H)的二聚反应
的速率比值
k
(Y)/
k
(H),如果把lg
k
(Y)/
k
(H)写作两个参数——
σ
mb
(Y)和
σ
•
JJ
(Y)的线性组合,并取
σ
mb
(H) = 0和
σ
•
JJ
(H) = 0,可得
(18)
由于
σ
mb
(Y)参数完全体现了取代基Y的极性效应,那么从(18)式解出的
σ
•
JJ
(Y)值就代表了Y对自由基自旋离域效应的影响程度。蒋锡夔主导制定的
σ
•
JJ
(Y)参数数据翔实、置信度高。其理论推导仅基于两条合理的基本假设:自由基的电子效应可以拆分成极性和自旋离域两个独立组分;分子处于基态和过渡态时取代基的极性效应相同。在参数建立过程中,速率常数均在不同温度下平行测定,所得结果经过“等动力学温度关系”验证。
σ
•
JJ
(Y)参数发表后得到国际物理有机化学同行的广泛认可。2002年,蒋锡夔领衔的科研项目《物理有机化学前沿领域两个重要方面——有机分子簇集和自由基化学的研究》荣获国家自然科学奖一等奖。这是该奖项连续空缺四年后再度颁发,也是有机化学基础理论研究成果首次问鼎国家最高科技奖励。
哈米特方程之所以在有机化学中被广泛使用,不仅因为它的数学形式简单,更在于它将复杂的反应动力学问题归因于符合化学思维的单一变量,为化学家理解和调控反应活性提供了信心和依据。沿着这条思路,如果化学知识告诉我们,某类反应的动力学行为受两个独立因素共同影响,那么建立双参数回归方程就是非常自然的选择,正如我们在自由基自旋离域参数
σ
•
JJ
的建立历程中看到的那样。可是,如果影响因素的数量更多些呢?如果这些因素之间的界限更模糊些呢
(别忘了它们的物理本质都是电磁相互作用)
?仅靠增加方程参数的个数就能解决问题吗?在线性自由能关系发展的初期,化学家们就已经考虑到了这一点。哈米特的学生塔夫脱
(R. W. Taft,他发展了一套著名的位阻效应参数
E
s
)
等人曾尝试将
σ
参数拆解成若干细分因素的贡献,得到一个多参数方程
(19)式中的下标
F
/
x
/
a
/
R
分别代表场效应、诱导效应、极化效应和共振效应。但是,这种处理方式会让我们陷入进退两难。因为增加参数必然会牺牲方程的化学图像,降低模型的可解释性
(正如在阿伦尼乌斯公式确立之前,众多
k
~
T
关系式所遇到的问题)
,同时又会带来“过拟合”的风险:即使最终结果在数值上非常准确,也可能很难分辨所拟合的方程究竟是正确描述了科学规律,抑或仅仅记录了有偏数据样本造成的假象。
关于数值拟合,著名物理学家戴森
(F. Dyson)
晚年曾讲过一个有趣的故事。1953年,戴森还是康奈尔大学一名年轻的理论物理学者。他利用赝标量介子理论计算了质子与介子的散射截面,结果与费米
(E. Fermi)
的实验数值非常吻合。戴森喜不自禁,连忙前往芝加哥,向这位前辈展示自己的结果。不料费米几乎没看递上来的手稿,他友好地请戴森坐下,平静地说:“理论物理有两种计算方法。一种是我更喜欢的:计算过程拥有清晰的物理图像。另一种拥有
精确且自洽的
数学形式。而你的计算两边都不沾。”
戴森在错愕之余还是壮着胆子问费米,为什么赝标量介子理论不是自洽的数学形式。得到解答后,绝望之下戴森又问,他的计算值和实验值严丝合缝,这又怎么讲?费米反问:“你在计算中引入了多少个任意参数?”戴森回答说四个,费米接着讲了一句有名的话:“我的朋友冯•诺依曼
(J. von Neumann)
曾说,他用四个参数就能拟合出一头大象,五个参数就能让大象的鼻子动起来!”
戴森听懂了言外之意,在结束这项工作后就改变了研究方向。后来他回忆:“短短几分钟,费米礼貌而无情地摧毁了我和学生们埋首多年的研究计划。要不是他,我们可能还要在歧路上徒劳徘徊数年。……五十年后回首往事,我们可以清楚看到费米是对的。解释强相互作用的关键发现是夸克。介子和质子由夸克组成。在盖尔曼
(M. Gell-Mann)
发现夸克之前,任何关于强相互作用的理论都不可能是充分的。费米对夸克一无所知,在夸克发现前就已去世。但早在20世纪50年代,费米已经意识到当时的介子理论缺少了关键拼图。物理直觉告诉他,赝标量介子理论不可能正确。因此正是费米的直觉,而不是理论与实验的不符,把我和我的学生从死胡同里救了出来。”
图5. 2010年有人实现了用四个复参数拟合出大象的形象,用第五个复参数使大象的鼻子摇晃。图片来源:
Am. J. Phys.
2010,
78
, 648.
也许是在模型的可解释性和数值拟合的有效性两方面都遇到了“瓶颈”,以线性自由能关系为基础,将有机反应动力学特性参数化、定量化的研究热潮在20世纪80至90年代趋于沉寂。多参数线性自由能方程并没有给物理有机化学带来新的突破。在众多的哈米特型定量构效关系中,最受化学家青睐的仍然是形式最为简单的(15)式,毕竟能够将数学关系“翻译”成合理的化学图像是最令人放心的。但是有机反应的动力学行为终究是一个复杂性难题,单变量线性方程注定无法满足所有场合的需要,破解这一困局必须引入新的思路。1977年诺贝尔物理学奖获得者安德森
(P. W. Anderson)
在评价凝聚态物理时有一句名言:“多者异也
(More is different)
”。这句话的本意是说物质结构存在不同的层次,每个层次都会涌现出独特的性质和规律。物质世界的复杂性随着结构尺度的扩大而提升,所以还原论
(reductionism)
哲学并不能保证建构主义
(constructionism)
的成功:即使万物运行的现象可以被约化为少数基本粒子的规律,我们也无法仅从这些规律出发重建出整个宇宙。以这个观点看待本征复杂的化学动力学问题,我们是否可以探索一条在某种程度上不同于物理有机化学传统的道路——放弃对直观化学图像的期待,不再追求简明解析的数学关系;同时尽可能多地引入变量,将反应活性
f
r
写成一系列性质参数{
σ
}的函数
并把选取{
σ
}和确定
f
的数学形式等任务都交给数据拟合。这个想法初看起来颇令人不安,毕竟“摇晃鼻子的大象”还历历在目。况且历史上阿伦尼乌斯公式和哈米特方程的成功都是通过摆脱对数据的盲目拟合,在清晰的化学图像指引下实现的。不借助这些指引,有机反应动力学的规律真的能从复杂的数据关系和“无形的方程”中自动涌现出来吗?
2007年1月,在美国加利福尼亚州山景城召开的美国国家研究理事会计算机科学与电讯委员会会议上,供职于微软公司的著名计算机科学家、1998年图灵奖获得者格雷
(J. N. Gray)
发表了题为“科学方法的革命”的演讲。他在演讲中提出,将科学研究分为四类范式——依次为经验
(实验)
科学、理论科学、计算科学和数据科学。格雷认为,科学研究的旅程起步于观察和记录自然现象,为了获得更加精确和普适的结果,人们从实验现象中抽象出简化模型,通过数学方程构建出科学理论。当科学理论的复杂性上升到人脑无法应付的程度时,利用计算机进行大规模计算就成为与受控实验和理论推导并立的又一种探索自然的途径。随着计算机算力和算法的不断升级,通过海量数据的收集代替传统的经验观察,借助大规模计算补充人类的思考,有望产生远超经验范式的理论归纳能力,这就是格雷倡导的数据密集型科学发现的“第四范式”。在计算机科学家的身份之外,格雷还是一名航海爱好者。在山景城会议的半个月之后,格雷独自驾驶帆船出海,计划于靠近旧金山海岸的法拉隆群岛抛洒母亲的骨灰,但是未能返航。持续数月的搜寻没有找到格雷和他的帆船的任何踪迹,五年后他被加州地方法院宣告合法死亡。山景城的演讲成为格雷留给世界的学术“遗言”,而第四范式下的科学研究正在他的身后蓬勃发展。
2016年,谷歌旗下的DeepMind公司推出人工智能围棋程序AlphaGo。它将蒙特卡洛树搜索算法和深度神经网络相结合,通过学习人类棋谱和“左右互搏”的自我对弈提升实力,在公开比赛中战胜了当时最顶尖的棋手李世乭和柯洁。2018年DeepMind公司又发布了人工智能蛋白质结构预测程序AlphaFold
(AF)
,并于2020年和2024年上线了其后继版本AF2和AF3。AF程序学习了所有已知蛋白质的氨基酸序列、和已通过X射线晶体学实验测定的蛋白质结构,基于Transformer神经网络预测氨基酸残基之间的距离和相互作用,通过多轮迭代给出目标蛋白质的预测结构,其精度可以与实验结果相抗衡。2022年,DeepMind公司宣称AF2已经预测了超过两亿个蛋白质高级结构,几乎覆盖了所有已知氨基酸序列的蛋白质分子。AF团队的领导者哈萨比斯
(D. Hassabis)
和江珀
(J. Jumper)
因为在蛋白质结构预测方面的工作分享了2024年诺贝尔化学奖
(该奖项的另一名获得者是美国华盛顿大学的蛋白质设计专家贝克(D. Baker))
。
那么,有机反应动力学问题呢?应当注意到蛋白质的一级结构是由一维氨基酸序列完全编码的,其高级结构的形成主要依赖氨基酸残基之间的非共价相互作用。而有机反应涉及化学键的断裂和重组,其过程细节和影响因素远比蛋白质折叠复杂,想要依靠人工智能轻松“拿捏”有机反应动力学可能不会是一蹴而就的
(笔者期待被打脸)
。尽管如此,这方面的研究正方兴未艾,也屡有成功的结果见诸顶刊。从某种意义上说,这些研究工作算得上是哈米特将有机反应参数化、定量化的努力在新时代的传承和延续,其基本思想都可以用(20)式概括,但是性质参数和函数形式的取材范围都大大拓宽了。不仅仅是哈米特参数
σ
,所有刻画分子微观几何/电子结构、宏观理化性质的特征,无论是针对基态还是过渡态、无论来源于实验测定还是理论计算,都可以作为描述符使用。在模型方面,从简单的多元线性回归到复杂的贝叶斯优化和神经网络算法,也都能找到用武之地。所拟合和预测的目标也不限于反应的动力学行为,还包括目标产物的收率、选择性,甚至是最优反应条件。再辅以高通量、自动化设备提供的高质量实验数据……有机化学家们正在雄心勃勃地迎接一场关于合成方法学研究范式的变革。