香港中文大学(深圳)数据科学学院(SDS)以其卓越的师资力量而闻名,学院汇聚了来自计算机科学、运筹学、统计学等学科的国际化学术人才,组成了一支高水平的教授团队。在全球千强科学家中,五位教授现任教于SDS,其中包括跻身全球百强的学者。此外,学院还拥有多位曾在世界顶尖高校担任终身教授的专家,以及培养出四位院士的名师。
“数说名师”
系列
教授访谈将带您深入了解SDS教授们的学术成就、育人理念以及他们对学术的坚持。在这些访谈中,您将有机会找到值得追随的人生导师,并对SDS有更全面的认识。
本期“数说名师”专栏,我们采访到数据科学学院新加入的第四位院士——
吴建福教授
。作为
首位提出“数据科学”术语
的重量级统计学家,吴教授将与我们分享他的学术成就、对数据科学的深刻见解以及对学生发展的期望。
美国国家工程院院士、中央研究院院士,曾获COPSS Presidents' Award、COPSS Fisher Lecture Award、ASA Deming Lecture Award、 George Box Medal (ENBIS)、首届Akaike Memorial Lecture Award (赤池奖)、Shewhart Medal、印度统计学院P. C. Mahalanobis纪念讲座主讲人
研究领域:
未确定性量化,数字孪生,计算机实验及线上实验(设计,建模,优化)
吴建福教授现任香港中文大学(深圳)数据科学学院校长学勤讲座教授。
他于2004年当选为美国国家工程院院士,并于2000年当选为中央研究院院士。他还是数学统计学会(1984年)、美国统计协会(1985年)、美国质量协会(2002年)以及运筹学与管理科学研究院(2009年)的会士。他曾获得1987年的COPSS (Committee of Presidents of Statistical Societies) Presidents' Award,该奖每年颁发给年龄在40岁以下的最佳研究者,由五个统计学会共同委托颁发。他的其他重要奖项包括2011年的COPSS Fisher Lecture、2012年的Deming Lecture、2008年的ASQ Shewhart Medal以及2008年的Pan Wenyuan Technology Award。2016年,他获得了(首届)Akaike Memorial Lecture Award。2017年,他获得了ENBIS颁发的George Box Medal。2020年,他分别获得了乔治亚理工学院1934年级杰出教授奖和Sigma Xi Monie A. Ferst Award。他还获得了许多其他奖项,包括Wilcoxon Prize、the Brumbaugh Award(两次)、the Jack Youden Prize(两次)以及the Honoree of the 2008 Quality and Productivity Research Conference。他曾担任过印度统计研究所的1998年P. C. Mahalanobis Memorial讲演者,并于中国科学院担任过爱因斯坦访问教授。他还是中国科学院和清华大学的名誉教授,于2008年获得了滑铁卢大学的数学荣誉博士学位。
他曾任职于密歇根大学统计学和工业与运营工程系的H.C. Carver统计学教授和教授(1993-2003年),以及滑铁卢大学的GM/NSERC质量与生产力讲座教授(1988-1993年)。在他1997年的Carver讲座演讲中,他创造了数据科学(Data Science)这一术语,并主张将统计学改名为数据科学,将统计学家称为数据科学家。在加入滑铁卢大学之前,他于1977年至1988年在威斯康星大学统计系任教。他于1971年在国立台湾大学获得数学学士学位,并于加州大学伯克利分校(1973-1976年)获得统计学博士学位。
他的研究成果在专业期刊和杂志中被广泛引用,包括《Canadian Business》关于他工作的专题文章以及《Newsweek》关于质量的特刊。他曾担任《Annals of Statistics》、《Journal of American Statistical Association》、《Technometrics》和《Statistica Sinica》等多个主要统计期刊的编辑或副编辑。吴教授在同行评审期刊上发表了超过190篇研究文章。他指导了52名博士生,其中超过半数现正在美国、加拿大、亚洲或欧洲的主要研究部门或机构从事统计、工程或商业领域的教学工作。其中有26位是ASA、IMS、ASQ、IAQ和IIE的Fellow,一位加拿大皇家科学院院士,三人担任《Technometrics》的编辑,另有一人担任《JQT》的编辑。他与Mike Hamada合著了《Experiments: Planning, Analysis, and Optimization》(Wiley,第三版,2021, 700页),与R. Mukerjee合著了《A Modern Theory of Factorial Designs》(Springer,2006年)。
Q1 您在数据科学领域取得了众多令人瞩目的成就,可以和我们分享一下您最引以为傲的研究成果吗?
“我认为我最大的成就并不单单是某篇论文,而是形成了‘a body of language’(一套理论体系),就像我盖了一栋大房子,里面有各种东西,包括我的书。”
“我的学术生涯自1976年获得博士学位以来,已经有相当长的时间,期间取得了不少值得骄傲的成就。但如果要说最引以为傲的,或许是
我在1985年首次提出‘数据科学’这一术语
。那时我只有三十多岁,回想起来,真是充满趣味。严格来说,这算不上传统意义上的成就,更像是年轻时的一种‘远见’(Vision)。
我认为我最为人熟知的工作是关于EM算法收敛性研究的论文
《On the Convergence Properties of the EM Algorithm》
,该论文于1983年发表在统计学领域的顶级期刊《The Annals of Statistics》(统计学年鉴)上,也可以说是我的第一个成名作。
图1:1998年,吴建福教授受邀担任印度统计学院P. C. Mahalanobis纪念讲座主讲人,在印度统计学院拍摄的照片。
除此之外,我的另一项广泛影响的成果是我写的书
《Experiments: Planning, Analysis, and Parameter Design Optimization》
(实验:规划、分析与参数设计优化)。这本书超过700页,详细涵盖了实验设计、分析和建模的各个方面。书中不仅展示了我的研究历程,还回顾了从R. A. Fisher(现代统计学奠基人之一)到现代统计学的发展,讲述了与技术背景密切相关的理论演变。
图2:2011年,吴建福教授担任中国科学院“爱因斯坦讲席教授”,在北京拍摄的照片。
最近十多年来,我的研究重心转向了计算机实验,这与当前的人工智能发展密切相关。因此,我认为我最大的成就并不单单是某篇论文,而是
形成了‘a body of language’(一套理论体系)
,就像我盖了一栋大房子,里面有各种东西,包括我的书(图3及图4)。举个例子,我的书籍经历了多次修订,第一版于2000年出版,而第三版在2021年发布,加入了最近诸如计算机实验、最优设计等相关内容。”
图3及图4:吴建福教授的著作《Experiments: Planning, Analysis, and Parameter Design Optimization》(《实验:规划、分析与参数设计优化》),左图为2000年出版的第一版,右图为2021年出版的第三版。
“我的研究方向始终在不断变化,无论在哪个时代阶段开展研究工作,所涉及的理论始终是依托具体的应用背景产生的。”
“我的研究方向始终在不断变化,无论在哪个时代阶段开展研究工作,所涉及的理论始终是依托具体的应用背景产生的。在早期,我主要专注于
理论统计
,研究了一些高引用率的方法,例如EM算法和Bootstrap的相关新技术。提到Bootstrap,它可以视作生成AI的早期实例之一。Bootstrap通过现有数据进行生成,而现代生成AI通常依赖于更加庞大的数据集。
年轻时,我也参与了抽样调查以及一些基础理论研究,之后逐渐将研究重心转向
品质工程
。80年代,日本制造业卓越的品质管理引起了全球的广泛关注。我深感兴趣的是,为什么在产品设计和制造过程中能够取得如此优异的成果。
我的理论研究始终与实际应用紧密结合,这也是我在1987年获得COPSS (Committee of Presidents of Statistical Societies) Presidents' Award 的原因之一
。
COPSS (Committee of Presidents of Statistical Societies) Presidents' Award是统计学界最具权威性的奖项之一,专门颁发给40岁以下的统计学家,以表彰其杰出的研究贡献。获得此奖项代表该学者在统计学界被认为是前途无量的研究人才,是“青年统计学家”的最高荣誉。
Source: https://community.amstat.org/copss/awards/presidents
近期,我的研究重点转向
如何将统计思维与高速计算能力有机整合
。一般而言,深度学习通过近似处理得出某个特定点的值,从而快速给出解答。然而,这一解答的正确性和误差范围往往并不明确,因为深度学习并不具备随机模型的属性。而统计学恰恰拥有完善的随机模型。我当前的研究关注点正是如何实现统计思维与快速计算能力的有机融合,从而更有效地解决这一问题。”
“数字孪生不仅仅是创建一个复制品(copy),更重要的是它需要尽可能真实地反映现实世界的动态变化。”
“我是在回到中国后开始考虑做数字孪生相关的研究。
数字孪生本身是一个非常有前景的领域,尤其是去年美国科学院、工程院和医学院联合发布了一份重要报告,报告中重点讨论了数字孪生的未来发展方向。报告指出,
数字孪生的核心挑战之一是缺乏基础性的研究,大多数工作停留在监控(Monitoring)阶段。
比如说,针对银行账单处理流程的监控,这些更多依赖运筹学的模拟和离散事件的监控。更复杂的系统,如热能模拟,往往依赖计算流体力学(Computational Fluid Dynamics, CFD)进行动态仿真。
但对于一个复杂系统而言,
数字孪生不仅仅是创建一个复制品(copy),更重要的是它需要尽可能真实地反映现实世界的动态变化。
意味着,随着现实世界的变化,数字孪生也需要实时更新,因此它是一个双向反馈的系统。这种双向反馈机制,在理论上是一个挑战。
我认为,
数字孪生技术在中国有着巨大的发展潜力,可以走在世界的前沿。
中国在许多领域都迫切需要数字孪生技术,比如电网的监控。传统上,我们不可能爬上电线进行人工检查。但我们可以通过无人机收集电网的实时数据,创建一个电网的数字孪生模型。这样一来,我们就有了一个虚拟模型,它在每个阶段可以不断更新,并随时与真实世界保持同步。我们可以提前预测和解决一些潜在问题。比如,电网中一些杆架的材料或布局需要改进,这时可以先在数字孪生模型中进行模拟验证,再做出最佳决策。
现在国内的技术资源和人才储备足以让数字孪生在中国快速发展并取得突破。我希望国内的数字孪生技术能够不断创新,逐步走向全球前沿。”
“我在二十岁出头时成长于台湾。当时的我,像许多年轻人一样,对外部世界了解有限。通过自己大量阅读英文书籍,我逐渐意识到,
统计学的系统思维比纯数学更适合我。
统计学注重直觉性思维(Heuristics),这使我产生了浓厚的兴趣。
不同于纯粹的数学通过严密推理得出结论,统计学更侧重于通过数据探索客观世界的真相。
由于我们无法全面掌握所有数据背后的真相,统计学的许多方法和结论往往依赖经验法则(Heuristics)。这种基于经验和数据的推理方式,给了我一种全新的视角。
事实上,计算机科学中的很多问题也常常通过类似的启发式方法来解决。这让我更加意识到自己对这种思维模式的兴趣。
图5:1975年,吴建福教授在加州大学伯克利分校攻读博士学位期间,于加州拍摄的照片。
后来,我有幸进入一所优秀的学校攻读博士学位,遇到了许多出色的导师和同行,他们的指导和交流使我对这个领域有了更深刻的理解与探索。”
Q5 是什么原因让您选择加入我们数据科学学院呢?你对学院的未来发展有什么期待吗?
“我的最大感受是我们学校的体制比较开放。来到这里几个月,我深刻体会到了这一点,感觉非常舒适。这里的束缚较少,人际关系简洁而真诚,大家都乐于公开讨论、表达不同的观点。我相信你们同学在这里的学习体验也是如此。
学校为培养学生的国际视野和批判性思维,提供了一个极好的平台。
展望未来,我期待学院能够诞生在国内乃至全球产生深远影响的‘掷地有声’的研究成果。我相信我们学院具备实现这一目标的潜力。”
Q6 在您看来,学院在数据科学领域的优势和特色是什么?
“数据科学学院在将计算机科学、统计学与运筹学整合方面处于有利地位。我期待未来这三个领域能够展开更紧密的合作,发挥更大的潜力。”
“我们学院开创由计算机科学与技术、统计学和运筹学多学科交叉融合的数据科学学科。我相信,
这种多学科的相辅相成能够激发出新的火花
。让我详细说明一下:
统计科学不仅仅是数据的收集,更是从数据出发,深入理解其背后的深层含义。因此,统计实际上是一种归纳科学(Inductive Science),通过建模和观察数据进行深入分析。而演绎科学(Deductive Science)则侧重于通过设定假设和理论来验证现象,例如在排队论和供应链管理中,研究者通过观察和建模研究概率理论。然而,在大数据时代,归纳科学与演绎科学的界限逐渐模糊,这在运筹学领域尤为明显。
如今,许多运筹学研究也开始采用数据驱动(data-driven)的方法,进一步加深了统计学与运筹学的联系。
运筹学和统计学在同一学院内的结合较为罕见,但我们能够将这两者有机结合,这无疑形成了独特的优势。
另一个关键是我们对计算机科学的引入。计算机科学作为一个广泛的领域,涵盖了多个方向,而我们学院注重于机器学习和人工智能相关的研究。
这两个领域与统计学和运筹学有着紧密的联系,许多机器学习方法的理论基础源自统计学。
统计学奠基人之一R. A. Fisher,他的鸢尾花数据集已成为机器学习领域的经典数据集,为后续算法的验证与研究奠定了基础。此外,我还想特别提到另一位杰出的女性统计学家Grace Wahba,她是美国国家科学院院士,对机器学习的研究做出了重要贡献。
这些例子证明了,
数据科学学院在将计算机科学、统计学与运筹学整合方面处于有利地位
。我期待未来这三个领域能够展开更紧密的合作,发挥更大的潜力。”
Q7 对于数据科学学院的学生们,您有什么期望和建议吗?
“
作为港中大(深圳)这所开放且包容的国际化校园中的学生,首先需要着力培养独立思考以及独立行动的能力。
我们学院设有三个主要方向,各个方向都值得深入研习,以便开拓更为广阔的发展空间,而这全都有赖于你们所具备的独立思考和执行能力。
图6:2024年,吴建福教授接受SDS学生记者采访,在港中大(深圳)拍摄的照片。
其次,课堂学习一定要打下牢固的基础,因为这是构建你们核心能力的关键环节。同时,还应积极培养自己的专长。
我们的学生普遍具备较高的天赋,相信大家都有时间来充分利用这一优势。暑期实习是一个很不错的选项,不管是在国内还是在国外进行实习均可。要知道,深圳的一大优势在于此地拥有众多优秀的公司。深圳的私营企业颇具实力,许多优秀的本科生都能够获得不错的实习机会,例如鹏城实验室、华为等大型公司,这里的实习机会十分丰富。
我建议同学们在暑假期间可以开展一到两个实习,但要对实习机会进行精心筛选。好的实习可不只是做些基础工作,而是要能够让你真正接触并了解行业的实际运作机制。海外项目也是很好的选择,交流和交换项目都具有很高的价值。”
Q8 在学习数据科学的过程中,学生们应该注重培养哪些能力和素质?
“关于能力和素质,我想具体谈几点。首先,
扎实的数学基础非常重要
。在数学中,有几个领域尤为关键,特别是与分析学相关的部分,比如微积分。此外,线性代数也是一个关键领域。尽管我们生活在一个非线性的世界,理解这个世界往往需要借助线性工具。线性代数为我们提供了用线性模型近似和理解非线性现象的方法。
同时,
物理学也不可或缺。
我最近深刻感受到,某些物理是无法被人工智能(AI)替代的。
例如,量子力学和微分方程等领域。深度学习作为一种提供答案的工具,能够为某些问题提供近似解(approximation),但它无法真正理解事物背后的机制。这正是物理学的魅力所在。今年诺贝尔物理学奖颁给了两位人工智能领域的研究者,给了我们许多启发。
至于编程能力,我认为它并非学习数据科学的必备条件。如果你对理论知识有足够的掌握,就能够通过理论来驾驭计算。”
Q9 能否分享一些您在学生时代的学习经验和成长故事,给同学们一些启发?
“我学生时代有一段特别的经历,想与大家分享。在我攻读博士学位期间,有幸接触到一代统计大师Jerzy Neyman,他是加州大学伯克利分校统计学系的创始人。在那个网络尚未普及的年代,若想请Neyman看某篇文章,必须将油印的论文逐一寄给他。作为一名学生,当时我正好有较多的时间和精力,又是单身,生活几乎完全围绕学术研究。因此,我常常去阅读室,翻阅那些寄给Neyman的文章,直到将所有文章都读完。这些文章中,有许多是统计学界重量级人物所寄,数量相当可观,几乎装满了一个系里的房间。
在我当时的同学中,恐怕只有我一个人这么做,收获也极为丰富。
图7:1974年,吴建福教授在加州大学伯克利分校攻读博士学位期间,于加州拍摄的照片。
此外,我还会利用午餐时间,常常去统计系的咖啡室,聆听一些大师级教授们之间的研究讨论。这些讨论往往比课堂上的讲授更有启发性,也让我受益匪浅。”
-END-