AI解决复杂问题的能力取决于若干因素,这些因素可能提高(也可能降低)AI的有效性。其中,最关键的因素包括:是否有可用的高质量数据、潜在解决方案的数量、目标是否清晰,以及需要适应不断变化的评判系统。当这些要素缺失或定义不清时,就会带来挑战。
AI的发展突飞猛进,它的潜力能带来变革,让研究人员、产品团队和终端用户都为之着迷。不过,
尽管AI大受欢迎,但它只能解决非常具体的问题。
在这篇文章中,我们将提供指导,帮助企业了解什么问题适合利用AI解决,什么不适合。这样,当企业面临的问题与AI所擅长的能力不一致时,企业仍然能找到解决方案,并在克服这些障碍后,找到更多能为企业和社会带来更大利益的AI项目。
我们以谷歌DeepMind为例,DeepMind是Alphabet的AI实验室,致力于解决现实世界中极具挑战性的问题。笔者中的三人(保罗·切尔维尼、基娅拉·法罗纳托和马歇尔·范阿尔斯泰因)从事针对科技平台发展的学术研究,也在多个领域中对AI进行了创新实践,并从中汲取了专业知识。除此之外,作者之一的普什米特·科利在谷歌DeepMind工作,拥有第一手经验。
以下内容可以判断AI是否适合解决某个问题,但我们并没有提供一个包含所有判断标准的清单。尤其考虑到,这些判断标准可能因不同的AI应用领域而有所不同。我们最主要的目的是找到最为关键的判断标准。
AI解决复杂问题的能力取决于若干因素,这些因素可能提高(也可能降低)AI的有效性。其中,最关键的因素包括:
是否有可用的高质量数据、潜在解决方案的数量、目标是否清晰,以及需要适应不断变化的评判系统。
当这些要素缺失或定义不清时,就会带来挑战。我们需要用创新的方法来克服这些挑战。以下是出现这四种要素和挑战时应采取的措施:
1、缺乏高质量数据
数据是任何AI模型最关键的输入,但数据规模往往比数据质量更受关注。虽然,大语言模型(LLM)的发展趋势表明,不断增加的数据量可以帮助获得高质量模型和输出结果,但这种趋势是否会继续保持下去仍有待探讨。
事实证明,数据质量与数据规模同样重要,甚至比后者更重要。某些情况下,如果你有一个相对较小但质量很高的数据库作为起点,你甚至可以通过生成虚拟数据来增加数据的规模。
这就是研究AlphaFold的团队最初面临的情况。AlphaFold是谷歌DeepMind的突破性技术,可以准确预测蛋白质结构的三维形状。这项技术正在加速几乎所有生物学领域的研究。
2017年,AlphaFold处于初始开发阶段,开发团队仅掌握了约15万个3D蛋白质结构数据点。这些结构是几十年来通过昂贵且耗时的技术手段(如X射线晶体学或冷冻电镜),运用实验确定的。(单一蛋白质结构需要至少一位博士生来研究)对于机器学习系统来说,这只是一个很小的数据集。
不过,研究团队通过预测未知的蛋白质序列的结构,成功地扩充了这些数据。他们构建了一个AlphaFold的原型版本来实现这一点。这个版本足够强大,能够生成一百万个新折叠蛋白质的预测结果。
接着,团队使用这个版本的AlphaFold来评估自身的预测结果有多准确。通过这个自我提炼过程,团队将得分前30%的预测结果重新加入训练模型的数据集中,与真实数据一起使用。这样,数据集的规模就扩展到了约50万个折叠蛋白质,足以训练出一个最终版本的AlphaFold。
需要注意的是,尽管在当时的情况下,这种训练方法的效果显著,但必须非常谨慎地用生成的虚拟数据来训练模型,因为可能会造成递归学习的风险:
即用过去模型迭代的预测结果作为输入来影响后续迭代,会放大前一轮模型迭代中传递下来的错误和不准确性,导致模型的性能下降。
但是,如果一开始使用的数据集非常大但质量很低,那么想要通过合成数据来提高数据质量就会非常困难。从互联网上抓取的数据——可能包含各种信息、格式、语言、主题和方式,就属于规模大但质量低的数据集。多数情况下,尝试提升其质量并不值得,因为需要花费大量的努力和时间。且在这种数据集中,模型也找不到合成数据的“正确答案”——比如,当询问哪个食谱能做出完美的比萨时,答案最可能是“这取决于情况”。这种细微差别和对上下文的需求,使得模型无法结构化语言和常识,从而难以创造出高质量的数据集。
2、潜在的解决方案太多
当一个问题有太多解决方案时,想要通过“蛮力”的方法——穷举测试所有的答案组合来解决问题,就变得不切实际了。从历史上看,这种问题一直是通过启发式的方法来解决的:用一些简单的规则,找到能满足大多数情况的“足够好”的解决方案,而不是最优解。
针对有无数解决方案的复杂问题,运用AI是一种前景广阔的选择。然而,随着潜在解决方案越来越多,如何验证每个方案的质量也变得更加困难。例如,LLM擅长生成有创意和多样的答案,但也面临着“幻觉”现象的问题,即生成与事实不符的信息。这削弱了人们对其的信任。因此,
找到方法,确保LLM生成的解决方法是正确的、可验证的,已成为推动LLM能力发展的关键。
3、缺乏明确的、可衡量的目标
目标函数(也称为奖励函数)是AI模型试图实现的目标或输出。换句话说就是,我们要向模型提出正确的问题。确定“你希望模型做什么?”是任何机器学习系统中最困难的部分之一。以象棋或围棋等游戏为例。这些游戏有清晰且可衡量的目标,比如分数或一套决定胜者的规则,而且迭代成本低,让AI能快速学习。
但在现实世界中,目标通常是复杂且无序的,我们没有一个简单的度量标准来衡量进展。如果没有明确且可衡量的目标,定义“好”的标准就会变得困难。目标越模糊,模型的表现就越差。
回到AlphaFold的例子。生物学中,蛋白质折叠有明确且可衡量的目标,而AlphaFold的目标是将实验检测出的3D折叠蛋白质结构与计算预测出的结构之间的差异最小化。衡量成功的一个好方法是,每两年举行一次的结构预测关键评估(Critical Assessment of Structure Prediction,CASP)竞赛。这项赛事类似于蛋白质折叠的“奥运会”,它汇集了来自世界各地的最优秀的团队,互相比较预测蛋白质结构的计算方法。参与这一竞赛,让AlphaFold的研究团队能够获得对模型表现的客观“评分”,并与其他团队进行比较。
向AI给出清晰的目标和衡量标准是一个挑战。
尤其是在社交媒体等环境中,“参与度”常常被看作是衡量项目成功与否的指标,通过点赞、分享、评论或在平台上花费的时间来衡量。优化参与度可以推动用户活动和收入,但也可能带来意想不到的后果。比如,它可能会放大极端思想,或传播耸人听闻的内容、虚假信息等,抑或是鼓励成瘾行为,伤害用户的长期福祉。
这些陷阱突显了设计多目标优化框架的重要性,该框架可在参与度和其他关键指标之间取得平衡,例如内容的准确性、观点的多样性和用户满意度等。在简单的评判指标外,纳入人类反馈、道德准则和更广泛评估标准,有助于让AI生成有意义且可持续的结果,同时避免造成伤害。
4、当“好”无法被写进代码里
组织面临的问题通常是动态变化的。加上前述的无法简单识别某个解决方案是否有效,AI可能会有逐渐偏离最佳答案的风险。为了克服这一挑战,越来越多的技术开始采用带有人类反馈的强化学习(RLHF)。
这种“人类参与”的技术使得模型能够从数据之外的人类洞察中学习。RLHF特别适用于那些AI难以基于清晰算法编写解决方案,但人类能够直观地判断模型输出质量的情况。
DeepMind最近与YouTube Shorts团队的合作就是一个很好的例子。由于短视频的制作通常较为迅速,创作者在视频标题或描述中往往只添加少量信息,使得观众很难找到他们想看的短视频。
生成准确的视频描述是AI要解决的问题:每个视频都是独特的,通过启发式方法生成的通用描述只能用来大致地分类视频(例如,它是一个体育视频或园艺视频),但不足以在个别层面上提高
视频的独特性。然而,详细且个性化的视频描述才是观众找到他们喜爱的内容的前提。
人类擅长凭直觉判断什么是一个“好”的视频描述。而计算机历来很难做到这一点,所以也很难为每个视频都编写出“好”的描述。通过直接将人类反馈输入到模型的下一轮迭代中,模型能够通过试错学习,直观地掌握什么样的描述是“好”的,并不断地优化它。模型通过不断学习和适应新信息,使得它能够随着社会审美和规范的变化而不断进化。
谷歌DeepMind与YouTube产品团队合作,部署了一个生成式AI模型,能够为每个视频生成文本描述,这些描述被存储在YouTube的系统中,来为用户提供更好的搜索结果。这个解决方案现在已经应用到所有新上传的YouTube短视频中。
企业可以利用上述标准来确定,什么问题适合用AI解决。接下来要做的就是,
从符合标准的大量AI应用机会中做出选择。
根据解决方案的影响力和范围来确定部署AI的优先级,不仅对谷歌有用,对整个社会也很有帮助。
DeepMind团队将这种方法称为“根节点问题”(root node problem)。可以把世界上的所有知识想象成一棵巨大的树,树枝代表不同的领域。在这棵树中,每个“节点”是一个连接点,像一块垫脚石,引导到其他分支。根节点是这棵树的起点——一切其他事物生长的原始位置。如果解决了一个根节点问题,就会衍生出全新的研究领域和理解,这些新的领域又为探索和创新应用开辟了全新的道路。
AlphaFold项目很好地契合了这一标准,因为解决蛋白质折叠这一重大挑战不仅能推动更好的药物发现进展,如疟疾疫苗和癌症治疗药物,还能促进其他领域的发展,如开发能降解塑料的酶来应对污染问题。
在AlphaFold发布之后,马克斯·普朗克发展生物学研究所(the Max Planck Institute for Developmental Biology)的进化生物学家安德烈·卢帕斯(Andrei Lupas)在《自然》杂志中写道:“这将改变医学,改变研究,改变生物工程,改变一切。” 2024年,诺贝尔奖委员会授予德米斯·哈萨比斯(Demis Hassabis)和约翰·朱珀(John Jumper)诺贝尔化学奖,表彰他们在开发AlphaFold中作出的巨大贡献。
为了找出根节点问题,公司应当安排AI专家与其他领域专家之间进行讨论。早期的DeepMind团队就已经运用了这种方法。除了机器学习之外,团队特意聘请了大量来自不同学科的人才,涵盖了生物化学、物理学、哲学和伦理学等。这种多元化的专业背景可以激发不同学科之间的思想碰撞,找到解决问题的新方式。
一旦组织确定了根节点问题,产品团队就会战略性地选择要部署哪些AI,并开始产品化过程。
产品化时,应避免两大风险。
第一,仅关注公司已确定能着手解决的根节点问题和其涉及的领域。
这种做法可能会错失重大机会。2020年AlphaFold发布时,谷歌内并没有适合的产品团队来有效利用其研究成果(例如新的药物化合物)。对此,Alphabet创建了Isomorphic Labs,专注用AI发现新药物。这个项目可以完全由公司建立,也可以通过战略合作伙伴关系实现。关键在于,创立Isomorphic Labs使研究和产品部门整合为了一个新公司,能够促进两者之间的快速发展。
第二个风险是,以为自己可以预测技术的演进,预见新的应用场景。
与其遵循一个确定的路径,组织应保留自己的选择权,拥抱不确定性,允许AI解决方案的不断演变,响应技术进步和用户需求,并确保在整个过程中持续收集反馈。
随着AI的不断发展,组织在部署AI时必须深思熟虑。本文提供了一个战略框架,以找到适合用AI解决的问题——这些问题与AI的优势相吻合,解决它们将为创新和影响开辟出令人惊喜的新路径。通过关注根节点问题并促进跨学科的合作,组织不仅能有效地利用AI推动商业增长,还能推动社会进步。
关键词:
AI
保罗·切尔维尼(Paolo Cervini)基娅拉·法罗纳托(Chiara Farronato)普什米特·科利(Pushmeet Kohli)马歇尔·范阿尔斯泰因(Marshall W. Van Alstyne)| 文
保罗·切尔维尼是AI、可持续发展和企业创新领域的战略顾问。此前,他是《哈佛商业评论》意大利版的内容协调员。基娅拉·法罗纳托是哈佛商学院格伦和玛丽·简·克雷默工商管理副教授,也是哈佛大学数字设计研究所 (D^3) 平台实验室的联合首席研究员。她还是美国国家经济研究局和经济政策研究中心的研究员。普什米特·科利是谷歌DeepMind的科学和战略副总裁,领导AI科学研究项目,包括AlphaFold、SynthID等。马歇尔·范阿尔斯泰因是波士顿大学奎斯特罗姆商学院教授、麻省理工学院数字经济计划的数字研究员,以及哈佛大学伯克曼·克莱因中心的访问学者。