专栏名称: 哈佛商业评论

《哈佛商业评论》( Harvard Business Review，简称 HBR )创建于1922年，是哈佛商学院的标志性杂志，被全球商界誉为“管理圣经”，众多耳熟能详的管理思想家、管理理论均出自《哈佛商业评论》。更多管理智慧，请登录官方网站：www.hbrchina.org。

数据驱动型决策中，存在着五个陷阱

哈佛商业评论 · 公众号 · 商业 · 2024-10-31 08:00

主要观点总结

本文强调了数据分析在决策中的重要性，提出了一些常见错误及解决策略。如样本量对估计精确度的影响、如何避免决策中的因果性与相关性混淆等。

关键观点总结

关键观点1: 无论证据来自外部研究还是内部数据，全面彻底的研究分析都是做出重大决策的关键。

不重视证据的全面性分析可能导致决策失误。

关键观点2: 先入为主的观念、不恰当的类比和群体思维往往主导对证据的讨论，心理学和经济学的研究表明一些偏见也会阻碍对证据的系统性评估。

需要警惕这些潜在的偏见并采取措施避免它们影响决策过程。

关键观点3: 管理者在决策时应考虑研究的内部和外部有效性，关注因果关系，避免将相关性误认为是因果性。

需要深入探讨相关研究的实施方式以了解真正的因果关系。

关键观点4: 样本量对估算精确度的影响不可忽视，小样本更可能表现出较大的统计波动。

需要关注样本量，并对其进行适当的控制。

关键观点5: 鼓励多元视角的参与和讨论，消除集体思维，避免过度依赖领导者的意见。

心理安全感是确保有效讨论的重要因素。

正文

请到「今天看啥」查看全文

无论证据是来自外部研究还是内部数据，在做出重大决策之前，对其进行全面彻底的研究分析都是至关重要的。在我们与多家公司（包括数据量庞大的科技公司）的互动中，我们注意到这种做法并没有得到始终如一的贯彻。先入为主的观念、并不恰当的类比以及群体思维往往主导着对证据的讨论。心理学和经济学的研究表明，一些偏见（例如基础比率谬误，即倾向于忽视一般统计信息而偏好具体案例或小概率事件，以及确认偏差，即倾向于寻找并偏重支持现有观念的证据）也会阻碍对证据的系统性评估。但这些错误模式并非不可避免。基于我们的研究、与公司的合作以及我们的教学经验（包括领导力和商业分析方面的高管教育课程，以及最近开设的名为“数据驱动型领导力”的MBA课程），我们总结出了一种可以被管理者们应用于数据讨论的普遍方法，帮助他们更好地做出决策。

检验因果关系有效性

搜索引擎广告会增加销售额吗？允许员工远程工作是否会降低员工流失率？这些问题涉及因果关系，也正是数据分析能够帮助回答的问题类型。事实上，已有许多论文对这些问题进行了详尽的研究。然而，管理者们却经常误解这些研究和其他研究的结果如何适用于他们自己的业务情况。在做决策时，管理者们应该考虑这些结论的内部有效性——分析它们是否在所研究的场景中准确地回答了问题。他们还应该考虑这些结论的外部有效性——在多大程度上可以将它们从一种场景推广到另一种场景。这将帮助管理者们避免决策过程中五种常见的错误：

将因果性与相关性混为一谈。 尽管大多数人都知道关相关性不等同于因果性，但这种错误却出乎意料地常见。以eBay的广告策略为例：多年来，该公司一直在谷歌等搜索引擎上投放广告，希望通过吸引更多客户来增加需求量。一份咨询报告指出，当一个市场上出现更多eBay广告时，这个市场中用户在eBay上购买的总价值就会更高，因而得出这些广告有效的结论。可惜的是，这份报告的结论是错误的。加州大学伯克利分校史蒂文·塔德利斯（Steven Tadelis）领导的经济学家团队进行的一项实验，让eBay公司最终意识到这些广告与需求量之间只是关联关系，因为这些广告针对的是本来就很可能会访问eBay的人群，以及在即使没有广告的情况下，对eBay需求也会激增的市场。

要了解因果关系，就要深入探讨相关研究的实施方式。例如，研究人员是否进行了随机对照试验，将受测试人群随机分配到两组：实验组接受干预条件，对照组则不接受？随机对照实验通常被认为是评估因果关系的金标准，不过这样的实验并不总是实际可行的。研究人员也许会选择通过自然实验来观察某一事件或政策变化对特定群体的影响。例如，如果进行一项衡量某项福利影响的实验，研究人员可以通过抽签选出福利的受益人，然后比较这项福利如何改变了中签者和未中签者的境遇或行为。

没有机会进行计划实验或自然实验的研究人员，可以在数据分析时尝试控制潜在的混杂因素——那些影响被关注变量的变量，虽然这在实操中可能会具有挑战性。例如，如果要评估培训项目对生产率的影响，就必须确保在数据分析中控制了先前经验以及其他可能影响生产率的因素。

低估了样本量的重要性。 设想有两家医院：一家是每年接生数千名婴儿的大医院，另一家是每年接生几百名婴儿的小医院。你认为哪家医院的男婴出生率超过60%的天数会更多？

答案是小医院，因为它每天出生人数的变化更大。而小样本量则更有可能表现出更大的统计波动。心理学家丹尼尔·卡尼曼（Daniel Kahneman）和阿莫斯·特沃斯基（Amos Tversky）在他们关于认知偏见与启发法的经典著作中发现，大多数人对于该问题的答案都是错误的，会有一半以上的人说“差不多”。人们往往低估了样本量对估算精确度的影响。这种常见错误会导致糟糕的决策。无论是想知道该在多大程度上相信线上评论、如何解释生产力趋势背后的动因，抑或是要给予广告实验结果多大的权重，被分析的样本量都是需要考虑的重要因素。

在评估因果关系中的“果”时，除了要询问样本量大小，对置信区间的询问也会有所帮助。置信区间提供了一个真实效果（去除了混杂因素的影响）可能所在的数值范围，以及对其所在该范围内的确定程度。这些问题的答案应该会左右你将采取哪种行动方案的讨论。

关注了错误的业务成果。 罗伯特·卡普兰和大卫·诺顿在1992年发表在《哈佛商业评论》上的经典文章《平衡计分卡——驱动绩效的指标》（The Balanced Scorecard—Measures That Drive Performance）中，以一个简单的观点开篇：“你衡量什么，就会得到什么”。虽然他们的文章发表于现代数据分析时代之前，但这一观点在如今比以往任何时候都更加贴切。实验和预测性分析通常会关注那些容易衡量的结果，而不是那些公司领导者真正关心却很难甚至无法确定的业务成果。因此，所选择的成果指标往往不能完全反映公司运营的普遍绩效。

同样重要的是，要确保所研究的成果能够很好地代表实际要考量的机构目标。有些公司只跟踪了几天的实验结果，就认为它们是长期效果的有力证据。在针对某些问题和场景时，短时间的跟踪很可能是不充分的。亚马逊就是一家努力避免这一问题的公司：它投入巨资来探索可能的产品变化所产生的长期成本和收益。对业务成果的相关性和诠释的评估方法有很多，从明确讨论其局限性到正式分析短期效果与长期效果之间的关联等，不一而足。

要想真正从任何数据集中有所收获，你都需要问一些基本问题，比如：我们都衡量了哪些业务成果，是否包含了所有与我们必须做出的决策相关的成果？它们是否足够概括，以至于我们能够捕捉到关键的预期与非预期后果？对它们跟踪的时间长短是否恰当？

误判了普遍适用性。 以仓库员工工资增长为例，一个至关重要的问题是，针对一组仓库研究所得的结果对另一组仓库意味着什么。此外，公司可能希望了解这些结果如何适用于在餐厅或零售店等不同环境工作的员工。

我们看到公司领导者们在判断普遍适用性时，往往会走向两个极端，过高或者过低估计了研究结果的适用性。例如，当一家大型科技公司的工程高级副总裁告诉我们，他的公司规定在招聘工程师时不考虑大学成绩时，我们向他询问了这样做的理由。他说，谷歌已经“证明了成绩并不重要”——指的是他在某处读到的谷歌某高管声称学校成绩和职业发展之间没有关联的评论。他把这条信息当成了放之四海而皆准的真理，实际上却忽视了这一结论的内部和外部有效性的潜在局限性。

在评估研究结果的普遍适用性时，针对可能解释该结果的机制以及这些机制是否适用于其他情况的讨论，可能会有所帮助。你可能会为此提出诸如以下的问题：这项研究的设定与我们的业务有多相似？分析的背景或时段让研究结果与我们的决策更加相关或更不相关？所研究样本的构成情况如何，及其对研究结果的适用性有何影响？产生的效果在不同的子群体之间是否有所不同？

偏重于某个具体结果。 盲目依赖于单一经验性发现而不对其进行系统性讨论，就像轻率地认为其与你的情况无关而不予考虑一样不明智。为避免这一错误，你有必要去查看关于这一主题的其他研究。另一个不错的选项是在你自己的机构内进行实验或更深入的分析。而你需要提出的问题应包括：是否有其他分析验证了这些研究结果和研究方法？我们还可以收集哪些额外的数据？以及，收集更多证据产生的效益是否会超过与其相关的成本？

从勇于发表意见开始

1906年，弗朗西斯·高尔顿爵士（Sir Francis Galton）对一次畜牧展览会中猜测公牛体重的比赛结果进行了数据分析，其结果意义深远。虽然每个人猜测的重量误差大小各异，但猜测的平均值却几乎精准无误，这一结果展示了群体智慧的威力。然而，驾驭这种智慧却是一个挑战。群体智慧发挥出最佳表现时，往往是因为其建立在鼓励积极主动和多元参与的机制之上。否则，群体也可能会放大偏见——尤其是当他们的观点同质化时。

为了克服偏见，公司领导者可以邀请具有多元视角的人员参与讨论，要求他们质疑观点并加以拓展改进，同时确保讨论是基于高质量的数据并能够进一步深挖。[请参阅大卫·盖文（David A. Garvin）和迈克尔·罗伯托（Michael Roberto）于2001年9月在《哈佛商业评论》发表的《关于决策，你所不知道的秘密》（What You Don’t Know About Making Decisions）一文。]对不同意见和建设性批评的鼓励有助于消除集体思维，帮助团队更好地预见意外后果，并避免过度依赖领导者的意见。领导者还必须促使与会者考虑决策对不同利益相关者的影响，并有意识地打破各自为政的孤立视角。

这类讨论有助于确保团队对证据进行深思熟虑的权衡。但是，即使看起来富有成效的讨论也常常会偏离正轨。无数研究表明，机构中的等级制度会导致人们隐瞒自己的不同意见，当与会者没有心理安全感时，他们往往不愿分享潜在的相关数据或提出更深入的问题。我们这里所说的心理安全感，是指与会者相信坦诚是理所应当且不受惩罚的。没有必要的心理安全感，我们阐述的方法就不太可能奏效。

当团队成员认为他们提供的数据、想法、顾虑以及不同观点会受到同事和管理者的重视时，团队将会从中受益。最重要的是，在许多讨论中，与会者都应将提出探究性问题视为自己工作的一部分。

从数据到决策

面对不确定性，决策必然是一个迭代的过程；它需要定期暂停，对决策的信息和过程进行反思。高效的团队会从数据中学习，相应地调整计划，并有意识地提升团队讨论的水平。

花时间去讨论分析中的细微差别（包括样本大小和构成、所衡量的业务成果、为区分因果性和相关性所采用的方法，以及分析结果在多大程度上可以适用于不同情境），对于理解证据如何能够，或不能，为特定决策提供依据至关重要。其实，经过仔细斟酌，每项实证结果都揭示了决策拼图的一部分，能够帮助公司理清不同的变化是否以及何时可能会产生影响。这些讨论还将为公司更加严谨地收集数据奠定基础。

即使在理想情况下，证据也很少是确定无疑的，而一项商业举措将如何发挥作用也是不确定的。但是，你仍然可以力求在现有或可能获取的信息基础上，做出深思熟虑的选择。通过采用系统性方法来收集、分析和解释信息，你可以更有效地从不断增加的内部和外部数据中获益，并据此做出更明智的决策。

迈克尔·卢卡（Michael Luca）艾米·埃德蒙森（Amy C.Edmondson）| 文

迈克尔·卢卡是约翰·霍普金斯大学凯瑞商学院工商管理学教授兼技术与社会倡议主任。艾米·埃德蒙森是哈佛商学院诺华领导力与管理学教授。她的最新著作《正确的错误：成功失败的科学》（Right Kind of Wrong: The Science of Failing Well）由阿特里亚图书出版社（Atria Books）于2023年出版。

DeepL | 译张矩 | 校译廖琦菁 | 编辑