评价过万的“爆款”也坑爹？网购达人们，别被总数冲昏了头

果壳 · 公众号 · 科学 · 2017-10-20 18:18

正文

作者：性感的小脚脖

编辑：odette

精通网购的人越来越多，大家都习惯了这个更“透明”的购物环境： 东西买不买，先看看评价怎么样。 评价数多不多？好评有多少？眼睛划拉一遍，一件商品的好坏在我们心中也有了拿捏。

然而，近期一项发表于《心理科学》（Psychological Science）的研究[1]却显示，普通消费者对待商品评价的方式，可能会导致大家做出不理性的购买决定。这项研究的第一作者是斯坦福大学心理系博士后德里克•包威尔（Derek Powell）。

图片来源：123rf.com.cn正版图片库

这个研究发现，人们在网购中过于看重一件商品有没有足够多的评价数，而相对看轻这件商品的评分有多高。换句话说， 在相同的条件下，消费者更加青睐销量可观的“爆款” （尽管评价数多，但评分却可能较低）， 而不愿为那些“叫好而不叫座”的商品打开荷包 。

然而，商品评价数与其质量好坏并无直接关系。相反，一个拥有大量评价的低分商品，比一个仅有少量评价的低分商品，分数要“低”得更为稳定一些。因此， 过于看重评价数，可能会让我们买到一件糟糕的商品。

“爆款”还是“好评”

消费者喜欢哪一个？

在开始实验之前，研究者先从亚马逊网站上收集了356619件商品的共计15655439条评价，这些商品主要来自手机、电器、餐厨、健康与美容四个类别。

通过分析这些现实中的数据，研究者完成了两项工作。首先，他们证明了 一件商品的流行度（即评价数）与其本身的质量和消费者满意度（即评分）之间没有什么关系 。其次，通过贝叶斯建模的方式，研究者推算出了一个理性的消费者在不同的评价数和评分基础上 “应该”做出什么样的决策 。这样，他们就为可能出现的不同实验结果提供了一个可供比照的标准。

随后，研究者招募了138名成年被试，让他们在一系列配对商品之间评估自己更愿意买哪一件。其中一件商品只有较少的评价数（大约25个），评分在2.7～4.6分之间波动；另一件商品则有大量的评价（大约150个），并且它的评分在一半的情况下要高于评价少的商品，而在另一半的情况下则评分更低。

被试需要在一系列配对商品之间评估自己更愿意买哪一个，每个商品都有“评价数”与“评分”两个维度。例如，左边的商品H的评价数有145条，评分是2.7；右边的商品F的评价数有20条，评分是2.4。图片来源：文献[1]

研究者关心的是，被试在评价数与评分各异的商品之间会如何选择。结果发现， 被试对评价数多的商品存在很明显的偏好 。

当两个配对商品的评分都较高时（4.6分），被试选择评价数多的商品的概率接近95%。这一结果比较符合我们的直觉，那些 评价好销量又多 的商品，我们确实更愿意购买它们。

但有趣的是，如果两个商品的评分都很低（2.7分*），被试仍然有 接近90% 的概率会选择评价数多的那一个。

*注：研究者分析了亚马逊上的真实数据，发现不同类别商品的平均评分在3.73～4.10之间波动，其中手机类3.73分，电器类3.92分，餐厨类4.09分，健康与美容类4.10分。因此，2.7分是一个比较低的评分。

这个事情就非常诡异了。要知道， “由150个评价得到的低分”与“仅由25个评价得到的低分”，虽然评价都不高，却有着本质区别 。依据统计学原理，前者由于样本量大，因此所得到的是 一个非常稳定的“差评” ；而后者由于样本小，“差”的结果有可能 只是误差导致 。

换句话说，基于大量消费者评价的差评商品， 一定会很差 ；而基于少量消费者评价的差评商品， 则可能很差也可能还行 。

——然后买家宁愿选择“稳定的差”，也不愿意冒险选择“可能只是误差的差”啊？？

然而，更糟糕的情况是，相比于2.7分的低分商品，一件商品 只要评价数足够多，哪怕评分更低（2.4分），被试还是会有超过40%的概率选择它 。可见，消费者在网购中对爆款的偏好是较为明显的。

人们为什么热爱“爆款”？

在整个实验中，贝叶斯模型对被试行为的拟合度只有0.17，也就是说，他们在实验中的实际表现，与模型所得到的“利益最大化”的答案相去甚远。

评价过万的“爆款”也坑爹？网购达人们，别被总数冲昏了头

正文

请到「今天看啥」查看全文