专栏名称: 数据冰山
透过数据挖掘与分析,呈现互联网海面下隐藏的冰山一角
目录
相关文章推荐
数据派THU  ·  【NeurIPS2024】CA-SSLR:面 ... ·  4 天前  
大数据分析和人工智能  ·  太真实了 ·  5 天前  
51好读  ›  专栏  ›  数据冰山

吉利博越消费者洞察:守成与纳新

数据冰山  · 公众号  · 大数据  · 2017-07-18 17:13

正文

博越是吉利于2016年3月上市的一款紧凑型SUV,在上市后销量一路上扬,至2016年底月销量已经突破两万辆,并且在2017年1月至5月,其月销量一直保持在2万辆以上。2017年5月,博越的销量达到21142辆,名列当月全国SUV市场销量第5。


另外,在各大汽车论坛中,博越论坛格外活跃。在一面数据汽车产业SAAS数据监控平台上发布的各个车型的汽车论坛热度排行中,博越长期位居紧凑型SUV第一:



本文从汽车论坛的线上数据出发,按照车友的关注点对他们进行聚类细分,并以此为基础,分析各类消费者群体对博越的满意程度,提出进一步扩展潜在消费者的建议。


消费者群体细分

我们抓取了从2017年1月1日至5月29日博越论坛的所有帖子和参与发帖的用户信息。1月至5月期间,博越论坛总计发帖218万,参与发帖的用户数7.2万人,其中有效提及博越相关信息的用户数2.2万人。

为了解这2.2万用户对于博越的关注点,我们对有效提及博越相关方面的每一条评论做了情感分析,分别在价格、外观、内饰、空间、舒适性、动力性、安全性、操作性及油耗等9个不同维度上对相关评论做了情感判断(-1为负面,0为中性,1为正面),并在用户的层面对这些信息加以整合。

我们尝试使用聚类算法来对具有相似关注点的消费者进行细分。然而,情感分析得出的9个维度提高了消费者特征的复杂性,对聚类结果的可解释性带来了一定的困难。

因而,我们在使用聚类算法之前首先对9个维度做了降维处理,即用较少的维度来表示原始的较多维度的数据。下图展示了9个维度提及量之间的相关性(红色相关度最高,蓝色最低):

可以看到,所有维度之间的相关性都比较高(> 0.35),这说明如果某个用户在某个维度上的评论较多,该用户也会倾向于在其他维度发表较多的评论。

更重要的是,除了普遍相关之外,一些维度之间具备更高的相关性,显示出“结块”的特征。例如,内饰、外观、空间和舒适性相互之间的相关性比较高,而动力性、安全性、操作性和油耗之间的相关性比较高。

接着,我们使用PCA降维算法提取了这9个维度背后隐含的3个因子:

所提取的三个因子分别解读为价格、体验和性能。

其中,外观、内饰、舒适性和空间在体验这一因子上的负荷较高,被归入体验因子;动力性、油耗、安全性和操作性在性能这一因子上的负荷较高,被归入性能因子;价格单独归入价格因子

这一结果和我们之前对Jeep自由光潜在消费者的关注维度的分析一致,也比较符合人的直观感觉,因而价格、体验和性能大致反映了汽车消费者关注的三个大方向。

在做了降维处理之后,考虑到大量用户发言较少,而少部分用户发言较多的特点,价格、体验和性能这三个维度上都呈现出长尾分布的特点。所以在做聚类分析前,我们先对三个维度做了log化处理,并对每个维度做了标准化,以得出更均匀的分布,并且使得聚类结果不受数值绝对大小的干扰。

预处理之后,三个维度的用户分布如下:


接着使用K-means算法对用户聚类:当类的个数达到5个时,类内部的误差平方和(SSE)较低,并且有较好的可解读性。聚类之后的用户分布如下:

这五类用户的特征和典型用户代表如下:

1)紫色,在价格、体验和性能三方面的关注度均较低,可以记作“低关注用户”;

-- 用户A是一名低关注用户,宁夏人,2017年总共在博越论坛上发言两次,一次是关于外观前脸,评价正面;另一次是关于空间,认为后备箱略小;

2)深蓝色,这类用户对性能和体验的提及量比较大,但是对价格提及量很低,说明这类用户不太在乎价格的高低,而更在乎汽车本身带来的体验和性能的好坏,可以称为“尊享型用户”;

-- 用户B是一名尊享型用户,江苏人,2017年总共在博越论坛上发言42次,其中关于性能的发言28次,关于体验(主要是舒适性和内饰)的发言13次,而关于价格的发言只有1次;

3)墨绿色,这类用户对于价格的提及量较大,而且平均而言,对体验和性能的提及量也不小,记为“高关注用户”;

-- 用户C是一名高关注用户,山东人,2017年总共在博越论坛上发言72次,其中关于性能(集中在油耗和动力性)的发言30次,关于体验(主要是外观和内饰)的发言33次,关于价格的发言也达到9次;

4)浅绿色,这类用户对于性能有较高的提及量,但是对价格和体验的提及量较低,称为“性能敏感型用户”;

-- 用户D是一名性能敏感型用户,北京人,2017年在博越论坛上发言12次,其中11次都谈及博越的性能(主要是动力性),其余1次谈及价格;

5)黄色,这类用户对于体验的提及量较大,但是对价格和性能的提及量较低,称为“体验敏感型用户”;

-- 用户E是一名体验敏感型用户,甘肃人,2017年在博越论坛上发言20次,其中谈及体验(外观、内饰和空间)17次,而谈到价格和性能的分别只有1次和2次。

这五类用户的人数占比如下:


低关注用户的比例最高,占到一半以上;其次是性能敏感型用户和体验敏感型用户,分别占到19%和11%;接着是尊享型用户,占到10%左右;高关注用户占比最低,约为4%。


消费者满意点:外观及配置

上述聚类是基于论坛用户的提及量的,反映了不同用户的关注点之异同。接下来我们关注这几类用户在价格、体验和性能相关维度上的情感评分:

首先,各类用户对于博越的价格、体验和性能上的评价基本都为正面,即便是评分最低的低关注用户,其平均情感评分都在0以上。

其次,各类用户的情感评分基本上跟其对各维度的关注度一致。例如,尊享型用户对体验和性能的关注度比较高,其对二者的评价也较高;体验敏感型用户对体验的关注度较高,其对体验的评价也明显高过对价格和性能的评价。

唯一的例外是性能敏感型用户:虽然这类用户对于博越性能有较高的关注度,但这类用户对性能的评价却没有相应的优势。这意味着,这类用户对性能的关注度并未转化成为口碑。通过加强对博越相关性能的宣传,可以达到将这部分关注转化为口碑的目的。

最后,在这五类用户中,对博越整体评价最高的为尊享型用户和高关注用户。这两类用户对博越的具体的细分维度的满意度和关注度如下:

可以看到,除了噪音情况以外,这两类高满意的用户对博越的各个方面的情感都比较正面。

整个图的右上角反映了用户对博越关注度最高、评价最正面的几个方面:前脸、侧面、外观、内饰设计、形成辅助配置等,主要以外观为主

图的右下角反映了用户对博越提及量较低但评价仍然很正面的方面:安全性、操控性、舒适性配置、安全性配置、转向、涡轮增压功能等,集中反映了这两类用户对博越的配置和性能有关方面的喜爱程度

因而,对于对博越总体较为满意的用户,其最满意的方面集中在外观、配置和部分性能等方面,通过加强对这些方面的亮点的宣传,能使得这部分用户保持对博越的忠诚度。


潜在消费者的转化点:体验至上

为了寻找潜在消费者的增长点,我们将用户划分为已经购买博越的用户(认证的博越车主)和尚未购买博越的用户。已购买和未购买博越的用户在五类用户中的占比如下:


可以看到,尊享型用户、高关注用户和性能敏感型用户的已购买博越的用户占比相对较高,而低关注用户和体验敏感型用户中这一比例相对较低。这意味着,低关注用户和体验敏感型用户将是开拓新车主的重要方向


然而,由于低关注用户对博越相关维度都不具备较高的好感,因而转化这一部分用户的成本会比较高。而体验敏感型用户对博越体验相关维度好感较高,这一点在一面数据汽车SAAS平台上对博越论坛的关键信息提取上可以反映出来:



可以看到,用户对于博越的满意点集中在驾车体验、内饰好看、座椅舒适度等方面,印证了博越在体验上的优势。通过宣传博越在体验上的优势,可以起到促进这部分用户转化为车主的作用。


为了进一步挖掘博越在体验方面的优势,我们将体验拆解为4个原始维度。其负面评论、中性评论和正面评论的占比如下:



在这四个维度中,正面评价占比最高的是空间,其次是外观和内饰。由于空间的二级分类相对单一,在这里,我们主要探讨外观和内饰的细分类别。


在外观和内饰上,二者内部的细分类别的负面、中性和正面评论的占比如下:


对于外观,谈论外观整体的评论中正面占比最高,而对于前脸、侧面和尾部的评论,负面、中性和正面评论占比的差别不大。

对于内饰,依然是对内饰整体的正面评价占比最高,其次为中控台和方向盘。

总结而言,体验敏感型用户是扩展博越新车主的重要方向通过对于博越在空间、外观和内饰等方面的优势的宣传,可以比较有效地将这部分潜在消费者转化为车主

总结

本文采用了聚类的办法,将博越的消费者细分为低关注用户、尊享型用户、高关注用户、性能敏感型用户和体验敏感型用户。

通过分析,我们发现对博越最满意的两类用户,即尊享型用户和高关注用户,对博越的外观细分方面关注较高、评价高;对博越的配置和部分性能方面虽然提及量相对较低,但评价也很不错。通过加强对博越外观、配置等方面的宣传,可以维持此类用户的忠诚度。

体验敏感型用户是挖掘博越潜在消费者的重要用户群。通过宣传博越在空间、外观和内饰上的优势,可以起到将这部分用户对博越的体验方面的好感转化为购买行为的作用。


点击查看历史文章,揭开冰山水面下更多的数据秘密!



知乎专栏:数据冰山