专栏名称: 数据冰山
透过数据挖掘与分析,呈现互联网海面下隐藏的冰山一角
目录
相关文章推荐
数据派THU  ·  PAIRDISTILL: ... ·  3 天前  
数据派THU  ·  【博士论文】自然语言处理中的不确定性 ·  4 天前  
软件定义世界(SDX)  ·  数字化转型与IT架构总体规划PPT ·  1 周前  
DataFunTalk  ·  DataOps for LLM ... ·  1 周前  
DataFunTalk  ·  DataOps for LLM ... ·  1 周前  
51好读  ›  专栏  ›  数据冰山

长城WEY VV7上市前后舆情分析

数据冰山  · 公众号  · 大数据  · 2017-06-02 17:19

正文

自去年11月首次在广州车展上亮相,车友们期望已久的长城WEY VV7终于在今年4月的上海车展上正式宣布上市。此外,长城WEY VV7也是国产车冲击中高端SUV市场的重要种子选手。


本文从数据的角度出发,对长城WEY VV7上市前的舆情、潜在车主的特征予以分析,并对WEY VV7上市后的销量表现做一些预测。

1. 关注热度趋势:两次车展推动两次高峰

百度指数反映某个名词在百度上搜索的热度。为了解车友对于WEY VV7的关注热度,我们截取了2016年11月至2017年5月 “WEY” 的百度指数:

由图可以看到,WEY的百度指数自去年11月一直保持在2000以上;在2016年11月16至18日达到了10000以上的高峰,又在4月7日起逐渐升温,在4月19日至28日上海车展期间出现两个峰值,均在8000以上。两次高峰分别对应2016年11月的广州车展的首次亮相和2017年4月的上海车展及正式上市

值得注意的是,在车展结束后的5月份,WEY仍然维持了较高的搜索热度,这对于WEY上市后的销量表现而言是一个不错的信号。

为进一步了解关注热度的时间变化,我们选取了汽车之家的WEY VV7论坛的数据做进一步的分析。

下图展示了同一时间段内该论坛的发帖总数(红线)和参与讨论的人数(橙线):

发帖总数随着4月份上海车展的到来迎来高峰;而参与讨论的人数变化趋势基本和百度指数的变化趋势相似:在11月16日左右达到第一个峰值,在4月上海车展期间达到最高峰。

从论坛数据来看,上海车展中WEY VV7的亮相引发了广泛的参与和热烈的讨论。

另外,我们通过发掘汽车之家关于上海车展的弹幕数据,提取了各个车型在车展期间的提及量。

在所有车型中,WEY VV7的提及量排到了第二,仅略少于吉利汽车推出的新品领克01。详见:

WEY VV7在车展期间的关注热度可见一斑。


2. 舆情分析:外观、价格、动力、内饰最受关注,整体评价正面

通过对汽车论坛的评论进行文本挖掘,我们提取了用户对于VV7在价格、内饰、动力性、外观、安全性、操控性、油耗、空间、舒适性等九个维度的提及量,并且运用情感分析技术对每一次提及的语句进行了情感评分(1为正面,0为中性,-1为负面)。

下图为在这九个维度上,用户的总提及量和评分分布:

外观、价格、动力性、内饰是论坛用户最关注的四个方面,合计占到总提及量的64%;其中以动力性和外观的提及量最大。

在情感评分上,九个维度除油耗外,正面评价的占比基本在一半及以上,意味着车友对于VV7的大部分方面满意;其中对安全性、操控性、动力性的评价最为正面。

为了解用户对于这九个维度的关注随时间的变化情况,我们制作了以月为单位的提及量占比:

可以看到,在车展前,外观、价格、动力性、内饰依然主导了用户的讨论(占比在80%以上);更进一步地,外观和价格的占比比较稳定,而内饰和动力性的占比随月份变化幅度较大。这说明了,外观和价格是论坛用户最稳定、最持久的关注点

进入车展期间,随着披露的车辆信息增多,这四大方面的占比下降,用户的讨论面变得更广泛。

在最受关注的四个维度上,感情评价变化如下:

可以看到,在这四个维度上,论坛用户的评价都较为正面;其中,对于价格的评价波动较大,其余三者比较稳定。

3. 潜在车主画像:中青年男性,长城粉居多

借助于汽车论坛、百度搜索用户以及一面内部数据,我们统计了VV7潜在车主在年龄、性别、爱好、地域等方面的特征。

下左图为WEY VV7论坛用户的年龄分布,右图为“WEY”的百度搜索用户的年龄分布:

二者的分布基本一致:WEY VV7的潜在车主大多为年龄介于20-39岁之间的中青年人

在性别的分布上,左下图为VV7汽车论坛用户的性别分布,右下图为汽车论坛整体用户的性别分布:

汽车论坛用户中关注WEY VV7的用户男女比例十分夸张:男性占绝对主力,女性占比不足百分之一。

这和论坛整体用户性别结构(女性占到3.3%)相比,男性更为主导;这可能和这款车的高定位更吸引男性车友有关。总之,WEY VV7的潜在车主以男性为绝对主力

在地域分布上,WEY VV7论坛的用户省份关注度(某省VV7的用户数/该省所有论坛的总用户数)分布如下:

可以看到,对于VV7的相对关注度最高的是河北省,即长城汽车总部所在地;其次为湖北、湖南、广西三省

通过一面数据内部汽车测评SAAS平台,我们获取了WEY VV7的用户的兴趣爱好:

可以看到,电子游戏、体育赛事、音乐及泡吧/夜店是WEY VV7用户最常见的四个兴趣爱好,可见VV7潜在车主比较喜欢有刺激感的竞技类活动

为了解WEY VV7潜在车主的来源,我们统计了WEY VV7论坛的用户所注册的已认证的车主信息。这些车主所拥有的车型分布如下:

除吉利汽车的博越及广汽传祺的GS8车系以外,出现频次较高的车系都以长城汽车的哈弗系列为主。这说明,长城系的车主对于VV7的关注很高,可能是VV7最大的潜在车主。

另外,基于车展期间的直播弹幕数据,我们通过挖掘VV7的频繁项集,找到了关注VV7的车友同时最频繁关注的车型:

大量的其他品牌和车型的关注者同时也关注WEY VV7,这些品牌和车系的都可能为VV7贡献新的车主。这意味着WEY VV7受众面较广,跨品牌和车型的活力大

4. 潜在车主分类:多数用户为中等或高期待用户

为了量化论坛用户在对VV7的提及量和感情评分上的差异,我们尝试在提及次数(活跃度)和平均感情评分(平均期待值)两个维度上对论坛用户进行聚类,以对用户做出合理的分类。

我们运用了k-means聚类算法对论坛的用户进行了聚类,并且根据组内方差的变化确定聚类的类别数为四类。下图为四类用户在两个维度上的分布:

其中,四种颜色分别对应四类用户,四个橙色十字为四个类别的中心点。这四类用户的特征和典型评论如下:

第1类:蓝色,提及数在0到30之间,大多数评价为负面,可以归纳为“中低活跃低期待用户”;

-- “魏派我个人觉得很难成功,换壳H6?换壳H7?现在消费者不是那么容易忽悠的!魏派想成功必须要有全新的发动机去搭载他的心脏,不仅仅外观要与哈弗隔开,内在更是需要!”

第2类:黑色,提及数在0到30之间,大多数评价在0-0.2之间,可以归纳为“中低活跃中等期待用户”;

-- "感觉应该比博越好看啊。博越的外观和地盘不喜欢"。

第3类:绿色,提及数在0到40之间,大多数评价在0.2以上,可以归纳为“中低活跃高期待用户”;

-- “总体而言,WEY01给人的感觉主要是靓丽、运动和时尚,豪华并不是重点”。

第4类:红色,提及数在50以上,大多数评价为正面,可以归纳为“高活跃高期待用户”;

-- “实车是非常漂亮的,但不是那种直接的豪华感,而是相当简约独特的设计风格,全车很少有镀铬亮条装饰,而完全使用车体折线塑造造型。内饰上来说,最豪华的地方是车后门,最简约的倒是中控。做工没的说,但中控和车门风格有差异。”

以下为四类用户中心点(代表性用户)的活跃度和平均期待值:

在这四类用户中,高活跃高期待用户对VV7有正面的评价,也愿意发帖为VV7发声,属于对VV7最忠实的潜在车主;中低活跃高期待用户虽然提及次数不算多,但对VV7的评价很正面,转化为VV7车主的概率也较高;中低活跃中等期待用户整体上对W01持偏正面的态度(0-0.2),也有一定机会转化为VV7车主;最后,中低活跃低期待用户对VV7提及较少、态度较为负面,很难转化为VV7车主。

以下为四类车主在论坛用户中的占比:

可以看到,中低活跃中等期待用户占到总用户数的一般以上;中低活跃高期待用户和高活跃高期待用户合计占到20%左右;另外四分之一的用户为中低活跃低期待用户。

换言之,有四分之三的用户对VV7抱有中等或者高度期待,这部分用户有较大的机会转换为VV7的车主

5. 上市后销量预测:估计首月销量在3500-4500辆之间

我们主要采用两种算法对WEY VV7的首月销量进行预测:线性回归和kNN(k近邻)算法。在算法中,我们不考虑产能限制带来的影响。

在线性回归中,我们采用了品牌、上市年份(反映大的变化趋势)、上市月份(反映季节性波动)、上市前一个月百度指数的均值(反映关注热度)、官方指导价中间数作为特征,收集了所有在2012年1月至2017年1月上市的SUV,共计157个车型的上述特征。使用该线性模型可预测到WEY VV7上市首月销量为4076辆

由于涉及到的品牌数量众多,而样本量过少,上述回归模型存在过拟合的风险。为了更好地预测首月销量,我们使用了另外一种算法:kNN算法。该算法计算一定数量的和目标车型(VV7)在以上特征中最接近的其他车型,然后按照这些临近车型的首月销量的均值估计VV7的首月销量。

在对特征做标准化处理后,使用kNN算法得到的前10个最接近的车型。下图为这些车型的特征及各自的首月销量:

综合这10个车型得到的首月平均销售量为3645辆

因而,综合线性回归和kNN算法,在不考虑产能的影响下,我们估计WEY VV7上市后的首月销售量在3500-4500辆之间。

6. 总结

通过上述对WEY VV7上市前的数据分析,特别是对汽车论坛和百度指数的分析,我们得出以下结论:

1. WEY VV7关注热度主要有两个高峰,分别对应2016年11月的广州车展首次亮相和2017年4月上海车展正式上市,并在上海车展期间引人注目。

2. VV7的论坛用户对于外观、价格、动力性、内饰等4个方面关注最多,其中以外观和价格最为稳定和持久;对于这四个维度,论坛用户评价均为正面。

3. 关注VV7的用户以中青年男性为主力,在地域上关注度最高的是河北、湖北、湖南、广西四省,其中长城系列品牌的忠实用户是不可忽略的一股力量。

4. VV7汽车论坛的用户可以聚类为4类用户,其中四分之三左右的用户对VV7持正面的看法,有中等或者高度的期望值。

5. 综合线性回归模型和kNN算法,在不考虑产能的影响下,我们对VV7上市后首月的销售量看好,估计销量在3500-4500之间。

点击查看历史文章,揭开冰山水面下更多的数据秘密!!!



知乎专栏:数据冰山