最近,笔者身边的准妈妈日渐增多,随着肚子一天天增大,不少准妈妈们开始考虑新生儿奶粉问题,由于缺乏经验,她们纠结于如何挑选奶粉,不知道从何入手。省时省力又具有价格优势的电商平台逐渐成为了忙碌都市人的首选,笔者希望透过电商平台的奶粉用户评论初步洞悉妈妈们挑选奶粉的主要关注点,而丰富的电商渠道以及海量的用户评论为我们的探索提供了可能。
数据来源
笔者选择了平时较为常用的某东、某猫和某拉三个电商平台作为数据来源。
首先,笔者在上述三个平台分别搜索“奶粉”,将筛选条件设置为“一段”、“罐装”(其中某东为“桶装”,与“罐装”同义),并按销量降序排列。同一商品若重量不同视为同一品种(如同款产品的单罐装、多罐装,400g、900g均视为同一品种),同一平台的不同渠道视为同一品种(如“美素力金装婴儿配方奶粉1段”在美素佳儿官方旗舰店和某猫超市均有售,视为同一品种)。根据上述标准选取每个平台前20个奶粉品种作为目标奶粉。
奶粉品种选定了,接下来可以利用python抓取用户评论了。我们发现,某东和某猫的评论只显示100页,每页10条,也就是说作为用户的我们只能看到1000条评论。由于某东对评论设置了分类,为了最大化评论数量,我们分别按“推荐排序”、“时间排序”两种排序方式抓取了某东20个奶粉品种的“全部评价”、“好评”、“中评”、“差评”四类评论下的所有评论,去重后,形成了最终的某东奶粉评论集。而某猫和某拉未设置评论分类,我们抓取了各平台20个奶粉品种下的所有用户评论。最终,形成了4个评论数据集,分别是某东42200条、某猫48121条、某拉76290条和汇总166611条评论。
接下来,笔者利用python的jieba包对上述评论进行分词,并下载了停顿词库去除了停顿词,然后分别对4个数据集进行词频统计,并用wordcloud生成了词云图,以便直观感受奶粉用户的关注点。
数据分析
笔者将词语进行分类,并统计了不同词语占总评论条数的比例,发现三家电商平台奶粉用户集中关注以下问题:
我们又将上述问题分为奶粉和平台两大类,可以发现,用户对于平台的关注度甚至高于奶粉。
以下为具体分析:
1. 奶粉:
a) 宝宝的反应
代表词:宝宝、孩子、上火、宝贝、爱喝、消化、大便、拉肚子、便秘、过敏、奶瓣、肚子、拉稀、肠胃、腹泻、消化不良
对于奶粉本身而言,用户最为关注的是宝宝吃(喝)了奶粉之后的反应,比如宝宝是否表现出上火、不易消化以及便秘等现象,相关词语占比达到40.02%。也就是说,每10条评论,大约有4条谈论宝宝对于奶粉的反应。
b) 溶解度
代表词:挂壁、溶解、溶解性、溶解度、颗粒、颗粒状
该类词占比达到1.93%。从评论来看,父母对于奶粉溶解度有一定要求,希望溶解度好,挂壁现象少。
2. 平台:
a) 物流
代表词:包装、物流、很快、快递、速度、送货、慢、破损、超快、爆罐、包裹、神速、包装盒、包装箱、配送、物流配送、够快、比较慢、很慢、最快
物流成为继宝宝反应后奶粉用户关注度最高的问题,占比达到24.87%。在物流环节,用户的关注点主要集中在包装是否完好以及物流速度两方面。用户关心收到奶粉时奶粉罐是否被压扁或者出现凹陷,最严重的情况是用户收到时奶粉已经爆罐(奶粉罐爆开)。收货速度方面,某拉用户相对于某东和某猫更少关注物流速度,可能是由于用户对于海淘平台的物流速度本身已有一定预期。
b) 奶粉真伪
代表词:正品、假货、真假、真品、真货、真伪、正货
该类词汇占比达到13.58%。其中,某东的奶粉用户评论中“正品”的出现频率最低,为8.54%,“假货”的出现频率最高,为1.36%,这可能与数据来源相关,因为在抓取某东数据时,我们抓取了好评、中评、差评三类评论,而每种评论只显示前1000条,因此某东实际差评的比例相较于其它两个平台必然会高出不少。
c)
价格
代表词:价格、便宜、贵、价格便宜、实惠、划算
三个平台的用户对于奶粉价格均较为关注,占比达到11.16%,其中某东用户相比于其他两个平台用户明显更关注奶粉的价格。