我们来看一个例子,这是一篇关于特色农产品网络零售满意度影响因素的研究。文章的数据来源并非传统的调查问卷或访谈,而是通过网络爬虫技术获取的。研究者选择了25款产品,并以两个电商平台为数据源,使用Python编写爬虫程序收集了大量消费者评论数据。
数据分析阶段,首先进行了描述性统计,通常以表格形式呈现。随后进行了数据清洗,包括剔除无关数据和压缩重复性副词,如数字、字母、表情符号等。
CDA考试内容中有关于数据处理的章节,介绍了缺失值填充和重复值剔除的方法。
最终,研究者采用LDA主题模型对评论数据进行聚类分析,提取出影响网络零售满意度的主要因素,并据此提出改进建议。这篇文章的分析过程相对简单。
这一篇文章题目直译可能较为抽象,但它发表在知名期刊上,探讨了环境信息披露对供应链网络中绿色创新产出的影响。这篇文章是基于中国上市公司的实证分析,主要研究网络结构对企业绿色创新产出的影响。研究采用了负二项回归模型进行分析。数据主要来自国泰安数据库,涵盖了2012年至2019年A股上市公司的详细信息,包括供应链网络结构。研究强调了供应链网络结构对绿色创新产出的影响,并考虑了环境信息披露(EID)的条件效应。从国泰数据库中提取的数据包括了不同合作伙伴的详细信息,数据整理后得到研究所需的指标。
数据处理全流程:
在数据处理方面,研究者进行了数据清洗,这个过程包括了明确的步骤,类似于科研数据分析中常用的方法。研究者首先描述了获取的数据的时间范围和类型,包括A股上市公司的详细信息,如公司名称和股票代码。接着,从数据集中选取了每个企业的前五大供应商和前五大客户数据,并解释了选择这些数据的原因。
处理缺失值时,研究者提到,由于一些企业可能没有披露绿色创新数据,这些数据通常用绿色专利和新型专利数量来衡量。为了填补缺失值,研究者手动从官方网站、年报等权威报告中获取信息。这样做是为了避免因剔除缺失值而导致数据量减少,影响后续分析。尽管这一步骤工作量较大,但对于确保分析的准确性和完整性是必要的。
接着,它构建了自己的模型,包括核心解释变量、被解释变量、控制变量以及调节变量。使用负二项回归模型进行建模,建立了两个模型,一个不包括环境信息披露(EID)变量,另一个包括,以做对比。
这两个模型实际上是相同的,区别在于系数不同。不包括EID的模型作为基准模型,而包括EID的模型是主要模型。这个模型与传统的回归模型不同,因为它已经整理成了负二项回归模型的对数似然函数形式。
以前我使用软件进行操作时,对这些概念理解不深,但在CDA数据分析师二级教材中有详细解释,这有助于使我们的分析更稳健。CDA数据分析师二级教材中提到,不同的变量类型,如离散型或连续型,需要使用不同的方法,且必须适配。扫码“CDA认证”小程序,获取数据分析资料。
我们的核心被解释变量是非负整数,是离散的,因此线性回归模型不适用,而泊松分布和负二项分布更为合适。最终选择负二项分布是因为它是泊松分布的扩展,能很好地处理被解释变量的分散性。