专栏名称: CDA数据分析师

CDA数据分析师品牌官方微信，开放、创新、分享。

【干货】通过2篇论文讲透科研中的数据分析应用

CDA数据分析师 · 公众号 · 大数据 · 2024-10-16 09:08

正文

持证人简介

王明月

2年数据产品工作经验，管科博士生在读，CDA数据分析师二级持证人。

科研与数据分析师日常工作有所不同，但也有相似之处。科研的成果通常是论文，包括题目、摘要、关键词、引言、文献综述、数据与方法、结果、讨论、结论和参考文献。其中，红框标记的部分与数据分析紧密相关。除了综述性文章，几乎所有论文都需要数据和方法的支持，通过这些来得出结果并进行深入讨论，类似于数据分析中的策略性工作。

一

数据处理

在数据处理方面，科研中涉及数据采集、清洗和探索性分析。数据可以通过调查问卷、实验、实地调研或网络爬虫获取。获取后，需要进行清洗，然后进行描述性统计、数据可视化和变量相关性分析。

二

构建模型

数据处理后我们要构建模型，包括计量经济模型、回归模型、时间序列模型、结构方程模型和优化模型等。这些构建模型的方法我是在CDA数据分析师二级备考中集中学习了一下，所以在做科研的时候，感觉特别游刃有余，CDA数据分析师二级教材对回归模型和时间序列模型有详细描述，真的建议不论本科生还是研究生都考一下CDA数据分析师，这对能力的提高帮助很大，扫码“CDA认证”小程序，获取数据分析资料。

在备考CDA数据分析师二级的时候，我对主成分分析和因子分析的理解加深了，之前我只是使用软件得出结果，但对其背后的计算公式、假设条件和应用前提了解不多。此外，科研中会用到博弈模型和网络分析模型，也建议大家去学习。

三

论文实例解析

论文1

我们来看一个例子，这是一篇关于特色农产品网络零售满意度影响因素的研究。文章的数据来源并非传统的调查问卷或访谈，而是通过网络爬虫技术获取的。研究者选择了25款产品，并以两个电商平台为数据源，使用Python编写爬虫程序收集了大量消费者评论数据。

数据分析阶段，首先进行了描述性统计，通常以表格形式呈现。随后进行了数据清洗，包括剔除无关数据和压缩重复性副词，如数字、字母、表情符号等。

CDA考试内容中有关于数据处理的章节，介绍了缺失值填充和重复值剔除的方法。

最终，研究者采用LDA主题模型对评论数据进行聚类分析，提取出影响网络零售满意度的主要因素，并据此提出改进建议。这篇文章的分析过程相对简单。

论文2

这一篇文章题目直译可能较为抽象，但它发表在知名期刊上，探讨了环境信息披露对供应链网络中绿色创新产出的影响。这篇文章是基于中国上市公司的实证分析，主要研究网络结构对企业绿色创新产出的影响。研究采用了负二项回归模型进行分析。数据主要来自国泰安数据库，涵盖了2012年至2019年A股上市公司的详细信息，包括供应链网络结构。研究强调了供应链网络结构对绿色创新产出的影响，并考虑了环境信息披露（EID）的条件效应。从国泰数据库中提取的数据包括了不同合作伙伴的详细信息，数据整理后得到研究所需的指标。

数据处理全流程：

在数据处理方面，研究者进行了数据清洗，这个过程包括了明确的步骤，类似于科研数据分析中常用的方法。研究者首先描述了获取的数据的时间范围和类型，包括A股上市公司的详细信息，如公司名称和股票代码。接着，从数据集中选取了每个企业的前五大供应商和前五大客户数据，并解释了选择这些数据的原因。

处理缺失值时，研究者提到，由于一些企业可能没有披露绿色创新数据，这些数据通常用绿色专利和新型专利数量来衡量。为了填补缺失值，研究者手动从官方网站、年报等权威报告中获取信息。这样做是为了避免因剔除缺失值而导致数据量减少，影响后续分析。尽管这一步骤工作量较大，但对于确保分析的准确性和完整性是必要的。

接着，它构建了自己的模型，包括核心解释变量、被解释变量、控制变量以及调节变量。使用负二项回归模型进行建模，建立了两个模型，一个不包括环境信息披露（EID）变量，另一个包括，以做对比。

这两个模型实际上是相同的，区别在于系数不同。不包括EID的模型作为基准模型，而包括EID的模型是主要模型。这个模型与传统的回归模型不同，因为它已经整理成了负二项回归模型的对数似然函数形式。

以前我使用软件进行操作时，对这些概念理解不深，但在CDA数据分析师二级教材中有详细解释，这有助于使我们的分析更稳健。CDA数据分析师二级教材中提到，不同的变量类型，如离散型或连续型，需要使用不同的方法，且必须适配。扫码“CDA认证”小程序，获取数据分析资料。

我们的核心被解释变量是非负整数，是离散的，因此线性回归模型不适用，而泊松分布和负二项分布更为合适。最终选择负二项分布是因为它是泊松分布的扩展，能很好地处理被解释变量的分散性。

CDA 10月校园助考补贴活动火热进行中，这是只有在校生才能薅的羊毛，赶紧冲冲冲！

往期干货文章：

【干货】快消企业的数据分析实践：数据应用4大痛点

【干货】7类常见的统计分析错误

【大咖分享】数据科学与大数据技术专业就业前景怎样？政策方向？

【干货】数据分析在阿里巴巴供应链管理中的实际应用

面试没有项目经历？这6个项目可以写进简历！

【干货】标签体系如何搭建？如何通过标签分析用户行为？

【干货】8个AI+数据分析工具，建议收藏

【干货】数据分析实战：瑞幸爆款制造的底层逻辑分析

【干货】数据分析如何支撑瑞幸联名成功？（2）

【干货】数字化时代，怎么做零售数据分析？

【2400字实战干货】数据分析在汽配互联网平台金融风控中的应用

【干货】真实世界临床研究中数据预处理实践

【实战】利用BI工具搭建贷款经营看板

【实战】数据产品经理应该具备的5点数据分析技能