专栏名称: CDA数据分析师
CDA数据分析师品牌官方微信,开放、创新、分享。
目录
相关文章推荐
CDA数据分析师  ·  【干货】数据分析模型之“预测模型” ·  4 天前  
CDA数据分析师  ·  【实战】数据产品经理应该具备的5点数据分析技能 ·  3 天前  
CDA数据分析师  ·  【干货】通过2篇论文讲透科研中的数据分析应用 ·  2 天前  
51好读  ›  专栏  ›  CDA数据分析师

【干货】通过2篇论文讲透科研中的数据分析应用

CDA数据分析师  · 公众号  · 大数据  · 2024-10-16 09:08

正文


持证人简介

王明月

2年数据产品工作经验,管科博士生在读,CDA数据分析师二级持证人。

科研与数据分析师日常工作有所不同,但也有相似之处。科研的成果通常是论文,包括题目、摘要、关键词、引言、文献综述、数据与方法、结果、讨论、结论和参考文献。其中,红框标记的部分与数据分析紧密相关。除了综述性文章,几乎所有论文都需要数据和方法的支持,通过这些来得出结果并进行深入讨论,类似于数据分析中的策略性工作。



数据处理

在数据处理方面,科研中涉及数据采集、清洗和探索性分析。数据可以通过调查问卷、实验、实地调研或网络爬虫获取。获取后,需要进行清洗,然后进行描述性统计、数据可视化和变量相关性分析。


构建模型

数据处理后我们要构建模型,包括计量经济模型回归模型、时间序列模型、结构方程模型和优化模型等。这些构建模型的方法我是在CDA数据分析师二级备考中集中学习了一下,所以在做科研的时候,感觉特别游刃有余,CDA数据分析师二级教材对回归模型和时间序列模型有详细描述,真的建议不论本科生还是研究生都考一下CDA数据分析师,这对能力的提高帮助很大,扫码“CDA认证”小程序,获取数据分析资料。



在备考CDA数据分析师二级的时候,我对主成分分析和因子分析的理解加深了,之前我只是使用软件得出结果,但对其背后的计算公式、假设条件和应用前提了解不多。此外,科研中会用到博弈模型和网络分析模型,也建议大家去学习。

论文实例解析



论文1





我们来看一个例子,这是一篇关于特色农产品网络零售满意度影响因素的研究。文章的数据来源并非传统的调查问卷或访谈,而是通过网络爬虫技术获取的。研究者选择了25款产品,并以两个电商平台为数据源,使用Python编写爬虫程序收集了大量消费者评论数据。

数据分析阶段,首先进行了描述性统计,通常以表格形式呈现。随后进行了数据清洗,包括剔除无关数据和压缩重复性副词,如数字、字母、表情符号等。


CDA考试内容中有关于数据处理的章节,介绍了缺失值填充和重复值剔除的方法。

最终,研究者采用LDA主题模型对评论数据进行聚类分析,提取出影响网络零售满意度的主要因素,并据此提出改进建议。这篇文章的分析过程相对简单。




论文2



这一篇文章题目直译可能较为抽象,但它发表在知名期刊上,探讨了环境信息披露对供应链网络中绿色创新产出的影响。这篇文章是基于中国上市公司的实证分析,主要研究网络结构对企业绿色创新产出的影响。研究采用了负二项回归模型进行分析。数据主要来自国泰安数据库,涵盖了2012年至2019年A股上市公司的详细信息,包括供应链网络结构。研究强调了供应链网络结构对绿色创新产出的影响,并考虑了环境信息披露(EID)的条件效应。从国泰数据库中提取的数据包括了不同合作伙伴的详细信息,数据整理后得到研究所需的指标。


数据处理全流程:

在数据处理方面,研究者进行了数据清洗,这个过程包括了明确的步骤,类似于科研数据分析中常用的方法。研究者首先描述了获取的数据的时间范围和类型,包括A股上市公司的详细信息,如公司名称和股票代码。接着,从数据集中选取了每个企业的前五大供应商和前五大客户数据,并解释了选择这些数据的原因。

处理缺失值时,研究者提到,由于一些企业可能没有披露绿色创新数据,这些数据通常用绿色专利和新型专利数量来衡量。为了填补缺失值,研究者手动从官方网站、年报等权威报告中获取信息。这样做是为了避免因剔除缺失值而导致数据量减少,影响后续分析。尽管这一步骤工作量较大,但对于确保分析的准确性和完整性是必要的。

接着,它构建了自己的模型,包括核心解释变量、被解释变量、控制变量以及调节变量。使用负二项回归模型进行建模,建立了两个模型,一个不包括环境信息披露(EID)变量,另一个包括,以做对比。

这两个模型实际上是相同的,区别在于系数不同。不包括EID的模型作为基准模型,而包括EID的模型是主要模型。这个模型与传统的回归模型不同,因为它已经整理成了负二项回归模型的对数似然函数形式。


以前我使用软件进行操作时,对这些概念理解不深,但在CDA数据分析师二级教材中有详细解释,这有助于使我们的分析更稳健。CDA数据分析师二级教材中提到,不同的变量类型,如离散型或连续型,需要使用不同的方法,且必须适配。扫码“CDA认证”小程序,获取数据分析资料。



我们的核心被解释变量是非负整数,是离散的,因此线性回归模型不适用,而泊松分布和负二项分布更为合适。最终选择负二项分布是因为它是泊松分布的扩展,能很好地处理被解释变量的分散性。




CDA 10月校园助考补贴活动火热进行中,这是只有在校生才能薅的羊毛,赶紧冲冲冲!


往期干货文章:
【干货】快消企业的数据分析实践:数据应用4大痛点
【干货】7类常见的统计分析错误
【大咖分享】数据科学与大数据技术专业就业前景怎样?政策方向?
【干货】数据分析在阿里巴巴供应链管理中的实际应用
面试没有项目经历?这6个项目可以写进简历!
【干货】标签体系如何搭建?如何通过标签分析用户行为?
【干货】8个AI+数据分析工具,建议收藏
【干货】数据分析实战:瑞幸爆款制造的底层逻辑分析
【干货】数据分析如何支撑瑞幸联名成功?(2)
【干货】数字化时代,怎么做零售数据分析?
【2400字实战干货】数据分析在汽配互联网平台金融风控中的应用
【干货】真实世界临床研究中数据预处理实践
【实战】利用BI工具搭建贷款经营看板
【实战】数据产品经理应该具备的5点数据分析技能