专栏名称: 数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
目录
相关文章推荐
哲学园  ·  进步、世俗化与现代性(乔拓新 译) ·  昨天  
哲学园  ·  情人节大放送!爱她,就送她紫水晶 ·  昨天  
51好读  ›  专栏  ›  数据皮皮侠

【永久会员】新闻数据集(二)(含光明日报、人民政协报、中国青年报)

数据皮皮侠  · 公众号  ·  · 2024-09-14 09:50

正文

1405

新闻数据集(二)(含光明日报、人民政协报、中国青年报)

数据简介

新闻媒体报道的内容涵盖了政治、经济、社会等各个领域的重要信息,对于未来经济发展起到了重要的推动和引导作用。通过报道经济领域的重要信息,提供良好的经济环境分析与预判;展示国家的经济实力和发展成果,促进未来经济的进一步发展;宣讲经济政策和规划,为未来经济提供宏观基础和社会共识,为科研工作者指明方向。因此,新闻类文本中含有丰富的指标,在经济学、管理学、新闻传播学、公共管理等领域均有较高的研究价值。

今天数据皮皮侠团队为大家分享一份包含光明日报、人民政协报、中国青年报的文本数据,供大家研究使用。

数据说明

数据来源:光明日报、人民政协报、中国青年报

时间跨度:光明日报:1985-2024.7

人民政协报:2008-2024.7

中国青年报:2005-2024.7

数据频率:日度

数据格式:txt

数据使用与分析

以光明日报为例演示数据的使用与分析。

数据读取

结果展示:

整体统计分析

输出结果:

基于上述描述性统计,我们可以从多个方面来理解这些数据,并探讨它们背后可能的社会和媒体发展现象。

1. 时间跨度与变迁

这个数据集覆盖了 1985年1月1日至2023年12月18日,几乎四十年的时间跨度。在这长达几十年的时间里,世界、中国乃至媒体行业都经历了翻天覆地的变化。从技术的角度,打字机到电脑,胶片到数字,纸媒到互联网和移动互联网的变迁,每一次技术革新都极大地影响了新闻的生产、分发和消费方式。从社会的角度,政治、经济、文化诸多方面的变化,都直接和间接地影响了新闻报道的方向和焦点。因此,研究这个数据集,不仅可以观察到媒体技术的演进,还可以深刻理解社会变迁对媒体内容产生的影响。

2. 新闻文本总数量与发展趋势

13085篇新闻文本并不代表该期间光明日报的全部发文量,但它仍是一个值得关注的样本。对这一数量的长期趋势分析可能会揭示出光明日报及整体媒体行业对于特定事件的报道量变化,或是反映了报道范围和深度随着时间的演变。

3. 新闻文本长度的统计信息

平均长度 :约 157,672字,这一平均长度相对较长,反映了光明日报倾向于发布深度报道和综述,而非简短新闻。

标准差 :约 218,891字,标准差较大,意味着新闻长度的分布非常广泛,既有非常短的新闻,也有长篇报道,体现了内容的多样性。

最短和最长新闻文本 :最短 47字,最长约8,009,763字,这显示了极端情况下新闻报道的长度差异,尤其是最长的报道,可能是一系列报道的汇编或特殊的深度报道。

分位数 :根据四分位数 (25%, 50%, 75%)数据,我们可以看出超过一半的新闻文本长度在76,449至158,405字节之间,显示出一定的集中趋势,但同时也有极端值,如最小值(min)47字节和最大值(max)8,009,763字节,表明部分新闻或许仅为简讯,而某些新闻则可能是详细的专题报道或系列文章

4. 社会变化的反映

新闻的长度和数量的变化,不仅体现了媒体技术的发展,还可能反映了社会对信息深度和质量需求的变化。随着信息时代的到来,人们对于深度报道和精准信息的需求日益增加,这可能是导致平均新闻长度增加和新闻内容日益多元的原因之一。

5. 结论

综上所述,这份关于光明日报新闻数据集的描述性统计,不仅为我们提供了一个对光明日报乃至中国媒体历史进行考察的窗口,也使我们能够从社会学角度探讨技术进步、社会变迁和信息需求变化之间的复杂关系。通过深入分析这类数据,我们可以获得关于媒体发展与社会变化相互作用的宝贵见解。

关键词占比可视化

声明:本数据由数据皮皮侠团队整理,仅用于学术研究

皮皮侠数据库引用声明

请您在任何基于“数据皮皮侠”数据库所产生的 中文研究成果 (含学术论文、公开发表的研究报告等)均包括以下表述或类似表述声明:

本研究使用的数据来自“数据皮皮侠”数据库。

同时以电子文献形式进行引用标注,形式如下:

数据皮皮侠团队. 区县行政区划变更数据库[EB/OL]. [2023-1-1]. http://www.ppmandata.cn/.

其中,“2023-1-1”应当替换成实际引用日期,“区县行政区划变更数据库”替换成实际使用的数据库名称。


请您在任何基于“数据皮皮侠”数据库所产生的 英文研究成果 (含学术论文、公开发表的研究报告等)均包括以下表述或类似表述声明:

The data used in this study is from the PPman Database organized and managed by PPman Data Team.

同时以电子文献形式进行引用标注,形式如下:

PPman Data Team. Database of Point of Interest[EB/OL]. [2023-1-1]. http://www.ppmandata.cn/.

其中,“2023-1-1”应当替换成实际引用日期,“Database of Point of Interest”替换成实际使用的数据库名称。

资源获取方式


数据编号







请到「今天看啥」查看全文