【引语】
继第三期(上)推送有关大数据在社会科学领域的理论性探讨之后,本期我们将继续关注大数据在社会科学具体领域的最新运用案例,以帮助大家对大数据方法有一个更全面更系统的把握。
目前社会科学大数据分析的具体研究领域包括
文化发展、社交媒体网络、量化历史、经济发展等领域。
所运用到的大数据来源包括
新浪微博、推特等社交媒体网络大数据、谷歌图书百万书籍大数据、百度搜索引擎大数据等来源
。所使用的研究方法包括
社会网络分析、词频分析、语义情感分析、时间序列回归、面板数据分析、空间分析、话题模型
等方法。
大数据给社会科学带来了众多机遇,不仅对学科本身发展起到了实质性地推动作用,而且将对现实的政策实践产生深刻影响。
网络社会的崛起已经成为一种历史趋势和一种正在浮现的社会结构。
就社会学学科而言,互联网的发展将是机遇与挑战并存。
传统社会学研究的对象是实体社会,互联网兴起以后,“虚拟社会”开始出现,在微博、微信等社交网络影响下,很多议题已超出传统社会学研究范式。
社会学作为一门研究社会关系、致力于理解社会运作的学科,如何应对网络社会所带来的种种冲击和挑战,已成为该学科能否继续深入推进的重要时代课题。
当前,数据的开放与共享已渐成共识,不仅新兴的互联网公司(如谷歌、百度等)开始免费提供大量数据,传统数据管理者(例如金融机构、电信运营商以及政府部门等)也开始加入这一开放的潮流,数据的获取变得更加便捷,这都将有利于大数据研究领域的进一步推进。
本期为“大数据与社会学”主题的月末最后一次推送,我们从现有研究中精选出14篇优秀大数据研究,以供读者交流与学习。
▽
【文摘封面】
▽
(
1
)张德镇、金倚勋(
2012
),韩国人推特网络的结构和动态,《社会学研究》第
4
期
摘要:
本文旨在通过对韩国人推特网的分析来掌握推特网络的结构和动态。作者追踪了自
2010
年
8
月
1
日至
9
月
30
日期间的
1133365
个韩国人推特帐号
,
并进行网络分析。文章主要包括两部分
,
前半部分分析了韩国人推特网络的一般性特征、回推
(RT)
信息的特性和超链接
(URL)
现状;后半部分对推特中成为热点的“中秋节假期暴雨”和有关“理念性消费发言”的相关推
(tweet)
的传播过程进行了分析。本文虽然是一个探索性的研究
,
但可能具有几个重要的理论意涵
:
根本上来说
,
推特是交流和谈论的空间
,
对已被广泛熟知的幂律分布进行社会科学的解析时需要多加留意;另外
,
推特与脱网
(off-line)
的传统媒体不同
,
其应对性媒体的特性十分突出。
RT
是意见和信息传播的手段
,
灾难情况下的
RT
和关于政治社会事件的
RT
可能会以非同寻常的方式被使用。在推特的论争中
,
一般说来
,
存在着使用与某一概念相反的概念或使用新的概念这两种方式。
(
2
)黄荣贵、桂勇、孙小逸(
2014
),微博空间组织间网络结构及其形成机制——以环保
NGO
为例,《社会》第
3
期
摘要:
本文使用社会网络分析技术探索微博空间中环保非政府组织间关注
/
认同关系网的结构
,
并结合组织间网络、社会运动联盟、互联网研究文献以及我国非政府组织管理制度来探究网络结构的形成机制。研究发现
,
非政府组织间存在紧密的虚拟联系。统计分析显示
,
组织间虚拟关系受网络自组织机制、组织资源、合适性原则
(
注册状态
)
、同质性原则
(
离线关系、地理位置、关注领域
)
和微博使用活跃程度等因素的影响。其中
,
资源发挥“信号”功能
,
是组织可信赖性的基础
,
资源未知者不容易被关注
/
认同。对于资源已知者而言
,
资源匮乏者更积极利用微博平台。未注册组织主动与其他组织建立关系
,
注册组织则避免与未注册组织建立关系。具有线下合作关系或处于同一省份的组织之间更可能建立关注和认同关系
,
但活动领域仅对认同关系具有影响。微博使用活跃程度也对组织间关系具有正向的影响。
(
3
)陈云松(
2015
),大数据中的百年社会学——基于百万书籍的文化影响力研究,《社会学研究》第
1
期
摘要:
本文基于谷歌图书的最新语料库
(811
万种书籍
,8613
亿词汇
),
通过设计、检索社会学的学科关键词以获得历年词频数据
,
对
19
世纪中期以来社会学的发展进行追踪
,
并藉此展示、分析和诠释了社会学的学科轨迹、名家大师、理论流派、领域热点、分析方法
,
以及中国社会学在文化影响力维度上的百年变迁
,
同时对建立
"
社会组学
"
进行了展望。本研究为利用大数据进行人文社科研究提供了初步经验。
(
4
)梁晨、董浩(
2015
),必要与如何
:
基于历史资料的量化数据库构建与分析以大学生学籍卡片资料为中心的讨论,《社会》第
2
期
摘要:
随着“大数据”时代的到来
,
依靠大规模系统历史资料构建量化数据库并进行定量分析成为一种新的、行之有效的研究方法。如何将这类历史资料进行合理有效的编码和数据库化
,
并通过实证分析更好地帮助我们了解社会经济发展的历史经验和对当下的启示
,
成为学界需要加强探索和讨论的关键技术课题。本文试图借助笔者多年来整理、分析近现代中国高校大学生学籍卡资料的经验
,
说明这种新方法论视角用于定量分析历史资料的重要价值与必要性
,
以及可能存在的诸多挑战和可供参考的应对办法。希望藉此引起社会科学与人文学科学者对这种研究方法的关注、讨论、尝试与合作。
(
5
)陈云松、吴青熹、张翼(
2015
),近三百年中国城市的国际知名度——基于大数据的描述与回归,《社会》第
5
期
摘要
:
本文利用谷歌图书的百万书籍大数据
,
以中国地级以上
(
含
)
城市近
300
年来英语书籍中出现的词频来展示和分析城市国际知名度的变迁及其特征。研究发现
,
北京、香港、上海、广州、南京、澳门、天津、台北、重庆和拉萨依次为近
300
年国际知名度的前十强。在此基础上
,
本文进一步对基于书籍大数据的国际知名度和媒体提及率进行基于时间序列回归的格兰杰因果检验。研究表明
,
近代中国大陆城市在国际媒体中的提及率显著影响其国际知名度
,
而港澳台城市的国际知名度和媒体提及率之间则不存在这种关联。这意味着近代以来大陆城市的国际传播主要通过媒体报道进入西方社会。本文最后总结了中国城市国际知名度获得过程的模式和特征。
(
6
)陈华珊(
2015
),虚拟社区是否增进社区在线参与
?
一个基于日常观测数据的社会网络分析案例,《社会》第
5
期
摘要:
对互联网技术的使用是否会增进公民的社区参与一直是一个具有争议性的问题
,
对于网络社区在其中如何发挥作用的相关研究却寥寥无几。本文利用大数据
,
采用一个案例
,
从社会网络分析的视角对此进行研究。通过区分不同性质的讨论网后发现
,
网络社区对业主的网络公民参与存在正效应
,
不同议题的讨论网关系可以相互转化
,
从而促进网络参与。
(
7
)陈云松、孙
艳、严
飞(
2015
),大数据中的中国世界文化遗产
: 500
年国际知名度分析,《学术论坛》第
12
期
摘要:
文章利用谷歌图书的百万书籍大数据
,
以中国世界文化遗产近
500
年来英语书籍中出现的词频来展示和分析其国际知名度的变迁及其特征。研究发现
,
长城、故宫、丝绸之路、元上都、布达拉宫、莫高窟、周口店、明清皇陵、孔庙孔府孔林和庐山依次为近
500
年来中国世界文化遗产国际知名度前十名。不在名录之中的南京大报恩寺塔
,
在
17
至
19
世纪中知名度仅次于长城。中国世界文化遗产国际知名度与国家政治命运、跨国文化交流、国际旅游业发展及城市国际知名度等多种因素相关。
(
8
)龚为纲、罗教讲(
2015
),大数据视野下的
19
世纪“海上丝绸之路”
——以丝绸、瓷器与茶叶的文化影响力为中心,《学术论坛》第
12
期
摘要:
文章以
GOOGLEBOOKS
语料库为数据来源
,
运用大数据与云计算的方法
,
对
19
世纪中国“海上丝绸之路”及主要贸易产品的历史发展趋势、演变过程、关系网络及社会影响等进行宏观考察。通过大数据词频分析方式
,
描述茶叶、丝绸、瓷器等产品在西方主要国家文化影响力的变动轨迹
;
通过语义情感分析来反映中国产品在西方各国美誉度的变化过程
;
通过空间分布分析技术呈现
19
世纪“海上丝绸之路”主要贸易主体及路线
;
通过关系网络分析技术建构近代“海上丝绸之路”相关国家、城市之间的互动格局。文章以大数据的视野和方法对
19
世纪“海上丝绸之路”的研究
,
是大数据时代下历史社会学研究的新尝试、新探索。
(
9
)张亮亮、张洪、李双龙、吴楷文(
2016
),大数据中的中国文化名人名著
: 500
年国际知名度分析,《学术论坛》第
6
期
摘要:
文章基于谷歌图书的百万书籍大数据
,
以中国文化名人名著近
500
年来英语书籍中呈现的词频来分析其国际知名度的变迁及其特性。研究发现
,
孔子、孟子、朱熹、李白、杜甫、鲁迅、梁启超、康有为、王维和墨子为中国文化名人国际知名度前十名
;
《论语》《周易》《诗经》《史记》《道德经》《礼记》《水浒》《春秋》《尚书》和《楚辞》为中国文化名著国际知名度前十名
,
且中国文化名人名著的国际知名度具有内在相关性。我们发现
,
国际知名度的变化和政治事件、“中学西渐”密切相关
,
具有跨文化传播流派连带性
,
并且与国际知名度的朝代分布和国力、文化多元繁荣度密切相关。
(
10
)柳建坤、吴愈晓、刘伟峰(
2016
),中国城市国内知名度的变迁和机制——基于海量书籍和互联网搜索引擎的大数据分析,《学术论坛》第
6
期
摘要:
文章利用谷歌图书最新中文语料库和互联网搜索引擎的海量城市数据
,
以
"
词频统计
"
的方法分析和展示了中国主要城市的国内知名度在建国以来约
70
年发展历程中的变迁轨迹及其结构特征。研究发现
,
政治地位、经济能级和文化资本是建国以来中国城市国内知名度的主要建构机制
,
并因社会发展体制变革和国家建设目标转换而发生阶段性的地位递次更替
,
其具体变化还受到国家制度投入、地缘位置和媒体报道的影响。
(
11
)孙艳、黄荣贵、洪岩璧(
2016
),大数据中的中国非物质文化遗产
:300
年国际知名度分析,《学术论坛》第
6
期
摘要:
文章利用谷歌图书的百万书籍大数据
,
以中国世界非物质文化遗产近
300
年来英语书籍中出现的词频来展示和分析其国际知名度的变迁及其特征。研究发现
,
妈祖、京剧、书法、针灸、端午节、皮影戏、粤剧、雕版印刷、格萨尔和昆曲依次为近
300
年来中国世界文化遗产国际知名度前
10
名。从
300
年知名度变迁形态上看
,
非物质文化遗产和物质文化遗产的国际知名度紧密相连
,
并受到跨国交流、现代化进程以及民族文化自觉意识的影响。
(
12
)陈云松、朱灿然、张亮亮(
2017
),代内“文化反授”:概念、理论和大数据实证,《社会学研究》第
1
期
摘要:
“文化反哺”是代际的反向社会化。而本文提出,反向社会化有代际和代内两种模式。随着互联网特别是自媒体的普及,以代内反向传播为特征的“文化反授”现象应运而生,文化的传授者比学习者年轻,但不具有亲子式的代际年龄差异。与代际“文化反哺”相比,代内“文化反授”具有年龄差距趋近化、空间距离扩大化、传承关系多元化、施受身份瞬时化、传播内容选择化和变迁条件虚置化等六大特征。在理论阐述的基础上,本文以“网络热词”的传播为例,利用提取自新浪微博和百度搜索
2013
—
2015
年的网络热词的每日词频指标进行了实证研究。基于时间序列的宏观分析和基于面板数据的微观分析均证实了代内“文化反授”模式的存在。
(
13
)陈云松、严飞(
2017
),网络舆情是否影响股市行情
?
基于新浪微博大数据的
ARDL
模型边限分析,《社会》第
2
期
摘要:
本文基于新浪微博大数据
,
分析互联网上的股市舆情是否影响真实世界中的股市行情。在梳理网络舆情
,
特别是微博影响股市的机制的基础上
,
我们利用具有“利好”和“利空”含义的股市术语的微博出现词频
(
“热词指数”
),
生成股市的“微博信心指数”。“格兰杰因果检验”和“自回归分布滞后模型”
(ARDL)
边限检验表明
:
在股市震荡期
,
早前三天内的“微博信心指数”有助于预测上证指数
;
“微博信心指数”和“上证指数”存在正向相关的均衡关系
;
在股市行情平稳期
,
以上的统计关联并不存在
;
网络舆情通过影响入市资金流进一步影响股市行情。
(
14
)黄荣贵(
2017
),网络场域、文化认同与劳工关注社群——基于话题模型与社群侦测的大数据分析,《社会》第
2
期
摘要
:
基于“网络与文化”和关系社会学的理论
,
本文指出网络场域与所沟通的文化内容之间存在互构关系。本文使用话题模型分析了关注劳工议题的用户所发布的
51288
条博文
,
结果显示
,
劳工话题大致涉及以下几方面
:
文化与公益、工人的困境与问题、维权行动与工人组织、制度与劳工权。对用户间互动模式的社群侦测揭示了
5
个主要社群
,