二、互联网促成新的社会学研究方法
首先,互联网促成新的社会学测量方法。
定量社会学研究过程中的一大障碍是缺乏适当的测量。一是概念的模糊性;二是难以获取个体行动者的互动数据。由于数据和观测手段经过多重转换,某种程度上偏离了概念的原始内涵。因此,定量测量与概念之间的偏差在经典社会学研究中是一个长期存在且被相对忽视的问题。在互联网时代,新的数据记录设备和获取手段的出现在一定程度上解决了第二个问题,但定量研究面临的第一个问题或将更为突出。在互联网及大数据背景下,人们所收集或观测的数据基本可归类为日志数据或行为踪迹数据。与基于问卷调查的测量数据不同,这类观测数据在时间和空间上具有连续性,且随着技术性手段的丰富,数据精度越来越高,数据规模越来越膨胀,因此传统的测量方式,例如量表、复合指数或因子分析等或不再适用,或难以提取足够的信息。基于小样本的方差分析和经典线性回归模型面对高维数据已力不从心。在过去20年中统计学家发展出的罚则回归 (Regularized Regression) 模型已被广泛运用于数据挖掘和生物基因科学研究领域,该模型也适用于大规模社会网络的测量。
除了行为数据,数字化文本也开始进入定量研究的视野。基于社交媒体的网络民意或舆情研究就面临如何处理海量文本信息的问题。对于每天产生的社交媒体信息,以人工阅读搭配手工编码的传统定性研究方式显然无法胜任。在经典的文本分词、分类、相似度计算、词频分析等文本算法基础上,社会科学研究者开始研究如
何以定量的方式将日常的文本表达与理论概念相对接。这一领域涉及主题建模(Topic Modeling)等文本语义分析方法 。
其次,互联网推进实验方法在社会学中的应用。
在社会学研究过程中,导致无法像自然科学那样做出因果推断的一个重要原因,在于社会学研究对象的特殊性,即难以进行完全的随机实验。为解决这一问题,社会科学家设计了多种方法,力图从数据上实现因果推断,包括倾向值匹配、工具变
量、结构方程等等。在这些方法中,近年来备受社会学家关注的是一种 “准自然实验”(Quasi Nature Experiment)的方法。在复杂的现实社会中,力图使用 “准自然
实验”方法进行社会干预,获得更为随机分配的实验组和控制组数据,以进行更为
严格的因果推断。但这种技术由于投入的人力物力成本巨大,远远超过了传统的抽
样调查技术,因此 “准自然实验”方法在现实应用中受到很多限制。
互联网的发展,为大规模的 “准自然实验”甚至是 “自然实验”方法提供
了新的手段。例如在2010年美国国会选举过程中,有学者研究了社会网络对于
个体行为的影响效果。设计思路非常简单,随机给6100万名 “脸书”
(Facebook)用户发送不同类型的 “出去投票”的信息:参照组仅仅收到 “出去
投票”的信息,实验组不仅收到这一信息,还可以看到已经投票的朋友的头像。实验结果令人吃惊,给用户看到自己朋友的投票情况,显著提高了实验组的政
治投票行为,社会网络中亲密朋友对实际投票行为的影响效果是 “出去投票” 这个参照组的4倍。另外一个著名的网络随机试验来自哈佛大学金加里 (Gary King)教授。为检验互联网治理的逻辑与运作实践,他的团队做了一项大规模的网络随机试验:在社交媒体上大量创建帐号,并上传随机分配的文本,然后通过全球计算机网络侦测这些文本是否遭到屏蔽。最后,互联网促进了社会学可复制性研究的推广。可复制性研究对于社会学定量分析具有重要意义。陈云松与吴晓刚提出,建立一个透明和开源的学术机制,让研究数据和模型公开共享,使得研究成果可以得到他人的验证和进一步拓展,从而深化社会学定量研究。互联网为定量分析的可重复提供了便捷载体,定量研究的模型技术处理细节,如样本的删节、数据的编码等等,都被详细记录在计算机程序源代码里,算法与数据的公开,有利于研究者利用自己的方法和视角来复制已有的研究结果,从而可以更加有效地完善已有研究。