专栏名称: PoIiticaI理论志
四万余社会学人、政治学人、经济学人共同关注的学术平台。目前,我们主力追踪国内外政治学、社会学与经济学研究新动态。
目录
相关文章推荐
柳州晚报  ·  最新!国企回应:不存在违规操作! ·  昨天  
中国电信  ·  一大波“黑科技”重磅亮相国家博物馆! ·  2 天前  
中国能建  ·  不好意思,百亿男主哪吒被拦下了...... ·  2 天前  
51好读  ›  专栏  ›  PoIiticaI理论志

怎么处理文本数据?自动文本分析的三种类别 | Social Science Research

PoIiticaI理论志  · 公众号  ·  · 2025-01-20 10:00

正文

编者荐语:
文本正越来越成为社会科学研究中的重要的可观察足迹。大规模利用这些数据为社会科学提供了独特的机会,但也提出了与之对应的独特挑战。本文用较为易懂的语言解释了作 者对自动文本分析三个类别的解释,它有助于我们更为生动地理解:什么是自动文本分析?其优缺点何在?我们何以看待其未来发展?本次编译节选了其中较为清晰易懂的解释性部分,希望能为大家打开一扇自动文本分析的小小窗户。





因公众号推送规则变更

点击标题下方蓝字 关注 + 星标 “Political理论志”

不错过社会科学前沿精彩信息哦

具体操作如右 →



自动文本分析的三种类别

摘要

本世纪以来,社会科学家越来越多地使用由人类生成的、机器可读格式的文本数据,这些数据为我们了解社会生活提供了一个独特的窗口。然而,如何系统地利用这些高度非结构化的海量数据,在分析和方法上都面临着独特的挑战。幸运的是,我们对如何克服这些挑战的理解在同一时期也有了很大的发展。在本文中,我将对社会科学家在大规模分析文本数据时所使用的方法进行新颖的分类。在本文中,我将对社会科学家用于大规模分析文本数据以检验和发展社会理论的方法进行新颖的分类。我将其分为三类:(1)词频分析,(2)文档结构分析,以及(3)语义相似性分析。对于每个方法系列,我都会讨论它们的逻辑和统计基础、分析的优缺点,以及突出的变体和应用。

作者简介:

Austin van Loon,美国斯坦福大学

文献来源

van Loon, A. (2022). Three families of automated text analysis. Social Science Research, 108, 102798.

本文作者: Austin van Loon



本文将当今最常见的自动文本分析方法分为三类。第一类是词频分析法,它将文本表示为某些字符串(如单词)出现频率不同的观察结果。第二个系列是文档结构分析,它假定人们可以从词语共现统计中提取出任何给定文档的“内容”(即适当的关键词或主题),并将文本表示为在这一特征上各不相同的观察结果。第三个系列是语义相似性分析,它试图量化字符串的含义,并将文本表示为这些含义的集合。



一、 词频分析法


社会科学家们利用越来越多的计算资源和机器可读的自然语言来测量词语选择的模式,即特定词语的使用频率,此类方法称为词频分析。这类方法大致分为两类。 第一类是封闭式词汇方法 ,先验地指定一套理论构造,通过选词和文本元数据进行操作。 第二种是开放式词汇方法 ,即通过对选词进行归纳分析,找出能解释文本元数据某些方面的模式。下面我将依次描述并举例说明这两种方法,然后在讨论部分对它们进行比较。

(1)封闭式词汇方法
词频的一种用途是作为标准假设检验框架中的变量。 也就是说,我们首先要对两个或多个理论概念之间的关系提出一个理论,而某些词汇的频率(通常是归一化的) 就是这些概念中的一个或多个概念的可操作化呈现。 然后,这些词汇的频率被用作回归分析等统计程序中的变量。其中的关键假设在于,一个或一组词汇的流行程度与理论上的构架是有意义的。

例如,研究人员推导出了一组词语,并认为这些词语在大众传播中的出现表明了文化上的威胁感。他们通过时间序列分析表明,这些词在美国报纸上的流行率上升与国际冲突、疾病传播和自然灾害相对应,从而验证了这一说法。

没有一个固定的方法来得出一组用于理论结构的单词,但我们可以 观察到一个大致的框架 。首先,开发一组“种子词”,即与感兴趣的概念紧密对应的关键字。然后,这些种子词可以通过人类的判断加以扩展。也可能有一个修剪阶段,与感兴趣的概念关系太远的单词被删除。这些步骤可以重复多次,直到达到一个令人满意的词汇组为止。 类似地,在编译后也没有验证的单一方法。 牢记一点: 我们应该回到语料库中使用的词汇中的特定示例,以确认它们是否按预期使用。

(2)开放式词汇方法
词频分析的另一种方法是归纳式的,允许从语料库中发现词汇频率与元数据之间的有趣关系。 在差异语言分析 (DLA)中,分析师选择一个感兴趣的因变量——通常是文档级元数据。 然后, 针对词汇中的每个词汇,计算其流行率与因变量之间的关联(如皮尔逊相关性)。 然后对每次测试的P值进行多重比较校正,以降低错误发现的风险。 最后,对结果进行总结(例如以文字云 的形式进行图解),并提交给研究 人员,然后由研究人员对感兴趣的经验现象进行深入分析。 这些见解依赖于对词汇频率所代表的理论上有趣的概念进行后验解释,这可能需要额外的分析来为之辩护。

开放词汇和封闭词汇的词频分析法(见图1)有其独特的优缺点。 在封闭式词汇分析中,研究人员从理论中推导出一系列语言特征和元数据,这些特征和元数据可以操作相关的构词法,并通过适当的统计检验来测试它们之间的关系。在开放式词汇分析中,语言特征是从数据中自动得出的,并通过统计测试检验每个特征与元数据之间的关联。这些统计测试的结果将汇总给研究人员,研究人员可从中获得有关数据的见解。

图1:开放词汇和封闭词汇的词频分析法的过程比较


在预测文本作者的重要心理变量时,开放词汇方法一般优于封闭词汇方法。 然而,社会科学家通常对预测不感兴趣,而是对检验现有的社会理论感兴趣。词频分析的核心假设是一个词汇的流行程度始终反映了文档、其作者或文档产生的上下文等有意义的东西。然而,单词有多种含义,这可能会导致研究人员误入歧途。所有的词汇频率分析,无论是开放词汇还是封闭词汇,最终都依赖于研究人员确定的验证来证明词汇频率和理论结构之间的对应关系。




二、 文档结构分析


词汇词频分析通常将词汇视为原子,而文档通常是日常生活中有意义地使用文本的单位。我们更经常谈论的是具体的推文、政策平台和文本信息,而不是个人使用某个词或某类词的频率。我所讨论的第二类方法分析文档层面,试图估算词语在文档中分布的隐性模式。

自动化文档结构分析的第一种方法是潜在语义索引/分析 。它们假定存在一组潜变量,通常称为“主题”或“专题”,其值决定了特定文档的内容。这些变量的值与每份文档的内容相对应。例如,一份文档可能具有很强的政治特征,因此会包含大量与政治相关的词汇。同样的文档可能不是流行文化类的,因此不会包含很多与流行文化相关的词汇。这些方法可以归纳出特定语料库中文档关于的一组事物,然后确定其中每篇文档是关于什么的。通过估计这些潜在变量,这些方法(或明示或暗示)为文档生成的复杂过程提出了一个可分析的结构。

文档结构分析在理论构建和检验中的作用至少有两个方面。 首先,它可以通过突出语料库中的重要主题来辅助基础理论或其他归纳法。另外,文档中出现的主题也可以作为衡量标准,用来概括语料库的内容,对预先指定的理论进行演绎测试。

文档结构分析有两种主流方法。 第一种是通过贝叶斯推理推断主题的方法集,被广泛称为“主题模型”。第二种方法将文档词汇矩阵(或其转换)视为邻接矩阵,然后将其建模为网络。然后采用 社区发现算法(Community Detection Algorithms) 来识别主题。

文档结构分析依赖于对共现度统计数据的假设,因此 文档的边界也是有意义的 。这与词汇频率分析有根本上的不同。其好处在于,它通过词语共现度来检测语料库中的主题,减少了与词汇歧义相关的关注。重要的是,对 共现度 的依赖意味着关于文档边界的决定是极其重要的。对书的内容建模以使每本书成为文档的方法正确吗?每一章吗?每一段吗?答案取决于研究问题和语料库的细节。然而,一个指导性的见解是:大多数文档结构分析方法假设主题和文档之间存在稀疏的关系——也就是说,文档只涵盖一个或几个主题。 但现有的文档结构分析方法仍存在一定弱点: 依然依赖于研究人员个人的决策。



三、
语义相似性分析


在语义相似性分析中, 研究者对语料库中所使用的概念或单词给出一个 与其含义相对应的 定量表示, 随后再对其定量表示进行比较。 原则上,这可以用各种工具来实现。然而在社会科学中,绝大多数用于定量表示词汇含义的方法是所谓的“单词嵌入”。分配假说指出, 当两个词的“含义”更相似,使用的上下文更相似时更相似。 换句话说,如果两个词汇是完全可互换的,那么它们就是完全同义的——它们的互换性越少,它们的同义性就越少。

图2中列举了一个例子,其中可见“牙医”和“正畸医生”相互使用的语境更相似,而不是“医生”,这表明“牙医”和“正畸医生”更同义,而不是“医生”。

图2:说明分布语义的核心思想的概念图

(A)将三个单词绘制在一个三维空间中,对应于它们在三种上下文中出现的频率。(B)根据实例可能包含三个单词中的一个的比例绘制的三种上下文。如果所有的上下文和单词同时被表示出来,则这两种表示法是等价的。在(A)中,单词彼此之间越接近,其意义就越相似,而在(B)中,点在各自轴上的位置就越相关。


语义相似性分析的应用可以通过感兴趣的数量是单个语义空间内的单词的接近性,还是从多个语料库估计的语义空间间相同距离的差异来区分。我称前者为“语料库内方法”,后者为“语料库间方法”。







请到「今天看啥」查看全文