Bochkay, K., Brown, S.V., Leone, A.J. and Tucker, J.W. (2023), Textual Analysis in Accounting: What's Next?. Contemp Account Res, 40: 765-805.
Natural language is a key form of business communication. Textual analysis is the application of natural language processing (NLP) to textual data for automated information extraction or measurement. We survey publications in top accounting journals and describe the trend and current state of textual analysis in accounting. We organize available NLP methods in a unified framework. Accounting researchers have often used textual analysis to measure disclosure sentiment, readability, and disclosure quantity; to compare disclosures to determine similarities or differences; to identify forward-looking information; and to detect themes. For each of these tasks, we explain the conventional approach and newer approaches, which are based on machine learning, especially deep learning. We discuss how to establish the construct validity of text-based measures and the typical decisions researchers face in implementing NLP models. Finally, we discuss opportunities for future research. We conclude that (i) textual analysis has grown as an important research method and (ii) accounting researchers should increase their knowledge and use of machine learning, especially deep learning, for textual analysis.
文本分析技术及在经济学和商学中的应用
目录
一、概论
叙述(narrative)是“理解人类行为的动机和经济影响”的重要抓手(Shiller 2017),而文本是叙述的主要呈现形式,因此分析大量文本是开展经济与管理研究的重要渠道。传统的分析文本方式是人工整合分析,而自然语言处理(natural language processing, NLP)的出现使得分析文本更加简便、迅速、高效。本论文所讨论的文本分析(textual analysis)就是将自然语言处理技术(下文简写为NLP)应用于文本数据。
目前已有三代词嵌入模型。第一代由Bengio et al. (2001)提出,使用基于统计相关性而非上下文的概率方法提出了词嵌入的想法。第二代词嵌入技术使用浅神经网络(少于三个隐藏层的人工神经网络)和无监督学习来发现训练数据中的词关系,例如谷歌开发的Word2Vec和斯坦福大学开发的GloVe。虽然这两者仍然被广泛使用,但它们不能反映当前文档的上下文是一个明显的弱点。第三代词嵌入技术解决了这个缺点,这是深度学习语言模型提供的一种扩展类型的嵌入,如ELMo和BERT。
例如,“bad”和“terrible”在字典法中是同样的权重,但事实上,单就这两个单词看,“terrible”所表达的负面情绪自然比“bad”要强。Bochkay et al. (2020) 制作了一个兼具情感方向和情感程度的词库。
研究者必须决定否定词和程度词如何处理。例如“无法确认”“更糟糕”。
情感词库可能没办法很好适用于所有待研究的文本。
3.1.2 机器学习方法
与字典方法相比,机器学习可以解释语言的特殊性,如否定词、强化词和基于词性或上下文的不同含义。
在情感分析中应用机器学习方法,是使用标记的训练数据(例如,分类为积极、消极或中性的句子)来发现输入文本特征和输出情感标签之间的关系,然后使用训练过的模型来分析其他文本的情感。这是一种监督学习。Heitmann et al. (2020) 对216篇出版物进行了meta分析,发现传统机器学习进行情感分析的准确性远超字典法。深度学习方法进一步优于传统机器学习方法。不过,目前还只有少数会计研究使用传统的机器学习或深度学习模型进行情感分析,且直到最近才开始使用转换器。研究人员需要为监督学习而对数据进行标记,传统机器学习模型通常必须从头开始训练,而迁移学习允许使用相比于传统机器学习更少的训练数据来微调预训练的深度学习模型。
举例 有几种类型的机器学习模型被用于情感分析。传统的机器学习模型包括NB (F. Li 2010b; Azimi and Agrawal 2021)、SVM (Howard and Ruder 2018)和RF (Frankel et al. 2021)。在深度学习模型中,CNN、LSTM和转换器(例如BERT)都可以执行包括情感分析在内的各种文本分类任务(Zhang et al. 2015; Wang et al. 2016; Colón-Ruiz and Segura-Bedmar 2020)。针对金融文本的转换器模型有FinBERT,在BERT的架构下使用金融文本训练模型。
3.2 可读性(Readability)
可读性是指读者在理解文本时所承受的认知负担。这受到许多因素的影响,包括词的复杂性、词的熟悉度、语法、思想之间的内在联系和读者的知识(Martinc et al. 2021)等。
例如,Petersen and Ostendorf (2009), Vajjala and Meurers (2012)以及Madrazo Azpiazu and Pera (2020) 使用传统的机器学习模型将文本转换为一组可读性特征的集合,包括传统特征(如FOG)、衡量语篇连贯和衔接的话语特征、一个词的常用程度等。
该方法的一个主要缺点是可能无法推广到不同的背景(例如,维基百科文本、美国SEC文件、财报会议)和不同的受众(例如,高中生与博士生,经验丰富与经验匮乏的投资者)。Martin et al. (2021) 提出了一种基于深度学习的无监督方法,并证明他们这种方法生成的可读性指标在分析不同的语料时比传统的可读性指标有更一致的表现。
3.3 披露相似度 (Disclosure Similarity)
余弦相似度是衡量披露相似度的最常见方法之一(Schütze et al. 2008)。计算余弦相似度的传统方法是用词袋法表征每个文档,接近1的值表示高度相似,而接近0的值表示低相似。
基于BOW的计算方式十分直观,在精确匹配中表现出色,例如剽窃检测和对文档的逐年修改(比如上市公司年报);问题在于,该方法将所有单词视为相互独立,而不考虑单词之间的语义关系,这样,当这一方法面对两个形式上不同但表意相同的句子时会显得乏力。基于BOW的计算有两种加权方式。一是使用原始单词计数,即词频(term frequency weighting, tf),二是使用词频-逆向文件频率(term frequency–inverse document frequency, tf-idf),它降低了在文本库中普遍存在的单词的权重,从而结合了整个文本库的信息(Salton和Buckley 1988)。有多项会计研究使用基于BOW的余弦相似性来检验公司披露的相似性或差异性(S. V. Brown and Tucker 2011; Peterson et al. 2015; S. V. Brown and Knechel 2016; S. V. Brown et al. 2018)。
这种方式仍然是简单而有局限性的——尤其是在准确性上有很大牺牲。这种方式会导致很高的I类错误概率(S. V. Brown et al. 2021),也就是假阳性,把本不属前瞻性陈述的句子标记为前瞻性陈述。
3.4.2 机器学习方法
前瞻性陈述分类可以通过各种监督机器学习模型来完成。S. V. Brown et al. (2021) 通过提供人工注释的训练数据来微调预训练的CNN模型,其算法在88.2%的时间里正确地识别出一个句子是否是前瞻性的,而使用Bozanic et al. (2018) 的最佳可用词典的字典方法的准确率为73.4%。
最常见的主题模型是LDA,它最初用于BOW文本表示方法下的单个单词计数。Campbell et al. (2014) 首次在会计中使用LDA,以衡量公司风险披露的数量。A. Huang et al. (2018)、Dyer et al. (2017)、N. C. Brown et al. (2020)均使用了LDA进行研究探索。6.2节会进一步介绍这一方面的最新进展。
Carrizosa and Ryan (2017) 在其研究中需要使用单词和上下文来识别贷款合同是否包含一种特定契约。他们在建立词典和识别后,将识别结果与另一个随机选择子样本的人工识别结果进行比较,并调整字典,直到达到所需的准确性。这种做法值得借鉴。文章建议研究人员通过其他人来检查其测量的内容有效性。这里的“其他人”可以是研究助理,也可以是实验的对象。比如,Bonsall et al. (2017) 通过MTurk员工对致股东的信件的可读性进行评级,Muslu et al. (2015) 要求MBA学生在50个随机选择的MD&A披露中识别前瞻性句子。
4.2 由监督机器学习方法构建的度量的效度
监督式机器学习有一个内置的验证机制。带注释的训练数据集通常分为训练、验证和测试样本。
l 训练样本(training sample)用于拟合模型并确定代表数据关系的权重。
l 验证样本(validation sample)是用于评估拟合模型预测样本外观测值的能力的保留样本。
有几个表现指标可用于量化这一比较。首先是一般的训练-验证-测试(train-valid-test validation)。
l 精准率(precision)是真阳性(true positive,模型将正实例判定为正类,也就是说“正确判断了这件事是正确的”;
其他三个概念定义类似)的数量除以模型识别为阳性的项目数量(例如,在模型识别的所有含前瞻性信息的句子中,有多少被正确识别)。
l 召回率(recall)是样本中被正确识别的阳性项目的百分比(例如,在文档中所有前瞻性句子中,有多少被模型识别为这样的)。它等于1−Type II error。
l
F
-Score是精准率和召回率的加权平均。许多研究使用
F
1-Score,这是精准率和召回率的调和平均(harmonic mean),越接近1,则模型在两方面的综合表现越好。
l 准确率(accuracy)是正确分类的样本数(真阳性、真阴性)在总样本中的比重。上面三个指标都忽视了真阴性的存在,准确率弥补了这一缺失。在情感分析中,准确率是最常用的指标(Heitmann et al. 2020)。需要注意的是,准确率考虑了真阴性,但对所有观察结果赋相同权重。如果研究人员对真阳性感兴趣,但样本主要由“阴性样本”组成,那么准确率可能不合适。
在训练-验证-测试之外,
K
折交叉验证(
K
-fold cross validation)也通常用于传统的机器学习。交叉验证是把样本数据进行不同的切分,形成不同的训练集和测试集。在
K
折交叉验证中,训练数据被随机分成
K
等份,然后进行
K
次实验,每次保留一部分用于样本外测试,剩余的
K
−1部分用于训练,最终评估结果是
K
次实验的平均值。这种方法对于小样本特别有用,因为所有的训练观察值都参与模型学习,且可以显示模型是否对训练样本的随机性敏感。
需要注意的是,监督式机器学习依赖于样本标注,所以标注的质量对于所产生的度量的内容有效性非常重要。否则,垃圾输入将导致垃圾输出(Geiger et al. 2021)。对样本进行标记的人可以是研究人员自己,可以是研究助理,也可以是其他人(例如通过在线平台等方式招募第三方注释者)。文章建议至少使用两名人工标注员,以便评估注释的一致性。一条经验法则是,对于二元分类,两个标注员之间的一致性要达到80%。标注员的判断分歧可以让研究人员理解算法难以区分的情况,毕竟,如果某个样本对人类而言判断困难,那么对机器来说可能也很困难。这样,研究人员可以调整模型训练目标或针对这种挑战性案例提供更多的训练观察。
人工标注样本可能很昂贵;同时,人工标注样本虽然精确、详细,适合研究人员的设置,但比较主观的,其他人很难复制,可能导致样本小,从而导致训练无效(Frankel et al. 2021)。“间接注释”的方法可能很有效,同时也可能会带来文本信息以外的其他信息,使内容更加丰富。例如,一些研究使用从金融数据中收集的变量来标记训练数据中的输出变量(Siano and Wysocki 2021; Frankel et al. 2021)。
l 表面效度(face validity)。研究人员可以检查与聚类相关的最常见的单词或短语,并检查它们是否具有语义一致性。
l 聚合效度(convergent validity)。研究人员可以选择某些聚类,并检查它们是否在包含预计会影响这些聚类的重要经济事件的时期发生变化,或者将聚类与捕获类似结构的变量关联起来。
l 区分效度(discriminant validity)。研究人员可以要求其他人员进行“单词入侵”(“word intrusion”)检查。也就是说,为检查人员提供每个聚类的单词列表(一个单词在给定聚类中的概率很低,但在不同聚类中的概率很高,而其余单词在给定聚类中的概率很高),并要求他们识别低概率出现的单词。
l 研究人员常常使用企业的运营分部(operating segment)和地区分部(geographic segment)来表示业务复杂性和地区复杂性,但不是所有公司都以相同的方式和“颗粒度”报告它们的分部。文本分析可以提供另一种量化公司业务或地区多样性的方法,比如使用NER技术识别,并进一步标记为细分类型(如将位置进一步标记为配送中心、卫星办公室、商店、竞争对手位置等)。
l 统计监管文件中与“竞争”相关的单词经常被用作感知竞争水平的代理变量(F. Li et al. 2013)。使用NER等技术对所研究公司提到的同行业公司进行分析,可以获得更精确的结果,并可以进一步标记为细分类型(该竞争属于劳动力、产品、供应商市场的竞争还是其他)。同样地,对于企业正遭受的风险,也可以标记为细分类型。
l 深度学习还可以帮助提取数据。例如使用XBRL数据训练模型,从公司的披露信息中提取特定信息;在财务报告中提取风险因素、从管理层讨论与分析(MD&A)中提取关于流动性相关的因素。
为了克服(1)的问题,Dieng et al. (2020)开发了嵌入式主题模型(ETM),使用词嵌入作为LDA的输入。词嵌入(如Word2Vec;也可以用Doc2Vec和Topic2Vec)不仅降低了高维问题,而且还表示了词的语义。结构主题模型允许包含作为一种“固定效应”的协变量,以便主题可以与非文本信息关联起来(Roberts et al. 2013)。
对于(2)(3)的问题,可以预先分组成感兴趣主题的单词来对初始主题进行引导 (Jagarlamudi et al. 2012),但这样仍然不能保证预先分组的感兴趣的主题能够保留在最终模型中。此外,研究者还可以约束主题模型,只发现与研究者提供的标签集相对应的主题,这种方法被称为标签LDA(Labeled LDA; Ramage et al. 2009)。如果主题发现的目标是预测结果变量,那么可以应用监督LDA(supervised LDA, sLDA; Blei and McAuliffe 2007),在这个模型中,每个主题的权重由机器根据训练数据确定。也有研究将LDA与信息论中的KL散度(Kullback-Leibler (KL) divergence)结合在一起来标记主题(Lowry et al. 2020)。