Mark Turner教授从自己的学术背景引出了讲座的主题。因为同时具有语言学和数学教育背景,Mark Turner教授一直以来都对人际交流和数据十分着迷,并尝试将两者紧密结合进行研究。在基于数据进行人际交流研究的初期,文本是研究的主要数据,虽然也取得了一些成果,但Mark Turner教授认为当时的研究存在一定的局限性。首先,由于数据检索技术的限制,文本的可得性较低,很多极具研究价值的文本无法成为研究对象;其次,能够获得的文本数据主要集中于报纸等出版物,而这些文本都经过了反复的编辑并可能具有一定的偏向性。
基于这些具有局限性的文本,原有的研究实际上只能触及人际交流的部分特殊情况,这主要是由于现实中的人际交流具有个人化、动态化、多模态的特点。
所谓多模态即人们在进行交流时通常会利用口头表达(Speech)、书面表达(Writing)、手势(Gesture)等多种方式。借助一名1岁小女孩利用多种手段进行交流时的视频场景,Mark Turner教授指出人际交流最普遍的场景都是多模态的,这就要求人际交流研究关注多模态数据。
随着“大数据”理念以及相应技术的发展,人际交流研究取得了新进展,Mark Turner教授介绍了其所在实验室Red Hen Lab™在该领域取得的三个方面的突破。其一,数据库的数据量极其庞大,且囊括了英语、汉语、德语、法语、俄语、意大利语等世界主要语言;其二,数据来源越发全面,除了报纸、杂志等传统出版物,新闻、电影、漫画等不同交际形式中的数据都被纳入数据库;其三,数据类型不再仅限于文本,手势、表情、交际场景等多模态信息都成为了研究对象。
人际交流研究的发展离不开研究工具的进步,Mark Turner教授随后着重介绍了用于多模态人际交流研究的各种大数据工具。如自动语义角色标注(Automatic Semantic Role Labeling)能够实现对文本信息语义的自动加工,从而为人际交流分析提供特定的交流场景数据。而姿态注释工具ELAN能够捕捉屏幕上参与交际人员的头部、手部以及肩部的动作,随后对信息进行解码和数据分析。类似地,诸多新兴的大数据工具能够实现多模块数据的收集、分析与可视化,这对于人际交流研究而言意义重大。