☝点击上方蓝字→点击右上角“...”→点选“设为星(置)标(顶)”
数字人文是人文学科与数据技术交叉产生数字人文资源和形成新人文知识组织模式、方法论和认识论范式的领域。在过去的十年中,数字人文的发展所推动的文艺研究,显示出的最大特征就是从数字化阶段向数据技术(包括“关联数据”、本体—语义网、“大数据”和人工智能)驱动跃升和深化拓展。数据技术驱动下文艺研究的深化拓展有三种主要面向。数据驱动下的文艺研究底基是数据库建设的升级。国内过去10年数字人文数据库建设经历了两种重要的变化。一种是低版本数据库或按照“关联数据”模式、本体—语义网等进行跨库融合和升级整合。如上海图书馆2015年开始采用关联数据技术,对该馆的《中国家谱总目》、古籍数据库以及史志目录、官修目录、私家藏书目录等数据进行整合,建设了中文古籍联合目录及循证平台。国内一些大型图书馆如国家图书馆、北京大学图书馆也进行了类似的项目建设,其中包括“红色文献数据库”。另外一种,就是在“大数据”下,建设具有“大数据”性质的数据库。浙江大学在建的“智慧古籍平台”,就是借鉴知识图谱理念,综合运用大数据的计量统计、定位查询、空间分析、数据关联等技术开发的平台。四川大学的“唐宋文学编年系地信息平台建设”项目,旨在研发唐宋文学编年地图平台,平台在挖掘提取数据时注重增补谱主的任职地、经行地、出生地、创作地信息。北京大学与字节跳动合作研发“古籍数字化平台”,其技术核心是将人工智能和大数据应用在海量的古籍文献上,实现古文本知识图谱的自动生成和对古籍内容的智能化整理。武汉大学与敦煌研究院合作开发“敦煌智慧数据资源建设与服务应用”建设项目,在“数字敦煌”资源库的基础上,进行敦煌文化遗产主题词表构建与关联数据发布、敦煌文化遗产本体模型设计与应用、敦煌壁画图像与遗书文本的深度语义标注等。北京大学朱青生主持的“汉代图像数据库”,主要记录汉代画像石的图像信息、实物信息和著录信息。在艺术研究中,有一类数据库特别值得关注,这就是根据国际上基于实验心理学、人工智能神经网络研究对图像美感和情感关系展开定量研究,所形成的图像美感数据和艺术情感标注数据库等,中国传媒大学媒介音视频教育部重点实验室开发了“中国国画情感—美感数据库”,为中国艺术的数据艺术史研究提供了具有语义分析功能的工具。国外人文资源的数据库建设,包括海外中国文献资源和艺术图像的数据库建设,则比国内要快,技术也更为成熟。这些根据数据技术所建立的数据库,大都具有“平台”性质,即数据库在提供海量数据的同时,会内嵌进行除检索之外的方法工具和扩展研究的接口,使研究者可以在“平台”上建立自己的研究“脚本”。这极大改善了数据驱动下文艺研究的景观。与数据库基础建设相应,数据技术驱动带来了文艺研究的知识组织方式和知识生产方式的演变和方法论扩展。其一,数据技术在数据库建设中不单纯是对已有的文学艺术资源进行数字化转换,也内嵌着一套新的知识组织、映射和建构方法论、认识论功能。如果说数字化阶段的知识组织涵括了人文计算、主题词库检索和引文检索等知识组织和方法论功能的话,基于数据技术的文艺研究的知识组织、映射和方法论、认识论功能,则涵括知识图谱、可视化映射、数据挖掘、超文本检索、语义生成和人机互动问答等。这些知识组织方式和认识论形成了完全不同于传统文艺研究基于文本阐释的范式。这方面的研究取得的成就最重要的是中国古代文学史。如对诗歌声律变化、词频和文体、风格形成、修辞节律的计量和语义分析,形成了一些范例性的模型。这些研究提供了一种传统考据和语文学所难以达到的实证研究,可以看作是在数据驱动下对文学史实证研究的扩展。其二,数据驱动下的文艺研究,形成了属于自身的新的研究模式扩展,有学者把这一转换称为从传统的“文本驱动”向“数据驱动”的转换。这种“数据驱动”形成了两种在国际上被普遍接受的文艺研究的范畴:一种是弗兰克·莫雷蒂针对传统文学研究的“细读”法提出了基于数据技术研究的“远读”法。如果说传统的文艺研究是以“个体(读者)+文本体验+阐释”为模式的话,那么基于“数据驱动”的“远读”法,就是一种“数据资源+研究脚本+数据搜索+结果映射”模式。这种“远”,包含几层意思:数据资源的跨界、跨领域、跨文化(语种)之“远”;强大的搜索引擎对巨量数据或信息的搜索和挖掘所具有的宏阔视野之“远”,它超越了个体阅读的局限;数据技术在对数据资源进行搜索和挖掘中具有一种超越个体体验式阅读所无法达到的客观实证性之“远”。有学者认为,正是这种“远读”法给“世界文学”研究带来了广阔的前景。另外一种范畴主要是在艺术史论领域的“计算机视觉”。自数据技术对“文化器物”进行数据呈现、数据测量和分析开始,高清多维艺术图像的数据资源给艺术研究带来了一种超越肉眼的“计算机视觉”(包括听觉)。有学者认为,就像望远镜和显微镜延伸了人的视觉一样,计算机视觉、音乐信息检索和地理空间计算中使用的模拟“文化器物”的数据呈现方法,为我们理解这些器物提供了更好的语言。数据图像在呈现艺术图像时不仅达到了比看原作更清晰的程度,且提供了超越肉眼进行数据分析和数据测量的功能。目前已有不少研究人员利用数据技术的图像处理、计算机视觉和计算机图形学方法为艺术史做了新的工作,如对艺术图像的各种特征进行数学描述。更为重要的是,它们更接近人类感官和中枢系统对模拟信号的编码方式,并正在改变图像学和艺术史研究的范式,被称作数字艺术史。其三,数据驱动下的文艺研究,在提问方式、形成新的问题意识方面,被认为在“大人文”“长时段”和“大趋势”等方面,比“文本驱动”的研究更具优势。如对长时段“语义场”“文学场”的研究,能够揭示出在基于文学经典作品研究中无法发现的规律和看不见但起作用的意义生成模式。基于对“中国历代人物传记资料库”(CBDB)所产生的文人社会网络图谱和可视化映射,不仅超越单个人研究的局限,也带来了研究者个人意想不到的空间关系呈现方式。基于对“中国历史地理信息系统”(CHGIS)和“文学编年系地”的研究,则为文学研究带来了“文学地理学”和文艺“空间”研究的扩展。这些扩展研究是文学社会学所意想不到的方法论和领域扩张。其四,基于“数据驱动”的研究方法,一方面对传统文艺研究范式提出了挑战,许多文艺研究者担心这种方法会遮蔽文艺研究的人文性,即个体阅读体验和意义阐释的维度。另一方面也有学者认为,数据技术对文艺资源甚至世界的数据化或编码化,将是文艺研究的直接现实,因此形成基于“数字驱动”与“文本驱动”或“细读”与“远读”,包括“计算机视觉”高度融合的认识论和方法论范式,正是数字人文所带来的文艺研究的景观和知识生产方式。目前,好的数据驱动的文艺研究正是这两种方法的深度融合的结果。数字人文在数据技术驱动下的文艺研究,还有一个最值得关注的面向:基于数据技术的数字艺术生产。如果说数字人文数据库建设是对文艺资源的知识重组的话,那么基于“数据驱动”的文艺生产,则是地道的原生资源。数据技术产生的数字人文原生资源,数字生成电影、数字绘画、雕刻、装置和数字设计等,都已经有了专门进行艺术品生产的著名艺术家和经典作品。对数据原生艺术作品的研究,已经成为数字人文语境中文艺研究的新景观。如果说对网络新媒体文学的研究集中在传播和接受群体方面的话,对数据技术生产的作品的分析研究,则开启了一个对文艺研究具有普遍意义的认识论面向,即艺术媒介技术的研究。其展开一方面把本雅明、麦克卢汉的媒介技术论作为理论资源,另一方面则是把媒介技术如何扩展出新的感知方式和认识论维度作为核心来把握。这一维度对整个文艺研究具有变革性的方法论意义。本公众号发布的文章,仅做分享使用,不做商业用途,文章观点不代表本公众号观点。如果分享内容在版权上存在争议,请留言联系,我们会尽快处理。
作者:单向群 (中国人民大学图书馆 北京地区高校图书馆工作委员会秘书处副秘书长兼办公室主任)
责编:张丽佳
一键5连击:点赞+分享+在看+留言+星标
总有一款适合您→→→