(一)从历史地理信息化到“数字人文”
历史地理学无论怎样发展,基于历史文献记录这一基础是无法改变的。因此,针对史料文本本身的信息化处理非常重要,但这一点在之前的历史地理信息化建设中往往被忽略,或者尚不够重视。就已有的成果来看,CHGIS、CCTS(Chinese Civilization in Time and Space,中华文明之时空基础构架)等多个平台都缺乏对于史料文本本身的信息化处理方法,系统中也没有设计针对文本处理的功能。“数字人文”带给历史地理信息化的启示可能有如下几点。
1.针对历史文献记录本身
数字人文技术在历史地理学领域的数据采集与处理方面发挥了重要作用。通过数字化技术,历史地理学者能够快速、准确地获取和处理大量数据,包括 历史文献、地图、照片等。例如,利用光学字符识别(OCR)技术,可以将历 史文献中的文字转化为可编辑的文本格式,方便后续的数据分析。同时,通过 空间数据可视化技术,历史地理学者能够将地图、照片等空间数据转化为交互 式的可视化图像,以便更好地观察和分析地理现象。这其中,数字化历史文献 是数字人文技术在历史地理学中广泛应用的一个重要领域。通过数字化技术, 历史文献可以被转化为电子格式,从而方便学者们更方便地筛选、整理和访问 这些文献。这一技术的应用,极大地提高了历史文献的利用效率和学术研究的 速度。
首先,数字化历史文献解决了纸质文献保存困难的问题。纸质文献在长期保存过程中,往往会因为各种因素而遭受损失,如老化、虫蛀、火灾等。而数字化技术可以将这些文献转化为电子格式,存储在计算机或云端,大大延长了其保存时间。这样,学者们可以随时随地访问这些文献,而不受时间和地点的限制。其次,数字化历史文献提高了文献检索的效率。在传统的纸质文献检索中,学者们需要手动翻阅大量的文献,筛选出与自己的研究相关的信息。这个过程既耗时又费力。而数字化技术可以通过关键字搜索、语义分析等方法,快速地筛选出相关文献,大大提高了检索效率。这使得学者们可以更快地进入研究状态,减少查找文献所花费的时间和精力。此外,数字化历史文献还推动了跨学科的研究。历史地理学是一门涉及历史学、地理学、社会学等多个学科的综合性学科。数字化技术可以将不同学科的文献整合在一起,形成一个大型的数字图书馆或数据库,方便学者们进行跨学科的研究。这有助于推动历史地理学的深入发展,提高研究的综合性和全面性。最后,数字化历史文献还为学术交流和合作提供了便利。通过电子格式的文献,学者们可以在网络上进行分享和交流,不受地理位置的限制。这有助于促进学术研究的合作和交流,推动学术研究的进步和发展。
主要的困难包括以下几点:(1)中文古籍的固有书写习惯对OCR 造成的困难。中国古籍书写习惯为直排书写,目前能够进行OCR 处理的文本基本都是被处理过的横排版本,这种版本对于职业研究者而言是不能作为研究资料使用的;
(2)断句问题。古籍中不存在格式上的句读,所以文本往往出现不应该有的连缀现象。在进行文本信息挖掘时,这种现象往往造成信息的错乱。
2.更加贴近于历史学问题
历史地理学是从地理或者空间的视角审视历史过程,由于具有明显的交叉学科特征,近年来,历史地理学除了继续保持对地理学问题的关注之外,也更 加留意对历史学热点问题的关注,比如环境史、社会史、历史人类学、财政史 等问题。胡恒在《从数字典藏走向数字人文:中国大陆数字史学发展浅思》一 文中已经指明,包括历史地理学在内的历史学整体转向“数字人文”是大势所 趋,需要强化扎实的数据建设和研究成果,以实现个人研究和学界需要的平衡。
李冀、侯甬坚采用地形模型结合军事电子沙盘,重新探讨了秦赵长平之战的人数规模问题,进而重新思考中国古代战争记录中的兵力规模问题a;欧阳琳浩与谢湜采用GIS 技术,从城市空间结构角度阐释了19 世纪后期汕头开埠之后, 人口流动对城市空间形态的影响b;王哲和侯的对1903—1942 年中国城市网络空间结构的重建中,采用GIS 技术提取了中国近代邮政网点体系,进而探讨了近代开埠通商对长江三角洲城市群体系空间结构的影响c;苏绕绕和潘威基于近代水利图,采用GIS 技术和“最优距离算法”重建了20 世纪初期新疆灌渠的空间格局。这些研究中所体现的问题意识,既符合历史地理学的传统,也使用了量化或者信息化手段,都展现了新型研究手段在历史地理问题中的重要作用。
3.研究手段趋向多元化
近年来,随着历史地理信息化向“数字人文”演替的速度日渐加快,软 件使用也趋向多样化,GIS 类软件(MapInfo 和ArcGIS)不断发展的同时, MATLAB、SPSS、TOM、SketchUp 等软件的使用也开始增多。这一现象指征了历史地理学在研究问题上向多元化发展,GIS 软件已经不能完全满足工作需要, 如复旦大学李晓杰团队所进行的《水经注》考释与绘图是传统的历史地理学问 题。但近年来,该团队也开始使用GIS 技术进行《水经注》的绘图工作,2023 年李晓杰团队获得了国家社会科学基金重大项目的支持,该项目设计了“多模 态地图绘制”子课题,计划采用GIS 技术、工程建模、动态演示等多项技术。
“数字人文”的重要追求之一是打破学科藩篱,实现真正的跨学科知识融合,最近两三年历史地理学信息化的发展已经向学界展示出这一趋势,历史地理学原有的历史自然地理、历史人文地理、历史经济地理等方向已经在信息化技术支持下,出现了取长补短、融会贯通的趋势。这一发展趋势与近年来历史地理学始终建设信息化系列会议紧密有关。HGIS 论坛是历史地理学界内以信息化建设为宗旨的定期会议,其规模不断扩大,至今已举办8届。这一平台已经成为历史地理学界内的一项重要学术会议,除了历史地理学界以外,人文地理学、计量经济学、考古学和环境考古学的学者也积极参加该项会议。
2023年,《近代史研究》编辑部与广西师范大学合作举办了“大数据与中国近代史研究”研讨会,中国社会科学院与山东大学合作举办了“首届数字边疆青年学者论坛”。这两次会议透露出一个重要信号,即传统的历史学研究开 始意识到“数字人文”的重要性,而历史地理学学者在这两项会议中所展现的空间分析技术得到了与会学者的广泛关注,历史地理学界内也通过这样的交流机会学习到了经济史、近代史、民族史青年学者在计量分析、文本挖掘方面的技术优长。
(二)信息化技术与古旧地图信息化处理
古旧地图是人文社会科学研究的重要史料,在光学字符识别(OCR)、地 理信息系统(GIS)、数据库技术等数据库信息化手段支持下,可以最大限度挖掘古旧地图中的地理信息,提升古旧地图的使用效率。历史地理学界针对古旧 地图的信息化处理已经进行多项实践,如张萍等基于多种古旧地图对西北“丝 绸之路”交通路线和古代城市定位、韩昭庆研究康熙《皇舆全览图》投影方式、潘威等对近代灌渠体系的重建和分析,皆实践了GIS 手段在古旧地图处理中的运用。不过,历史地理学界将古旧地图的信息化操作局限于GIS 环境下的人工矢量化处理,限定了对古旧地图的进一步研究和更广泛使用。解决以上问题的 方法是让历史地理信息化与图情、计算机科学、信息管理等学科领域深度融合, 持续推动GIS 在历史地理学中应用的同时,充分利用大数据环境下的数据库技术、图形计算技术、深度学习技术。
古旧地图既是历史地理学中的重要研究资料,也是长期受关注的研究对 象。目前,古旧地图研究的信息化大致可分为两个方面的工作。
1.古旧地图管理平台
这一类工作包括复旦大学历史地理研究中心的“古旧地图数字平台”、首都师范大学张萍教授“丝绸之路历史地理信息系统”、云南大学成一农教授的 “中国古地图数据平台”、多单位共建的“数字历史黄河·图形资料库”等,都是历史地理学内部比较重要或者有特色的古旧地图平台。这种特色目前还主要
体现在资料本身,平台功能和数据结构上并无太多亮点,基本都是基于开发者 自身研究需求进行数据结构设计(在历史地理学界内,这类信息化平台的开发 者其实也是最重要的使用者),这一方面支持了开发者的个性化研究,但同时, 也在相当程度上限制了这些资料平台的拓展性。
2.“深度学习”技术与古旧地图处理
古旧地图上的符号和文字信息具有重要的史料价值,陕西师范大学张光 伟团队长期致力于利用卷积神经网络实现古地图文字信息的自动化提取,在此方面,张光伟等已经实现了工具转化,将此技术转为网络在线工具。深度学习
(Deep Learning)在古旧地图地名信息提取工作中的应用已经有不少成功案例。
训练计算机习得针对不同大小汉字的检测模型—U-Net 算法 进行字符级文本检测,因此文本识别模型也采用了字符级的识别模型。
在文本识别领域,主流的 光学字符识别系统(OCR)采用的是行(列)级别的识别模型,主要采用CTC
(Connectionist Temporal Classification)算法搭配卷积神经网络(Convolutional Neural Network, CNN)叠加循环神经网络(Recurrent Neural Network, RNN) 对图片中包含的文本序列进行建模,一般而言文档中的行和列相较于单个字符 更为容易检测b。
然而,古旧地图中的地名文本排列往往不如普通文献中的那 样规则,而且部分地名的字符间距较大,所以行列级别的识别在地图文本识别 中可能并不如在一般文献识别中那么有效,因此使用卷积神经网络进行字符级 别的检测和识别。
处理过程是:
根据每个字符的定界框(Bounding Box)将检测到的字符按尺寸进行分层;
将检测到的文本合并成候选地名,将排名最靠前的地名列表在原始地图上进行可视化展示;
解析文本中包含的地名(Geo- parsing),即使用自然语言处理(Natural Language Processing, NLP)技术从无结构文本中识别地名。
对老旧地图的识别目前集中在地图符号的自动识别。国外对此研究开始较早,较著名的是德国汉诺威大学地图制图研究所进行的《德国1: 5,000 地籍图的自动化》,其成功开发出地图矢量转换软件;而后美、日又在此基础上进一 步开发出各自的地图数字化识别软件。近年来随着深度学习技术的发展,学者 们越来越多地将深度学习方法与地图识别相结合。Wang 等人提出基于神经网络 的地图注记提取方法,该方法使用大量样本特征进行神经网络训练,并使用神 经网络将地图注记、线划信息与地图背景要素相分离。Velázquez 提出了一种V 型线模型,将模型与神经网络结合以实现消除地形图中与地图符号关联的其他 干扰信息,最后进行地图符号的识别。Sester 针对不同类型地图,通过构建建筑物训练集,运用卷积神经网络完成地图中建筑物的提取与识别。目前看来将深度学习应用于地图识别主要存在两类问题,其一是地图图像清晰度有限,使 得数据集训练精度较低;其二是神经网络结构需要针对地图信息作出相应调整。国内历史地理学界,最近也开始注意到这一问题。如柴宝惠基于机器学习和图 像形态学对近代上海地图中河流信息的自动化提取,潘威和张光伟等采用卷积神经网络方法对清代河工图中的文字信息进行了自动化识别与提取。虽然以上工作尚不能满足历史地理学界在这一领域日益增长的需求,但为历史地理专题数据生产的高效化和科学化提供了重要的前期工作。古旧地图普遍缺乏统一的测绘标准和绘制标准,保存情况、扫描情况也相差巨大,这一情况对古旧地图中水体信息的自动化提取造成了很大的困扰,我们发现,技术的通用性提高和提取效果成反比,追求通用性的结果是自动化提取的数据质量降低;如果对数据质量有较高要求,则技术方案的通用性就会降低,只能基于具体图形研发针对性的技术。因此,必须在技术方案的针对性与通用性之间寻求平衡。复旦大学柴宝惠博士率先尝试了图形学和深度学习方法在上海近代地形图中水系信息提取中的应用,这一工作是在一套绘制清晰、具有明显色彩差异、保存良好的近代地图上进行的,而近代地图中大量存在着绘制模糊、色彩单一、图幅有污渍和霉变等现象,导致现有技术很难推广。目前而言,真正解决古旧地图信息的自动化提取仍存在相当难度。
(三)历史地理学中的跨学科知识融合
历史地理学具有明显的综合学科特征,除了历史学和地理学两大基本支柱学科之外,近年来的历史地理学也日益与社会学、政治学、经济学、文物保护、语文学、第四纪地质学等众多学科产生了融合趋势,而涉及的二级学科则难以 统计。今后,历史地理学的发展将呈现更为丰富、更为复杂的学科交叉局面。具体表现为:(1)信息种类显著增多;(2)多学科术语体系的互相渗透;(3)“数据”成为揭示各要素之间关系的有力载体。
在这一背景下,数字人文与历史地理学的深度融合已经被一些学者所重 视。数字人文技术可以与跨学科研究相结合,推动历史地理研究的发展。例如, 数字人文技术可以与人类学、社会学、经济学等学科相结合,从多角度、多层 次研究历史时期的地理现象和过程。此外,数字人文技术也可以与新技术相结 合,例如大数据、人工智能等,提高历史地理研究的效率和精度。如何将数字 人文技术与跨学科研究相结合,推动历史地理研究的发展?如何发挥新技术在 历史地理研究中的作用?这些问题值得进一步探讨。
美国学者施耐德曾指出,数字人文有两条主线,一条是文学的,另一条是史学的,这两条主线在21 世纪初实现了交汇,美国“数字人文”发展的这一经验值得中国学界引起重视。
多学科交叉这一理念在“数字人文”引入中国 之前已经被政府和学界多方强调,“数字人文”浪潮兴起之后,多学科交叉迅速向跨学科知识融合迈进。
2021年,潘威、夏翠娟、张光伟三人合作,尝试将历史地理学、信息管理学与计算机技术进行跨学科融合,历史学者高度依赖史 料,但对于史料的管理,特别是对大规模史料的有效管理缺乏思考和实践。
图 情学界自1980年代开始将个人计算机用于文献信息管理,进入网络时代以来, 该领域亦迅速将互联网技术应用于图书信息管理,对包括历史文献在内的图书 信息管理已经构建了非常成熟的软件、方案和路径,尤其是图书馆业界已经形 成了具有规范结构的元数据以进行资源管理a。
例如“资源描述框架”(Resource Description Framework, RDF)是W3C 提出的用于描述知识图谱实体及其关系的数据模型b。
2009 年,“资源描述与检索”(Resource Description and Access, RDA)方案依托该模型编制完成,次年网络工具包发布,2013 年开始在全球主要国家的国家图书馆中使用c。
这一技术标准体系在国外历史地理学界已有广泛应用,但尚未受到国内历史地理学界的重视。
目前,历史地理研究中,研究者和研究团队都未充分意识到个性化的历史文献管理方案的重要性,也未开发资源描述工具。近10 年来,历史文献的形式 已经由纸本文书转为电子文本;同时,研究团队中跨校、跨国、跨专业合作的现象日益明显,团队的公共资料管理平台不仅是凝聚成员的有效途径,更是开展工作的基础性设施,历史地理学界必须在团队层面建设自己的历史文献管理方案,包括个性史料的电子化、局域网的信息管理系统建设以及管理规则的制定等,而其基础是具有资源描述框架,这样才能真正实现有效的资料积存和管理,提升团队工作的持续性和管理大规模史料的能力。2023 年11 月,中国人民大学胡恒教授团队举行了“清史地理信息系统”的开题论证,胡恒提出“清史地理信息系统”将融合多种数据管理技术、空间分析技术与可视化技术,以适应清史研究所特有的资料丰富性和研究多样性。