王申：生成式人工智能与历史学研究的新可能｜202407-106（总第2789期）

宋史研究资讯 · 公众号 · · 2024-07-27 18:00

正文

来源：中国社会科学网

生成式人工智能与历史学研究的新可能

文 / 王申

中国社会科学院古代史研究所助理研究员

生成式人工智能技术近年来进展迅速，已在技术和商业领域产生深刻影响。新技术和相关产品将大型语言模型、预训练、交互式应答等全新技术体验带到历史学者面前。虽然其目前在历史学领域内还处于试探阶段，未来则很可能极大推动历史学数据库建设和应用方式升级，并促进史学议题积极转型。新技术为历史学研究带来新可能的同时，也将产生技术性风险和挑战，值得学者从学理上认真对待。

推动史学数据库建设和应用方式升级

历史学者利用数据库开展研究已有几十年的时间，通过关键词检索获取史料已成为当下史学研究的基本方式，数据库建设方兴未艾。尽管数据库涵盖的史料性质、面向的研究群体不尽相同，大多数数据库的类型却十分近似：建设者将古籍、碑刻、民间文书等史料以文本或图片形式整合录入、建立目录；研究者通过浏览或关键词检索提取所需史料信息，人工取舍结果，开展后续研究工作。由于阅读和检索方式较单一，数据库运用的优劣程度几乎只取决于研究者能否设置合适的关键词。数据库仅扮演提供文本和基础检索功能的被动性角色，绝大部分资料和通过关键词检索难以探查到的逻辑关系依然处于“沉睡”状态。以数量代替质量、以堆积代替理解、割裂关键词与上下文乃至历史背景的联系，是论者对于检索式研究切中要害的批评。

将生成式人工智能产品接入数据库，在数据库公开前预训练一段时间（如令其学习涉及领域的研究论著），能极大拓展数据库的分析能力，使其输出具备逻辑性的回答，分析能力也将随着使用次数增加而更加智能化。这意味着数据库在史学研究中的主动性增强，能更好地从海量数据中发现真正切合研究者需求的资料，理解研究者指令和资料内容之间的关系，为研究者提供更具个性化和深度的分析结果。

学者既可以将新型数据库作为一般关键词的检索工具，又能够通过问答方式将数据库视为研究助手，后者对于史学研究是革命性的。生成式人工智能的一大特色是极大地强化了模型判断、分析自然语言的能力。一方面，数据库中的文本能够被模型以某种方式理解；另一方面，研究者可以通过自然语言而非编程语言向数据库发出指令，持续问答以不断明确需求，新技术的应用门槛大幅降低。研究者在与数据库交互问答时，需尽可能详细而准确地描述诉求，从而获得具有层次感和系统性的答案。问答过程也能帮助人工智能学习用户思路、改进分析结论以更好地反馈。交互式问答将史学研究者检索数据库获得信息的过程，改造为具备提取信息、学术讨论和逻辑检验“三合一”的综合性研究场景，人机互动式的学术研究很可能借此实现。

促进史学议题积极转型

生成式人工智能可以在短时间内完整收集、分析海量文本数据并以自然语言生成回答。当模型训练到一定程度后，许多考证释读工作可以由人工智能完成，且速度、准确性很可能大幅超越人类学者。例如，一些国内外科研团队已着手利用机器学习技术缀和、释读甲骨文、莎草纸文书。相关工作的专业壁垒将被人工智能突破，人类学者的分析不再不可替代。尽管这不意味着学者可以放弃判断权转做“甩手掌柜”，但考证性议题的分量将难以避免地下降，罗列史料归纳结论等“剪刀加糨糊”式的论证方式也将被加速淘汰。学者迫切需要积极转变议题，在技术刺激下促进历史学向更高的思辨层次发展。

聚焦历史文本生成是充分展现学者基本功和思辨能力的研究路径。就现状而言，生成式人工智能产品不但高度依赖语料数量，而且在辨析真伪难辨的史事叙述和纷繁复杂的历史书写意图时尚显无力，几乎将资料库中的文本无差别地视为“真”。与之相对，在史料存量不算丰富的中古史和辽金史领域，研究者通过历史书写、史源辨析等路径，运用有限的史料取得突破性进展，刷新了人们对于史料记述形成过程的认知。学者们不再轻易断言史料真假或仅看重史料真伪，而是着力分析文本形成背后的复杂因素。

设置议题的重要性将被强化。虽然接入生成式人工智能的数据库主动性增强，但研究的起点和预设仍必须由研究者发起。既然新技术可以在基础工作中解放人类，计算机硬件快速增长的计算力也使理论试错的时间成本大幅降低，学者的价值将更多地体现在如何发起一项具有较高学术意义的研究上。这要求学者以更为缜密、综合、符合逻辑的方式提出问题、建构理论。

数字人文将成为历史学研究跨学科发展的强劲增长点，史料呈现形式和利用方式或将有突破性进展。史学数据库更新换代并非简单接入生成式人工智能便可实现。由于历史文本与当代文本差异巨大，数据库建设者必须将历史文本转化为适合人工智能分析的样式，这就需要引入先进的数字人文工具。相关工具的开发已取得了可喜进展，如字节跳动和北京大学合作研发的“识典古籍”平台运用光学字符识别（OCR）和自动算法，将古籍图像转化为文本并自动标点。哈佛大学教授梅丽莎·戴尔（Melissa Dell）团队主攻提取复杂、不规则布局的历史文本，在自动识别档案、民间文书方面前景广阔。日本人文学开放数据共同利用中心（CODH）利用机器学习技术识读日本古籍中的字形，开发具备字符识别功能的手机应用。运用类似技术处理历史文本的价值显然不限于数据库建设。

产生技术性风险和挑战

将生成式人工智能引入学术研究的学术伦理问题已是老生常谈。仅凭学界努力难以真正解决，有赖法律建设、政府监管、市场主体协作等要素“多管齐下”。相比之下，新技术可能产生的技术性风险和挑战才是历史学者需要面对的首要问题。毕竟技术问题直接影响“用”，伦理困境则在“用了”之后才可能出现。

人工智能输出的结果并不总是客观中立的，而是受到数据量、训练频次和训练方式等因素影响，不加辨析地利用将误入歧途。采用相同模型的人工智能产品，由于接入数据数量和内容不同的数据库、受到不同方式训练，仍然可能对同一问题给出言之有理的不同答案。此外，研究者的思维倾向、研究路径、主观动机，会有意或不自觉地造成输出结果带有人工塑造色彩，产生难以分辨的误导性“新历史书写”。牛津大学穆南克·夏尔马（Mrinank Sharma）和Anthropic公司研究人员近期发表的《理解语言模型中的阿谀奉承行为》一文表明，阿谀奉承行为在基于人类反馈的人工智能模型中广泛存在，因为用户更偏好带有谄媚色彩的回答。

夏尔马等人的论文采用复杂手段与多种人工智能模型互动，最终得出上述结论。这就引出了生成式人工智能带来的另一个挑战：处理信息的黑箱化使人工智能输出的结果很难具备可验证性。这既不符合现行学术规范，又给研究者检验结果制造困难。人工核验面对简单逻辑推导或少量史料整理结果尚有用武之地，在判断人工智能对于海量数据的黑箱式处理时则无能为力。即便作者将研究中利用人工智能完成部分的代码或验证过程以附件形式提交期刊编辑部或出版社，如何审查这份冗长而陌生的数字信息文本，对于历史学领域的审稿人和编辑而言极具挑战性。人们能在多大程度上从学理上接受生成式人工智能介入历史学研究，目前尚未可知。

总之，我们当然可以选择仅按照传统方式运用新技术检索史料，甚至拒绝其用于学术研究。但规避风险和挑战的同时，也失去了一次使历史学这一古老学科发生跨越式进展、增强与新兴学科对话合作的良机。相关技术在其他领域的进展已充分说明其拥有巨大的潜力，如何更为妥当地将它运用于历史学研究，值得学界持续探索。每一次技术的巨大革新，都打破了人与机器、人与算法之间的既有关系。但正如控制论之父维纳（Norbert Wiener）的著作名所说的，“人有人的用处”。

（本文系国家社科基金项目“宋代货币与国家财政体系建设研究”（22CZS024）阶段性成果）

▼

丨延伸阅读丨

王申、王喆伟著：《交子：世界金融史的中国贡献》出版

王申：17、18界东南会子并行与南宋财政中的纸币分工——以核算、支付功能为中心

王申：生成式人工智能与历史学研究的新可能｜202407-106（总第2789期）

正文

请到「今天看啥」查看全文