中国的文明史之所以可信,是因为中国人喜欢
“
记录
”
。
从有文字记录开始,特别是从有了史书之后,一直到今天,中国的历史记载从来就没有断过,每一年这片土地上的重大事件能找到文献记录。
中国人不光记录人间的治乱兴衰,还记录天文、地理、气候、环境的变化,还能记录下农业、商业、手工业以及各种工程技术的工艺,考古专家就能把发掘出来的遗址和文物,与史书中的一切一一对照验证。
因为技术的进步,越是当代研究的古代史,越接近于历史的本来面目。
中国自古以来就是最重视记录、保存历史文献的文明,甲骨文、青铜器铭文、战国帛书、秦汉竹简
……
就是一部文明史。中国浩如烟海的古籍,构成了人类文明史上最丰厚,庞大,系统性的古典文献学,古典文献学,看起来是文科,本质上却是
“
理工科
”
,因为它需要强大的统计学工具,需要更强大的算力和算法。
对文献的保存是历代学人的重任,在没有数字化能力之前,全靠一代一代的人埋首故纸堆、皓首穷经,一个字一个字去推敲、校对、比照,越往后压力越大,然而在全面工业化的今天,却是人类最接近完整全面保存古典文献的最好时代,因为我们拥有了最强的工具。
利用算力和算法去整理古籍,这正是
AI
最擅长的。
处理历史文献往往第一步需要做文本电子化处理,即光学字符识别。光学字符识别技术是将纸质文字转化为计算机可处理的电子化表示的重要手段。近年来,包括不少科技企业、科研机构在古籍数字化上开展了不少开拓性的工作,在
OCR
(光学字符识别)、
AI
句读、实体识别等方面积累了比较成熟的技术和经验。以
OCR
应用为例,
用人工智能
“
看
”
一下扫描得来的图片,
古籍上的内容就会转录到计算机中,并生成相应的数字文档,效率比人工录入提升了不止千万倍。
OCR
技术在今日头条、抖音等平台的图片文字识别、字幕翻译,以及商业化业务中的各类卡证票据及行业文档识别等领域均有广泛应用,这些技术可以迁移至古籍智能数字化上。
传统数百年才能完成的数字化,在
AI
时代可以缩短到数年,而且机器学习正越来越强大。
再举个例子,卷积神经网络模型能够从图像中精准捕捉网格状数据结构,中国研究团队在使用卷积神经网络探索甲骨文时,巧妙地运用这些模型来复原遭受严重侵蚀的文字图案,深入分析甲骨文随时间的演变轨迹,并将破碎的文物碎片重新拼凑起来,重现历史原貌。
大家发现没有,很多最新的历史研究成果,都是近两年冒出来的,这正是新技术的应用,打破了学科之间的
“
次元壁
”
,导致了成果井喷。
“
我们所处的新时代,有可能实现文化典籍永久保护和传承。
”
从
2022
年
3
月开始,字节跳动与北京大学携手合作,成立了
“
北京大学
—
字节跳动数字人文开放实验室
”
,并基于此实验室,打造了名为
“
识典古籍
”
的数字化平台。
该平台以公益为目的,运用
OCR
(光学字符识别)、句读、实体识别及知识图谱构建等先进技术,能够充分利用算力和算法的优势,读懂古籍
……
对古籍进行智能化处理,使得古籍能够以文本形式进行检索、关联阅读,以及深度挖掘和高效利用。
目前,
“
识典古籍
”
平台还开发了协作整理功能,支持以团队的形式开展工作,节省了沟通成本。目前,该平台部分功能已开放,《永乐大典》等超
1
万部古籍上线,提供图文对照、分词检索、实体百科等服务。
这个技术的核心是将人工智能和大数据应用在海量的古籍文献上,实现古文本知识图谱的自动生成和对古籍内容的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘利用。
“
识典古籍
”
数字化平台不仅搭建了一座古籍智能化数字图书馆,让研究者能够迅速找到所需资料,更在知识图谱方面展现出强大的功能。该平台能够识别专有名词及其之间的关系,如人名、地名、官名等,并尝试提取这些实体之间的关系,转化为图谱形态,与百科、问答应用等相连接,实现全方位的数字化赋能。
2025年3
月
26
日,
“
我用
AI
校古籍
——
我是
‘
校书官
’
古籍大众智能整理计划
”
启动仪式暨
“
古籍数字化前沿论坛
”
在武汉大学召开。活动由全国高等院校古籍整理研究工作委员会、北京大学数字人文研究中心和字节跳动公益联合主办,将征集全国高校大学生和社会公众,利用
“
识典古籍
”
整理平台,共同参与古籍数字化整理工作。
“
我是
‘
校书官
’
古籍大众智能整理计划
”
已举办至第二届。
2024
年举办的首届活动吸引了
1210
所高校学生报名,整理古籍
1643
部。
字节跳动还向全社会开放了古籍阅读检索研究权限,在字节跳动研发的
“
识典古籍
”
数字化平台上,读者还有
“
古籍智能助手
”
的选项
——
选中读不懂的古文原文点击
“
问
AI”
,就可以看到这句话的翻译,并可以用日常说话的方式,让智能助手总结文本内容,提出可供参考的研究问题。
也就是说,现在任何人、任何学历、任何基础知识水平,都能够轻松查阅古籍,都有了入门研究历史人文的资格,当代,才是是了解历史和文脉门槛最低的时代!
这也是互联网技术和传统文化的双向奔赴,随着人工智能技术的运用,古籍文献中所蕴藏的古代历史文化知识将不断被抽取出来,构造成各种各样的知识库反哺互联网文化,这将形成真正的
“
文化自信
”
。
这是一项真正造福大众、知识平权的技术革新,不仅解放了专家的头脑和双手,可以让他们去做更有价值的事,还可以让很多普通人也可以参与到
''
古籍整理
”
中来,让所有人都参与到
“
给岁月以文明
”
的工作中去。
中国人静悄悄地,已经在做科幻小说中《银河百科全书》的伟大事业了。