《儒藏》整理手稿。
● ● ●
400余名学者,编纂18年,内容近2亿字,这是一套近年出版的图书背后的数字。
而这只是这套书的“精华编”,真正的全本预计约10亿字。为此,还需要多少学者,编纂多少年,却是未知的。
这套书就是《儒藏》。
《儒藏》将收录自先秦至清末重要儒学文献,是新中国成立以来最大规模地系统整理海内外儒学典籍的一项基础性文化建设工程,也是教育部迄今为止支持力度最大的哲学社会科学研究攻关项目。
为了《儒藏》,一代又一代学者投身其中,有的从学生做成专家,有的从中年做到老年,也有的一直做到生命最后一刻。还要做多少年才是尽头,是很长时间里大家不敢想象的事情。
但是现在,随着人工智能和数字化技术的迅猛发展,以往纯手工的编纂工作也有了可以依靠的技术帮助,效率将会大大提升,《儒藏》编纂也因此迎来转机。
提到《儒藏》,不得不提北京大学哲学系教授汤一介。
历史上,把相关典籍收集在一起的文库称作“藏”,“儒释道”三家中已经有了《佛藏》和《道藏》,在中国历史和文化中占据主流地位的儒家却没有相关文库。
2002年,75岁的汤一介提出编纂《儒藏》的建议,得到季羡林等老先生的热情鼓励。次年北大成立《儒藏》编纂工作小组,又过了一年北大《儒藏》编纂与研究中心成立,负责组织实施编纂工作,《儒藏》工程正式启动,汤一介是中心首任主任。
汤一介教授在《儒藏》编纂工作中。
因为儒家典籍实在过多,且儒家影响范围不仅仅在中国,经过研究决定《儒藏》工程分两步实施,先选取历史上较有代表性的典籍编为“精华编”,然后再扩展为全本《儒藏》。
第一步将我国历史上的500余种儒学文献,以及将韩、日、越三国150余种汉文儒学文献编纂成册,共计约2.3亿字;第二步收书规模将会大增,初步估计收书3000余种,共计约10亿字。
是否有必要编这样一套书,当时很多人提出过质疑。事实上,虽然儒家典籍整理出版非常丰富,但这些典籍并不是经过系统整理的大文库,而且多以影印本的形式出版,不仅普通读者阅读困难,专家学者查找资料也颇为费力。
汤一介提到过日本出版的佛藏《大正藏》。虽然中国也有不少佛藏,但大多数使用者都习惯使用《大正藏》。为什么呢?因为《大正藏》经过现代整理,有断句(尽管有错误),有校勘记,便于使用。
有鉴于此,汤一介认为《儒藏》的整理应采用繁体竖排、现代标点加校勘记的形式,并且要能够制作成数字化的电子文本,以便于检索。为了要做到可以永远流传下去,错误率要低于万分之一。
这些都让《儒藏》编纂从一开始就困难重重。
沙志利是《儒藏》“精华编”责任编委,现任《儒藏》编纂与研究中心副主任,他2005年从北大中国古典文献学博士毕业,正赶上《儒藏》中心需要人手,便来此工作,是《儒藏》中心的第三个正式工作人员,也是最年轻的编委之一。
据他介绍,《儒藏》中心与国内25家单位合作,有48位部类主编和项目负责人,组织了全国近50所高校及研究机构的约400位专家,一起承担“精华编”国内部分的校点工作,交稿后再由《儒藏》中心把关。
编纂初期,来稿质量参差不齐,很大比例的稿件不符合要求。为了保证质量,《儒藏》中心慢慢摸索建立了一套细致详实的多达十一个环节的流程,并制定了相应的制度。可即便如此,还是有不少来稿需要反复退改,甚至更换了校点者。这些都大大拖延了工程进度。
“一开始汤先生定五年编完,后来定十年编完,我们这些刚工作的更是想象不到要多久。”沙志利回忆。
那时他作为毕业生能进入北大工作,满怀壮志,可是没想到在《儒藏》中心的工作十分枯燥。多年来,他的工作常态是面前一台电脑,电脑里打开几个古籍数据库,成堆的稿子在桌子放不下就放地上,最后几年竟堆得比人还高。他在那埋头干,累了就揉揉眼睛,跑到楼下抽一根烟,再回来继续干。
“年轻时候还是有点学术追求的”,但《儒藏》的编纂似乎没有尽头。每年报成果“是最失落的时候”,平均每年就发表一篇论文,想来想去报的都是成编纂成果。而古籍整理在现有的科研评价系统中得分很低,早年甚至不算分,编书不如写论文。他怀疑,“自己是不是要一辈子做这个”?
“精华编”中国部分确定的书目有282册,但直到2009年只出版了40册,让沙志利感觉“想缓口气都不行”。后来他们开始制定五年计划,2009年到2014年又出了60册,总数量到了100册,而且相关部门也加大了支持力度,才看到盼头。
2014年6月,“《儒藏》精华编百册发布会”在北京大学举行,这是汤一介最后一次公开露面。他已经病重,遵医嘱不能多讲话,但仍然在发言中说:“我想,只要我活着一天,我就愿意为这个工程来尽我的力。”
同年9月,汤一介因病去世。
此后的日子里,《儒藏》中心依然努力进行之前的工作。2022年7月,《儒藏》“精华编”中国部分终于完成出版。
已出版的《儒藏》“精华编”。
书籍出版后收获了学界的广泛好评,学界对书的质量普遍给予好评,这让沙志利感觉到了自己多年工作的价值。不久前,同事向他转达一个汉学家的致敬,因为这位汉学家看到了《儒藏》里他署名校点的王艮全集,说整理得很好。
“那个话很难用来评学术成果,但是我很感动,我确实是下了很大的功夫去做这件事情,别人在用的时候会感觉到这个版本比已有的好,这时候作为校点者本人是很幸福的。”
目前,沙志利依然是《儒藏》中心最年轻的编委之一,老先生们还叫他“小沙”,可是他已经47岁了。
面对体量更大的全本如何提高编纂效率,内部讨论过很多次。一位参与“精华编”的专家表示,全本编纂时一定要使用新技术,“人工点校的方式,一遍一遍地来做校对,费时费力,这些基础工作都要人手来做的话,那需要多少年?”
《儒藏》“精华编”执行总编纂、北大哲学系教授魏常海在编纂“精华编”时就隐隐觉得,数字化势在必行。
据他回忆,以前编纂是三方不同时间段的工作,必须是校点人先交稿,《儒藏》中心才能审稿,修改完成才能交给出版社,出版社录入电脑后还要再发给编委审稿,最后校点者和编委都确认无误才出版。每一次交接都需要寄送,要等前一步做完了才能开始下一步。他曾设想,如果校点人直接提交电子文稿,就会省去后期再录入电脑后还有重新检查一遍的环节。
不仅如此,《儒藏》中心原本有一位研究员杨浩,是学哲学的,近年对运用计算机整理古籍的感兴趣,后来去了北大数字人文研究中心,参与开发了“识典古籍”。沙志利开玩笑,杨浩还是以“曲线救国”的方式又回来整理《儒藏》了。
2023年,全本《儒藏》启动大会上,北大数字人文研究中心主任王军教授发言,希望结合现有的古文献数据库,从智能编纂平台、数据库发布平台等方面,推进全本《儒藏》数字化工程。
王军的信心来自2022年,字节跳动集团与北京大学合作研发的古籍数字化平台“识典古籍”上线了。
“识典古籍”平台源于字节跳动在古籍保护领域的公益尝试,结合了字节跳动的人工智能技术优势、产品研发能力及北京大学数字人文研究中心的学术能力,是一个免费开放的古籍资源平台。
除了可以阅读,“识典古籍”还开放了整理平台,有古籍整理需求的个人和机构,可以借助自动古籍文字识别(OCR)、自动标点、自动命名实体识别、自动文言文-白话文翻译等人工智能工具,以及配套的协作校对工具更高效地整理古籍。
据“识典古籍”的工作人员介绍,经过两年多的发展,智能整理已经更加成熟,《儒藏》数字化整理的很多工作,都可以在人工智能技术的辅助下被解决和提效。《儒藏》的专家将相关文献的影像上传平台后,人工智能会进行初步整理,当遇到不确定的情况时会被标注出来,并放上底本供专家检查。这样,专家不再需要花太多的精力在机械枯燥的对比异同上,可以把精力更好地集中在一些关键的内容部位和环节上,做好更有深度的学术判断,这将大大减少传统模式下校点人花费的精力,还能节省时间。
同时,“识典古籍”还开发了协作整理的功能,支持以团队的形式开展工作,将大大节省因为时空展开而带来的沟通成本。在“识典古籍”上,参与编纂工作的各方能在同一时间看到对方的进度,完全不需要花费交接时间,而且还能把书打散,以更小的单位进行不同环节的轮流加工,压缩了不少等待的时间。
12月9日下午,《儒藏》数字化项目启动仪式在北大举行。
《儒藏》数字化项目启动仪式
北京字节跳动公益基金会向北大教育基金会捐赠2500万元,用于资助北京大学《儒藏》工程,并通过识典古籍智能整理平台支持《儒藏》整理,相关成果将在“识典古籍”上线。
北京字节跳动公益基金会理事长张羽表示,“未来《儒藏》的相关成果也将陆续在‘识典古籍’阅读端上线,实现全民共享,让中国传统文化、儒家文化,能够被更多人以更方便的方式去检索和阅读。”
这背后是从2021年6月起,字节跳动就通过公益捐赠助力古籍修复,并持续投入技术、平台资源来开展古籍数字化与活化,让更多古籍能够得到更及时的修复,也让古籍里的知识能够被更高效地检索、利用和传播。截至目前,“识典古籍”已上线开放一万余部古籍。
《儒藏》“精华编”执行总编纂魏常海表示,“我们做《儒藏》的人只有一个想法,就是把它编出来,能够发布出去,让全中国、全世界的人都能看到,都能把它用起来,而这个意愿的实现就是靠‘识典古籍’平台。”
也许这就是几代人编纂《儒藏》的意义。
正如汤一介生前常对身边人说的,“中华文明之所以没有中断,就是因为有经典存世。编纂《儒藏》,关系到中国人的文化自强、文化自信。将中华文化发扬光大,是知识分子应有的对国家、民族的担当与职责。”
亲爱的读者们,不星标《知识分子》公众号,会错过每日科学新知!星标《知识分子》,紧跟前沿科学,一起探索科学的奥秘吧!
请戳上图卡片添加星标