《儒藏》的命运正迎来它的关键节点。
二十一世纪初,前所未有的古籍整理项目开始了——《儒藏》,力求收录整理所有存世的、海内外的儒家经典文献并进行点校,提供最完善的、方便现代人阅读的文本。粗略统计,存世儒家典籍文献约有1.5万至1.8万种,足见这一文化工程之浩大与艰巨。在三代“儒藏人”的共同努力下,2022年,《儒藏》“精华编”中国部分510种、282册全部整理完成并出版,近两亿字。
“没人想到,这件事(精华编)一做就是20年。”现任《儒藏》首席专家、北京大学副校长王博称。
接下来,《儒藏》工程转入新的阶段——《儒藏》全本,计划收书3000余种(含“精华编”),将以中国丰富的儒学典籍文献为基础,基本囊括中、韩、日、越四国历史上有价值的儒学文献。
对古籍整理来说,速度和质量往往难以兼顾。对《儒藏》来说,质量就是生命。若按照原有的速度,这项工程将长途跋涉、遥遥无期。
在人工智能技术的辅助下,提速的现实正在发生。王博说,全本《儒藏》的编纂具有更加有利的社会环境、学术积累、人才储备和技术支撑。“下一步工作将充分利用数字人文的最新成果,推进古籍数字化,工作将大大提速。”
“儒藏人”正在期待全新的古籍整理图景,那将是一场超出想象的画面。“流程成熟之后,预计第一年是启动期(50种);第二年预计出150种,后续预计每年出300种,大概是之前4倍或者8倍的速度。”识典古籍产品负责人王宇说。
“识典古籍”是字节跳动联手北京大学共同打造的古籍数字化平台,已具有版式识别、自动标点、结构整理、校勘等涉及古籍整理的全流程整理功能,它将支持开展《儒藏》数字化工程,后续成果也将在识典古籍上线,对公众开放。
未名湖边坐落着四栋仿明清风格建筑,由西向东数去第二栋,是《儒藏》编纂与研究中心所在的才斋。每天8点,沙志利走入办公室,在电脑上打开自己常用的古籍数据库,桌面则堆着一摞摞书稿,比坐着的人还高。有时桌面摆不下,书稿就蔓延到地板上,“那已经不能称之为地板了”——《儒藏》中心几乎是书稿的王国,他和同事只能在稿子的留白处行动。大家都埋着头,过一会起来揉揉眼睛,实在累了下楼抽根烟,再上来继续干。
这是沙志利在《儒藏》中心的第十九年。2005年,毕业于北京大学古典文献专业的博士生沙志利加入《儒藏》中心,成为一名助理研究员。何为《儒藏》?我国的佛教、道教皆存集大成之《大藏经》和《道藏》,但儒学典籍却没人做类似的整理工作。20世纪90年代,北京大学哲学系教授、国学大师汤一介呼吁,这件前无古人的事需要有人做起来。2002年底,由北京大学分管文科的吴志攀副校长牵头,开了不下五次研讨会讨论《儒藏》的必要性、可行性、价值及意义。2003年,《儒藏》项目立项,是新中国成立以来最大规模地系统整理海内外儒学典籍的一项基础性文化建设工程。编纂分两步进行:第一步是《儒藏》“精华编”,第二步再进行《儒藏》“大全编”。2004年,北京大学《儒藏》编纂与研究中心成立,负责组织实施编纂工作,工程正式启动。
著名哲学家汤一介教授担任《儒藏》总编撰和首席专家,负责总体规划与实施。他牵头全国各地,乃至日本、韩国、越南等国的海外学者共同加入《儒藏》工作组。仅国内,《儒藏》就有25家合作单位,组织了近 50 所高校、研究机构,还有近 400 位专家负责上游的点校任务。《儒藏》中心承担中间枢纽的角色,负责统筹工作及把控校点质量,下游的北京大学出版社则负责编辑、校对,严格落实“三审三校”,必要时甚至达到“五审五校”,多道工序形成严密的闭环。
这样庞大的工程,初期必然面临着人才与资金不足的困境。2005年,汤一介这样概括《儒藏》编纂出版的“三大难题”:经费筹措难、人才招徕难、组织协调难。起初,他经常到各地去讲座“化缘”,募集资金。“事不避难,义不逃责”,这既是汤一介的家训,也是他在《儒藏》项目中一以贯之的原则,他几乎将晚年的所有时光都耗在《儒藏》上。
2014年6月底,《儒藏》精华编前100册编纂完成,发布会上,身负重病的汤一介坐着轮椅,在家人的搀扶下出席,声音颤抖但坚定地表达,“只要我活着一天,我就愿意为这个(《儒藏》编纂)工程来尽我的力……我必须继续努力,来把全本完成。”同年9月,汤先生去世,《儒藏》项目成为他未完成的夙愿。
师承汤一介、现任北京大学副校长的王博接任《儒藏》首席专家和项目负责人,继续推进《儒藏》“精华编”的工作。2022年5月,《儒藏》“精华编”中国部分282册全部由北京大学出版社出版,全本《儒藏》编纂工作正式启动。
“我们的心情是如临深渊、如履薄冰。”《儒藏》总编纂、北京大学中文系教授孙钦善在工程启动后经常重复这句话。工程立项之初,编纂团队几乎在各个方面都遇到了不同程度的阻力。外界曾有质疑,认为《四库全书》已经包含大部分儒家文献,无劳师动众的必要。对此,首席总编纂季羡林当时就指出,质量才是这套《儒藏》传世的根本。2007年,季羡林还特地给《儒藏》中心写过一封信,强调“宁可慢一点,也要保证质量”“质量是生命”。
沙志利回忆道,汤一介先生身体还好时,每周都会来《儒藏》中心,他事无巨细,常在开会时拿出一张列得密密麻麻的小纸条。大家想,哪有这么多事?一看,很多其实是关系到工作人员自身的小事,有时特地注明他要亲自给出版社的主编打电话,“对方也是老先生,我来打比较合适”。此外,汤先生也十分重视编撰的质量,经常为一个细节讨论很久,“因为一个标点错误就是一个硬伤,”为此,儒藏中心的会经常一开就是一整天,汤一介就和其他研究员一块待在会议室里吃盒饭。
古籍整理,从选目开始,每一步都要无比细致,要确认参校的版本,源流选得对不对、合不合适。与此同时,《儒藏》编纂的规模又格外庞大,预计总字数将达到10亿至12亿,《儒藏》精华编便是在精细的工序中来回反复修改,力求达到差错率低于万分之一的出版标准。
“最早精华编计划5年完成,发现时间不够,又计划用10年,最后用了20年时间,”在沙志利印象里,2007年底《儒藏》进入大规模编辑阶段后,有两三年时间,从点校人那汇总到中心的书稿堆积如山,责任编委们每人每年的工作量至少要达到七八百万字。
入职十九年,沙志利如今已是《儒藏》精华编及全本的责任编委,负责整体校勘质量,《儒藏》全本的选目工作要在如今存世的近20万种古籍并50万个版本中挑选,既要考虑到实用性,又要考虑到理论的自洽剔除重复,并有序地编排——很多书他们自己没看过,只能到处询问可能知道的专家学者,或是找到存于各个图书馆的文献亲自翻看。全本的选目工作经历了前后几轮,最终确认近三千种书目。
回顾这漫长的二十年,沙志利提起一部讲述编纂辞典故事的电影《编舟记》。电影曾用“编舟”形容辞典编纂工作,“人类就是通过辞海这叶小舟,在浩瀚的海洋上找到最能表达心情的语言”,而《儒藏》中心恰是《儒藏》项目涉渡古籍之河的缩影,办公室里成摞的书稿中,他们每天都要沉潜其中,花费巨量的人力校对每一个字形。
“古籍的整理出版工作就如同河流”,研究者马辛民曾做过这样形象的比喻,从选目、确定体例、标点、校勘到编辑出版,《儒藏》的编纂历程漫长而艰难。在这条“河流”的上、中、下游,海内外的儒藏人们花费巨量时间、精力,力求打造阅读儒家经典文献的舟楫,建立现代人与古籍之间的联结,让曾隐没在古书堆中的文字,再次进入现代人的生活。
“我国做《二十四史》的老先生都已经故去,将来会出现人才断层。”倡导发起《儒藏》项目时,汤一介已经考虑到,系统编纂整理儒家典籍除了在现代“激活”儒家经典之外,也能够“抢救”人才。
《儒藏》总编纂安平秋教授曾指出,部分古籍整理者基本功不牢,也欠缺从事相关工作的经验,难以确保古籍整理的质量。初稿校点人员所交书稿约有60%以上需要退改,还有些书稿在中途更换了校点者。这些都大大拖延了工程进度。立项初期,汤一介、庞朴、孙钦善、安平秋、魏常海等人每年都会走访各个合作单位,与部类主编和校点者交换意见,及时解决校点过程中存在的问题,他们几乎跑遍了祖国大江南北,更涉足韩国、日本、越南等地。
实践证明,《儒藏》很好地回应了文史哲人才的“断层之殇”:2004年,牵头单位北京大学开始为《儒藏》编纂工程专门招生,首批招收硕博研究生共6名,截止到2022年,《儒藏》编纂与研究中心累计已招收120余名博士研究生。如今,这些年轻学者已经逐渐成长为既能从事学术研究、又能从事古籍整理的复合型人才。
“我们也是慢慢成长过来的,”沙志利说道。古籍整理确是枯燥、重复的工作,而且成果不容易被看见,“挑错还是很难的,只不过大家会觉得是理所当然”,为了校对一个错字,他们经常要比较多个版本。同时,这件工作还给沙志利带来一定的成就焦虑。包括他在内的九位《儒藏》中心的责任编委,加入《儒藏》时都是刚从北大古典文献或古代哲学专业毕业的硕博生,怀揣着各自的学术追求和野心,却常年扎在书稿中,没有时间从事其他学术工作。
在科研评价体系中,古籍整理工作相对得不到重视,相较学术论文得分很低,这使得从事古籍整理的学者们成就感薄弱。入职以来,沙志利算过,自己平均下来一年最多写一篇论文,“天天被拴到稿子上,事实上是不适合做研究的。”有朋友在他情绪低落时,开玩笑地安慰道,“你们儒藏人是在赎‘原罪’。”
那么,到底是什么让他坚持下去?其关键驱动力是前辈的敬业精神。沙志利曾听自己的导师安平秋教授讲过一件轶事,有次安先生在上厕所时翻看自己点校出版的一本《古文观止》,忽然发现一个错字,当下惊出一身汗,“怎么会有一个错字呢?”安先生说起自己点校失误的那种惶恐,至今令沙志利记忆深刻。
马辛民则忆及已故的老编审、语言学者胡双宝先生,“胡老师不善言辞,却是编审中的‘第一快’,干起活又快又好。年逾八十,还保持着年轻人的工作状态,为保证复审、终审的质量,几乎每周都骑车到学校图书馆查阅资料。哪怕在青光眼手术后,仍然加班加点,全身心投入工作。”
从过去担任总编纂的汤一介先生、庞朴先生、安平秋先生、孙钦善先生,到以李中华老师、魏常海老师、王博老师为代表的编委们,再到更年轻的一辈学人,无不殚精竭虑,全心投入。马辛民笑言,应当把二十年来的点滴汇成一本《儒藏编纂志》,“当时毕业参加工作的青年学生,一转眼已经人到中年……对每个人来说,编纂《儒藏》都是太难忘的经历。”
今年47岁的沙志利回忆自己从助理研究员到责任编委的工作历程,偶尔也有成就时刻。儒藏《精华编》出版后,沙志利的朋友曾向他转达一名海外汉学家的称赞,指出他负责点校的那几本文献“整理得真好!”
马上要迎来艰巨的全本编撰工作,沙志利感慨道,“可能这辈子也学不会新的本事了……但我的下半生已经有着落了。”朝经暮史,铅黄殆遍,“儒藏人”正是如此年复一年地无言践行着内心的文化信念与责任意识,坚实推进着这项前无古人、惠泽后世的事业。
原本,儒藏人将迎来的是一场艰辛的“长途跋涉”。《儒藏》精华编收录文献510种,耗时20年,按照这一速度,选书达三千种的《儒藏》全本要耗费的时间难以计数。但ocr文本识别技术的辅助将改变这一切——全本编纂时间有望大大缩短。
北京字节跳动公益基金会理事长张羽表示,“《儒藏》工程中的很多工作是可以在人工智能技术的辅助下被解决和提效的。”字节跳动公司将向北京大学教育基金会捐赠人民币2500万元,用于资助北京大学《儒藏》数字化编纂相关工作,同时提供公益性质支持,识典古籍数字化整理平台将助力《儒藏》推进相关工作。
过去的古籍整理工作,前期的整理、校勘阶段都以纸稿形式进行,一直到出版社阶段才会形成文稿的电子版,而且需要真正的人力一个字一个字输入电脑,尤其古籍中生僻字多,单单由书稿转电子版就非常费力。
“如今通过ocr文本识别,能够从初始阶段就将书稿转为电子版。”王宇介绍道,经过两年多的发展,识典古籍已经具有版式识别、自动标点、结构整理、校勘等涉及古籍整理的全流程整理功能,其ocr文本自动识别功能,准确率达到95%以上。
《儒藏》的整理者将相关文献的影像上传平台后,由人工智能进行初步整理,专业人员进行校对及做出更有深度的学术判断,这样可以大大减少专家在基础性工作上投入的精力。“让真正的大脑去做更重要的事。”王宇说。
“人工智能把特别繁琐重复的事干了,让校点者去干更需要判断力的事。”沙志利说自己特别期待这一天。
此外,平台还开发了自动校本比对技术,“识典古籍”已经完成文本化的1万种古籍后续也可选做校本进行比对。沙志利表示,不同版本的校勘正是古籍整理工作中最耗费人工的环节,“有时候看了两万字的稿子,才写了三条校对笔记。”《儒藏》项目校勘时需要对比的文献版本较多,目前的平台功能尚未足以满足。不过,《儒藏》全本工程的开展将全面从纸面转为电子化。
“识典古籍”平台已上线古籍1万部,并免费对公众开放
沙志利指出,数字化的另一优势在于节省协作时间。在“精华编”编纂过程中,由于每位编委往往同时处理多部书稿,且进度并不统一,点校人的工作也可能受到科研、教学乃至其他事件的干扰,审校流程经常“等来等去”,互相干扰。如今,识典古籍平台开发了协作整理功能,支持以团队的形式开展工作,点校人在平台上点校,审校人可以同步进行审核,随时给予反馈,这极大跨越了《儒藏》从点校人到责任编委审核环节的时空限制。
以前,要是遇到校点者个人有点事,工作就停滞了,拖个一年半载。但现在,校点者刚点出来两卷,审稿人就可以介入了。“原来的时间衔接单位是100万字,现在可以变成5万字、2万字……”
速度的变化是倍数级别的。王宇称,《儒藏》“精华编”的整理速度大概一年36种,而等数字化流程成熟之后,“预计第一年是启动期(50种);第二年预计出150种,后续预计每年出300种,大概是之前4倍或者8倍的速度。”
汤先生曾讲到《儒藏》与《四库全书》的重要区别,“《四库全书》没有标点。现在的人用起来非常不方便,并且能看到的也都是影印本。而《儒藏》要做的,不是影印本,而是标点排印本,有校勘记,还可以做成光碟,便于大家检索和普及利用。”2022年出版的《儒藏》“精华编”便依据起初的设想,立足现代,知难而进,采取繁体竖排,现代标点附校勘记的形式,整理出完足可靠、可资阅读使用的文本,既大大方便现代读者阅读,也为今后与数字化接轨提供必要的基础。
未来,《儒藏》的相关成果也将陆续在“识典古籍”阅读端上线,实现全民共享,让中国传统文化、儒家文化,能够被更多人以更方便的方式去检索和阅读。
“每一代人都要面对历史,这不仅是个人的历史,也包括一个民族、一个国家的历史,同时也是一个文明的历史。”王博指出,《儒藏》编纂正是这样一个怀有对历史的敬意、朝向未来的文化工程。
作者丨陈一默
设计排版丨赵淑萍
图片来源丨抖音 视觉中国