不同于传统文字错讹,现如今互联网时代出现的文字错讹与新型的书写媒介有关。无论是繁简转换,还是九宫格输入、OCR文字识别,错误的发生都在这些中间环节。这让我们意识到,互联网时代书写主体和对象之间还存在着一个机器智能的媒介,新型文字错讹本质上是机器智能带来的副作用。
来源|光明日报
作者|苏芃
近日,在网络媒体上读到一篇学术论文,其中引用《大唐新语》“终南捷径”的典故说:“(卢)藏用指终南山谓之曰:‘此中大有佳处,何必在远!’(司马)承祯徐答曰:‘以仆所观,乃仕宦快捷方式耳。’”继而搜索“终南快捷方式”,“百度汉语”里竟然收有这一词条,释义依据即是《大唐新语》。“终南快捷方式”显然是“终南捷径”之误,这个错讹在许多严肃的学术著作里屡见不鲜,叶圣陶先生1914年发表过一篇文言小说《终南捷径》,也被有些研究者误作《终南快捷方式》。
究其原因,这一错误的产生与汉语词汇的繁简转换有关。由于计算机专有名词shortcut在内地和港台的翻译不同,内地译作“快捷方式”,港台译作“捷径”,因此在对这类译词进行繁简转换时,即使上下文不涉及翻译用语,也会出现繁体字“捷徑”变成简体字“快捷方式”的现象。
一
时值毕业季,在审读各类论文时发现,除了单个汉字繁简转换不对应的常见错误(比如“皇后”误成“皇後”、“千里”误成“千裏”),整个词语转换时发生的错讹也大量存在,其中“终南快捷方式”这类由繁转简的讹变相对较少,更多的是由简转繁时带来的讹误,如:资料→數據、信息→資訊、申请项目→申請專案、数字化→數位化。更有甚者,如海内存知己→海記憶體知己、卜算子→卜運算元、途中奔驰→途中賓士、鲁隐公元年→魯隱西元年。“资料”变成“数据”、“信息”变成“资讯”还并不影响文意,但“海内存知己”变成“海记忆体知己”就会让一般读者感到莫名其妙。
这些错误的发生可归因于内地与港台对同一事物的称名不同,尤其涉及译名分歧最多,于是按词繁简转换时就会出现错误的关联。类似现象,江庆柏先生《电脑自动转换中文简繁字产生的问题》(《古籍整理出版情况简报》2014年第1期)一文已有揭示,但未引起足够重视,各类出版物中繁简转换错误层出不穷。
实际上,互联网时代的文字错讹,除了繁简转换之误,还有不少新的衍生类型。
例如,因电脑、手机输入法产生的错讹。现今最常用的是拼音输入法,由于输入拼音后在候选项里会有多组备选字词,在选取时因操作不慎或者判断失误,会导致文本中音近讹字的出现。
同样,使用形码输入法,如五笔字型输入法,以及手写输入法等,会导致形近讹字的出现。
此外,还有一类非常特殊的错讹,因九宫格输入而产生。
九宫格是手机拼音输入法最常用的一种键盘布局,将ABC……XYZ等26个字母分布在8个键位上,这样一来,比如拼写“早上”和“晚上”是完全相同的键位,在备选词里又毗邻,容易导致“早”“晚”混用的情况,这类不涉及汉字形音义关系的错误关联在传统书写中不会发生。
再如,因OCR(Optical Character Recognition,光学字符识别)产生的错讹。
OCR的原理就是通过扫描纸本等载体上的文字,确定其形状,然后根据计算机程序进行匹配识别转译成字符。简而言之,就是把图像上的文字转换成文本字符。OCR软件在许多领域应用广泛,如果识别的对象本身是规范的排版文本,识别率非常高,人工校读也简便易行。
但是在涉及古籍文本时,就容易发生形近而讹,加之人工校读不仔细,会遗患无穷。
比如几年前,在全国各地售卖糖炒栗子的包装上,常会看到板栗简介中援引《诗经》的“树之棒果”,“棒果”是“榛栗”之讹,通过查检发现,这可能是某篇学术论文在OCR时发生的错误,导致网上关于板栗的简介以讹传讹,最终传播到了大众生活中。