“一个巨大的变化,就是一个产品出现之后,它带来的是整个外部世界对中国看法的改变。”
“到了人工智能时代,这个情况发生了很大的逆转,为什么中文在人工智能中存在这样的一个技术优势呢?”
前段时间DeepSeek是火爆出圈了,不仅在科技界引起了广泛的震动,很多普通人现在也开始在使用DeepSeek,甚至有的政府机构也开始在应用上引入了DeepSeek。大家可能很好奇,为什么中国在人工智能时代会不断地有火爆的产品,中国的整个科创生态到底有什么样的优势?
在东方卫视3月11日播出的274期的《这就是中国》节目中,
复旦大学中国研究院院长张维为教授和复旦大学中国研究院特邀研究员汪涛老师
,对DeepSeek的火爆出圈进行了深入观察和分析。
我今天演讲的主题是——中文在人工智能时代的优势。DeepSeek之所以爆火,主要并不是它技术上获得了突破性的进展,而是其效率获得了数量级的提升,从而使得它在相同性能的情况下,成本可以下降将近二十多倍。
不同AI模型的Token输入/输出价格(美元/每百万Tokens),可以看到DeepSeek的价格远低于其他AI模型 Reddit
之所以如此,是因为研发团队几乎是将各种可能提升效率的技术都充分地进行了挖掘,比如说更多地采用底层编码的语言PTX。一般来说,越是底层的编程语言,它的效率就会越高,但是编程的难度也会越大。
另外,还有适当地降低精度,比如采用一个字节的8比特浮点运算,而不是32比特,从而能成倍地减少存储量和运算量,这在人工智能里面有一个专业的术语叫量化。
还有蒸馏的方法,同样可以极大地减少参数的数量,除此之外还有混合专家架构(MoE)、多头潜在注意力技术(MLA)等等。这些技术本身并不完全是DeepSeek独创的,原来在美国人工智能产业界的专业人员都知道这些技术,但为什么DeepSeek把这些技术充分利用了呢?
今天就谈一个大家比较容易理解,也非常有意思的话题:中文在人工智能时代的技术优势。DeepSeek充分利用了中文的优势,所以在它爆火之后,很多人开始关注到这个问题。
如果我们回顾一下两百多年来的历史,中文在现代科技中的作用,其实经历过一个变化的过程。
在中国古代的时期,中国对周边国家在文化上有压倒性的优势。其他地区对中国也有着非常仰慕的心态。但随着中国在近代的落后,尤其是甲午战争失败以后,导致很多中国知识阶层开始反思自身。首先反思的就是我们的文化,也包括我们自己的语言文字。这种反思很快就发展到了极端,甚至有人认为汉字阻碍了中国进入现代科技文明。也有人认为中国应当放弃中文这种象形文字形态,应该改成像拼音这样的字母文字。
随着以电子计算机为代表的信息技术出现以后,中文在计算机键盘输入上存在一定的困难。因为计算机键盘来自英文的打字机,所以输入英文当然是最简单方便的。因此,过去曾经认为中文阻碍了中国进入现代科技文明的观点和思潮,在信息技术时代又再一次沉渣泛起。但是, 二十世纪八十年代,中国科技界在汉字输入上做了大量的工作,在当时被称为叫“万码奔腾”。
这些汉字输入的工作在很大程度上降低了中文电脑输入的困难。其中比较著名和主流的有五笔字型输入法,也叫王码,是王永民先生发明的。那么另外一个常用的输入法是拼音输入法。虽然客观上说,直到今天中文还是比英文等字母文字的键盘输入稍微麻烦那么一点点。但是这些中文输入法,在很大程度上,已经有效解决了中文在计算机上的输入问题。在五笔字型输入法的基础上,充分采用词组输入以后,它的输入效率甚至还可以超过英文的输入。
到了人工智能时代,这个情况发生了很大的逆转,为什么中文在人工智能中存在技术优势呢?主要有以下这些原因:
首先,汉字非常规整,或者说非常整齐。无论是书写的大小尺寸还是发音的长短尺寸,都是一样的,非常整齐。这种规整对于计算机的处理而言,是非常方便的。比如要进行语音识别,中文每个字的发音都是声母加韵母,发音的长度一样,这样就会相对比较容易区分出一句话中,每一个字的发音。
相比之下,英文单词的长度,从一个字母到十几个字母的都有,这样的字母文字,每个单词它发音的长度可能都是不一样的。像英文里面的“祝贺”,是“Congratulations”,这就有15个字母。我们可能会好奇,那最长的英文单词会有多少个字母呢?如果我们到网上去搜索的话,可能会发现很多不一样的答案。
还有一个问题是很多英文的句子,它的发音会有连读的情况,比如说"what’s your name",那么这就更加难以区分出每个单词。虽然现在这些问题在人工智能的语音识别中都已经解决了,但是它解决的技术难度,确实要比中文困难很多,需要更大的运算量,而且几乎所有的字母文字都存在这个问题。
第二,汉字的信息密度一般比字母文字要高,这体现在很多方面。汉字是一个表意文字,内涵很丰富,可以用词组、成语等很少的汉字表达相当丰富的含义。尤其像文言文,它的信息密度就更高了。对于人工智能来说,最终它体现的是,相同含义的一段语言或文字,在计算机中需要有多少存储量和计算量。一般来说,中文的存储量和计算量都是最少的。如果我们对比一下相同内容的中英文,中文一般页数或者篇幅是最少的。
但我们要注意,这并不是完全绝对的,因为英文也有自身的优点,比如说它相对比较严谨,所以比较严谨的一些论文或法律文书里面,英文的信息密度与中文的差异就没有那么大了。但是由于绝大多数情况下,中文的信息密度的确是比较高的,所以在人工智能的训练中,相同内容的情况下,中文训练的存储量和计算量就会比较少。这是中文效率优势的第二个体现。
第三,是中文的稳定性。汉字是相对比较稳定的一种语言,我们今天使用的汉字与几千年前的甲骨文其实挺接近的。对于新出现的事物,汉字是通过常用的一些字去建立新的词组从而适应。并且,这样的词组天然地会存在有规律的分类特性,比如机器的“机”,可以组成拖拉机、播种机、飞机、纺织机、发动机、蒸汽机、计算机,如此之多的机器汉字都可以用“机”这个形成词组来表达。
汉字的稳定性对人工智能带来的好处是训练参数可以更少,有效的重复训练可以更多,那么准确性就会更高。
相比之下,英文每年都会增加大量的新词,常用的单词都可能会发生变化。当然我们提到中文在人工智能时代的技术优势,并不是要把它过度地拔高,只是从以上不同技术时代,中文技术优劣势的变化过程中,希望我们能更客观地看待我们中国自己的文化。在进入人工智能时代,我们更应该发挥中文的优势,使得中国在人工智能时代可以获得更快的发展,并且有更好的经济效益。
从我们长久以来对自己语言的态度变化中,可以获得一些启示:那就是如何用科学的态度去看待自己的文化。所谓利弊或优劣,它永远是相对特定的要求来说的。我们不能因为遇到了某种劣势就简单地去否定自己的文化,也不能遇到优势就自我膨胀。
科学的态度就是实事求是,如果它是劣势,我们就应该想办法改进,去消除或者减少这种劣势。如果是优势,我们就应该想办法去充分地开发利用它。因为即使是潜在的优势,如果不去充分地开发利用,它也不会自动地体现出来。谢谢大家。
主持人:
刚才汪涛老师做了非常精彩的演讲。其实DeepSeek能够一下子火出圈,这让各行各界都为之震动。它可以说并不是“唯算力论”的,而是用种种方法提升了自己的效率。刚才汪涛老师在分析中提到,提升效率的种种途径当中非常重要的一条,同时也是不能忽视的一条——因为它用的是中文。所以这也是我们的一种文化自信。张老师您以前在联合国工作的时候,看各国文字的文件,是不是中文的文件特别薄一点?
张维为:
那肯定的,最典型的就是《联合国宪章》,有六种官方语言版本,中文是最薄的。道理非常简单,因为中文核心汉字只有3500个左右,掌握后就可以阅读所有报刊,而读《纽约时报》至少需要掌握2万个英文单词,否则你会读得非常累。
另外这次DeepSeek的突破让我联想到我之前写过的一本教科书——《英汉同声传译》,至今仍然在使用。我举一个例子,比方说,一句很简单的话:你不去,我去。这五个字,你要翻成英文的话是:“You don’t go, I go”。这么翻译当然很简单粗暴,但实际上中文这五个字,还可以放在上下文里来理解的。比方说你可以理解成,“If you don’t go,I will go”,即如果你不去,我去。这是一种假设关系。也可能是一种让步关系,比方说,即使你不去,我也去。
张维为:
所以我在想,DeepSeek要把这些关联背景都考虑到,这就证明它的“智商”非常高,效率自然也更高。
主持人:
它在给你回答的时候,其实已经把各种条件全部都思考过一遍了。
张维为:
如果这种中文逻辑它都能够处理,那么它恐怕也是能够处理英文的,这是背后的逻辑,我觉得这是革命性的。
汪涛:
英文的特点是严谨,除了张老师前面说的,英文里面还包括时态、单数、复数。所以英文在很多论文或法律文书中,确实是有它自身的优势,我们也要客观地看到这一点。
主持人:
现在很多人使用DeepSeek,有个很有意思的现象,就是你用不同的句式,或者把某些关键词前后颠倒一下,搜到的答案也都是不一样的。
汪涛:
是的,所以我们不能期望这种大模型的精确性非常高,这不仅是DeepSeek,其他所有大模型都是这种情况。比如说宏观的经济数据,或行政区域的一些数据,这些是可以的,但你要想得到一些实效性很强,精确性很高的数据,这就很难实现了,人工智能里面称之为“幻觉”。
主持人:
如果有人想要试试看的话,可能会发现DeepSeek或者其他的通用大模型,会非常严肃地跟你胡说八道。
张维为:
恐怕就是要通用大模型以外的垂直模型,各行各业、千行百业都要非常具体地做自己的模型。
汪涛:
对,所以大家也要注意到一个问题,就是大语言模型和通用人工智能,这两个概念往往会被混在一起说,但其实这是有区别的。大语言模型不能完全说它就是通用人工智能,它的确比以前的应用扩展了很多,尤其是它作为一个生成式的人工智能,这最初就是从机器翻译技术里面过来的。因为它可以生成各种各样你想要的答案,所以感觉它的通用性会比过去强很多。但是真正你要在不同领域去应用的话,还是需要各个不同的人工智能技术。
张维为:
这次春节年初二,我们去法国开会,一到那儿,就发觉大家都在谈DeepSeek,基本上都是西方的学者、官员,我们一起吃饭,大家都聊这个,这给他们带来了巨大的震撼。一方面他们觉得中国今天绝对是跟美国平起平坐的一个超级大国。
另外,他们说要搞欧洲的人工智能通用大模型,一个重要原因是要体现欧洲的价值观。你发现没有,大模型处理是有价值观的。在语言当中你输进去不同的语料,出来的东西也是不一样的,对不同问题的回答和描述也是不同的。
我想起德国哲学家维特根斯坦说过的名言:你讲这个语言,这个语言也讲你。(You speak a language,language also speaks about you.)你的整个文化背景都在你使用的语言里。你看我们前段时间去蒙古国访问,蒙古国盛产绵羊,相关的英文表述复杂得不得了:羊(sheep),羊肉(mutton) ,羊毛(wool),羊绒(cashmere)。
主持人:
不认识这些单词的话,根本不知道它们其实都有关联。
张维为:
中文一下就抓住,所以中文是寻求共性的语言。
主持人:
就像张老师一直举例说,只要是三点水,在中文里头,它多少都是跟水有关系,如江、河、湖、海。
张维为:
这是伟大的智慧,我们的祖先早就知道,想要治理这么大的国家,就一定要强调共性,一定要强调不同事物之间的共同之处,这对治国理政都有启发。
主持人:
对,刚才张老师提到说DeepSeek引起了欧洲人的思考,而且他们还担心在价值观影响方面落后于其他国家。所以,我想问问汪老师,当我们讨论DeepSeek也好,包括今年火爆出圈的宇树科技,以及其他杭州“六小龙”成员等等,就他们给整个社会带来的震动,到底包括哪些内容?
汪涛:
我觉得它最大的影响,就是彻底颠覆了我们过去的认知,即中国只能作为追随者。事实上DeepSeek走出的这一步说明,中国人是可以去引领一些技术发展方向的。这给大家的震撼非常强,尤其它在市场上、应用上带来的很多方面的影响也非常大。