专栏名称: 道哥的黑板报
我偶然发现了隐藏在这个世界背后的真相,可惜这里的空白太小了,我没有办法写下来。想知道吗?请每天来看看吧。关注互联网、黑客、创业、技术、历史、文化,可能还有美女哦。
目录
相关文章推荐
三联生活周刊  ·  为什么越来越多年轻人,会患上突发性耳聋? ·  15 小时前  
新周刊  ·  多少返程打工人,抢着体验春运“红眼高铁” ·  21 小时前  
新周刊  ·  专访徐冬冬:我和尹子维真的很小清新 ·  昨天  
三联生活周刊  ·  胡吃海塞的春节后,不出意外需要喝点熟普了 ·  2 天前  
三联生活周刊  ·  30岁,我得了一种“不死的绝症” ·  3 天前  
51好读  ›  专栏  ›  道哥的黑板报

《西游记》里提到了孙悟空多少次?

道哥的黑板报  · 公众号  ·  · 2024-02-06 19:42

正文

这可能是人类历史上第一次数清楚《西游记》中孙悟空被提到了多少次,我相信即便是《西游记》的作者吴承恩都不知道自己的笔下提到了多少次这个古往今来最著名的猴子。

在我的上篇文章发布后,半个宇宙官网hikos.cn正式上线,引起了业界极大的关注。目前我们开放邀请测试,许多朋友已经拿到了邀请码。在上篇文章中,我着重分析了当前大模型技术的缺陷,并定义了“AI精度”的概念来衡量它,以及我们原创的PAIC(个人AI计算机)架构给出了达到更高的AI精度的解决方案。在本周,我们正式将第一篇关于PAIC的学术paper投递到了arXiv,感兴趣的读者可以点击“阅读原文”查看(arxiv待发布,先给出GitHub的paper链接)。

在今天, 我们将公布一个新的ACT:数一数,它能自动化的数清楚任意给定文本中的人物数量,包括各种指代关系。从而“数一数”可以有机会 真正解答本文标题中提到的问题:《西游记》里到底提到了孙悟空多少次?

这个问题之所以难,是因为在《西游记》里,孙悟空大多数时候其实不叫“悟空”,而是叫“大圣”、“行者”、“猢狲”、“俺老孙”、“徒儿”、“大师兄”等等别名,这还得包括所有的“你”、“我”、“他”等指代。而当我们真的着手尝试处理这个问题时,发现比我们想象的要复杂得多,比如孙悟空拔下的毫毛幻化出来的悟空,还算不算是他?再比如,孙悟空给自己的旗子上写上了“齐天大圣”,但是玉帝还只封了他个弼马温,那这时候“齐天大圣”算不算是孙悟空?我们发现这些问题,即便是人来处理,也会存在一定的争议。

但无论如何,我们真的尝试来数了,因为我们的目的,是要给出一种通用的算法,能够有效的分析指定文本内容里的数据结构,从而实现让AI系统可以自动化的精确处理数据。按照我们的想法,这个算法应该能通用的、自动的精确数人,进而推广到一般情况,可以精确的数任何对象、关系,从而实现自动化的structure-mining,这个过程,即我此前文中提到的“数据脱水”。

这个“数猴子问题”之所以重要,是因为它很具有代表性。而且虽然没有证明,但我猜测“数猴子问题”可能是AI精度领域里的一个“完全问题”,许多具有实用价值的场景所要解决的技术问题,最后都可以归约到这个“数猴子问题”。比如AI写营销文案、AI做PPT、AI做绘本、AI练口语等等。这些AI应用都无一例外的要求对数据有精确的处理,如果大模型连数数都不清楚、不精确,怎么可能实现真正的实用价值呢?这就是为什么当前这些AI应用没有一个好用的原因,它们中没有一个能把“猴子”给数清楚了。

比如我们想写个人工作总结报告,把写作要求和参考材料喂给大模型后,它开始做内容生成,得到了一篇约2000字的稿子。这时候你觉得引用的案例或者数据不太对,想让它改改,但却发现大模型只会重新生成一遍,或者它想改却又怎么都改不对。因为prompt会丢失很多细节,很难通过prompt再捕捉到。类似的,在做阅读理解的时候也会遇到同样的问题,比如分析论文或者是分析财报,大模型往往会泛泛而谈,而无法按照人类的思路和经验提取出关键的信息,归根结底,就是因为大模型缺乏“数清楚”的能力,AI精度太粗糙,所以人类指挥起AI来如隔靴搔痒,处理数据时很可能会漏掉关键的细节信息。

为了表达清楚这一问题, 我们看看OpenAI的ChatGPT最新版本的表现如何,我们把“数猴子问题”喂给它。为了测试,我们挑了一段《西游记》的原文,其中孙悟空被提到的次数为31次(包含各种指代):

下面 让ChatGPT-4试试:

可以看到,ChatGPT在很好的prompt的前提下,依旧数错了。由于大模型是基于统计原理在一句句数,自然可能会漏掉。其他大模型我们也都测试过,全部阵亡,在这里就不展示出来了,免得伤了和气。感兴趣的读者可以自行测试。

下面看看我们kOS的表现,在数一数ACT的加持下,任意文本内容会自动数出人物。目前这是第一个版本,支持数两千字以内、中文的人物和人物关系,以及所有的“你、我、他”这样的代词:

可以看到,kOS成功的数出了正确答案。而且它返回了一张图,理清楚了人物关系。所以kOS“数一数”的原理和ChatGPT是很不一样的,我们会全自动的生成一张Graph,梳理清楚数据结构,未来所有图计算的能力就都有了用武之地,在推理上会相当灵活和强大。

在这张graph中,括号里的数字是“数据坐标”,m-n表示第m段的第n句话。在这个测试里kOS把所有文字合并成了一段话。

这样,我们通过反复调用数一数,就逐步数清楚了在《西游记》中,孙悟空这只猴子到底出现了多少次。由于《西游记》的版本众多,我们挑选了一个最大众化的:人民文学出版社2017年出版的黄肃秋注释版,其版次是“1955年2月北京第1版,2010年10月北京第3版,2017年12月第1次印刷”。 最终数完正文的一百个回合后,我们得到的答案是孙悟空一共被提到了:11438 次 ,包含所有的别名和“你”、“我”、“他”的指代词。这个结果即便不是终极答案,也已经高度近似了。这可能是人类历史上第一次数清楚这只猴子,连作者吴承恩都不知道的答案,下次可以把这个结果烧纸给他祭奠了。







请到「今天看啥」查看全文