图片由我司AI生成
sora的世界与人类并不相同
一、人工智障
前段时间sora火了,很多人都蹭着热点讲,刷出来一篇篇十万加。
我冷眼旁观,只是在内部讲了讲技术原理,然后被删了。
去年的人工智能,无论是chatGPT还是国产的AI,连个简单的数学题都做不好。
我曾经试过这样一个简单的问题,就是给出三角形的三条边,比如说分别是
12、13、14
,然后让AI计算三角形的面积。
很显然,这个用
海伦公式
就能做到,一个非常简单的计算,分两步:
我们看看结果:
通义千问,去年算的不对,今年直接卡住了。
文心一言,算的是对的,但是并不够精确。
ChatGPT 3.5算的是错的。
chatGPT4.0,有时候算得对,有时候是错的,也不够精确。
其它家我也基本试过了,一个比一个弱,基本算的都是错的。
大家要知道,
计算机天然适合做计算
。
这样的问题,你用计算器,或者编个简短的小程序,或者用excel,甚至用手算,都用不着动用matlab这样的科学计算软件,就可以轻松搞定。
现在花了这么大价钱训练出来的大模型,这么简单的问题都算不出来了。
这是为什么呢?
难道全世界的人工智能科学家都是白痴吗?
二、从牛顿到sora
从牛顿到爱因斯坦,人类的思维方式发生了巨大的变化。
这个就是公理体系。
这个我们前面的文章讲过很多。
就是像几何学一样,有几个基本公理,然后逐步推导,形成整个理论体系大厦。
公理体系,简洁而有力,你可以计算出远处的星球运动的轨迹,也能计算炮弹的运行轨迹,甚至是量子级别的微观现象,宛如神迹。
物理、化学摧枯拉朽,就是因为公理体系。
这是人类理解世界的方式。
最初,人们想的就是,我们把这些教给计算机就可以实现人工智能了。
你用手算、用计算器,编个小程序算,这种方式和当前人工智能的计算方式有一点点微妙的区别。
如果你理解了这一点,你对当前人工智能的理解会上一个档次。
区别在哪里呢?
区别在于,你
编程序,你必须自己理解整个步骤和原理,才能算。
你无论是手算,还是编个程序计算,你都需要把每个步骤搞清楚,一步一步的去算。
你编个程序,本质上,只是把这个计算步骤转化成计算机去做。
如果你自己都没搞清楚,计算机根本没法帮你算。
程序员编
不出自己都不懂的程序
。
但是有些事情,
你就是搞不清楚原理
。
比如说人脸识别。
下面是一张人脸,有什么规律呢?
图片由AI生成
都是两个眼睛,一个鼻子,一个嘴巴,两个眉毛。
同样都是这些器官,但是两个人就是长的不一样啊。
你能不能总结出一个公式出来?
圆脸、方脸、国字脸,鞋拔子脸?
图片由AI生成
当前人工智能的思想是,
反正有什么规律,我也不知道,你机器自己去学吧。
这个就是机器学习,当前主要是机器学习中的一种,叫
深度学习
。
已经广泛用于搜索、推荐系统等等。
当机器学习这个概念提出来的时候,让人感觉那不是一个笑话,简直觉得是天方夜谭,痴人说梦。
你人类自己都没把规律找出来,你还让机器去学,你这不是搞笑吗?
但是效果呢?
人类识别人脸的平均准确率是
97.5%
,就是说人类也有认错的时候。
以国内的商汤科技的人脸识别为例:
2014年能够用
20万
人脸来对机器进行训练做到了
98.5%
的准确率,
首次超过人类
;
2015年用
30万
人脸进行训练,达到了
99.55%
的准确率;
2016年用
6,000万
人脸训练可以达到了
百万分之一
的误识率;
2017年用
20亿
人脸训练可以达到
一亿分之一
的误识率;
商汤算是技术不错的。
我们说说一般水平的开源人工智能识别人脸,也有
99.84%
,超过人类2个百分点,而且可以全天候
24小时
工作,不知疲倦。
人工智能肯定是
发现了人脸的什么规律
,但是到底是什么规律,当前也不是人类可以理解的。
除了人脸,还有语言、图片、音频、视频等等,很多东西,人类并不知道规律。
但是机器却可以学会。
人工智能发展的过程中,凡是试图让人工智能去理解人类的体系,都是惨败。
以语言为例,你如果告诉计算机,文章由段落,段落由句子,句子由主谓宾定状补组成的,都是惨败。
Alphogo可以下围棋下过人类,但是到底围棋是啥规律呢?
并没有总结出来,它的理解方式和人类并不一样。
另外一条路,如果你让计算机发挥它的计算能力,让它自己去学,都是无往不利。
OpenAI就是走的这个路子,加大计算能力,加大数据量,让机器自己去学。
走上了这个路子,人类主要的工作,
就是面对一个领域,怎么想办法让计算机去学习。
一旦找到一个让机器学习的方法,人类就再也比不过了。
三、sora的革命性
Sora的革命性就在于,人类终于找到了一种方式,让计算机可以自己去学习视频。
这个方法才是革命性的。
至于说生成的蚂蚁是四条腿,杯子里面的水先流出来再摔在桌子上这些都是小问题,迟早机器会学会。
但是sora学习这些的方式,与人类并不相同。