专栏名称: CTO肉饼
robbin是前JavaEye网站创始人,现在是丁香园CTO。如果你是技术人员,正在创业或者希望加入创业,关注互联网产品、研发、运营、创业管理,请关注我。
目录
相关文章推荐
51好读  ›  专栏  ›  CTO肉饼

通义千问2.0 - 中国开源大模型终于支棱起来了

CTO肉饼  · 公众号  ·  · 2024-06-08 10:54

正文

请到「今天看啥」查看全文


中美两国在人工智能领域的竞争进入白热化阶段了。美国不仅仅全面禁止了英伟达GPU对中国的出口,甚至考虑禁止让中国人下载和使用开源的AI大模型Llama 3,不光不让你训练AI,连现成的都不想给你用。要知道Llama 3可是全球最流行的开源AI大模型,就如同智能手机中的Android操作系统一样。


那你说,我们就没招了吗?当然不是!阿里云最新开源的AI大模型通义千问2.0已经全面赶上甚至超过了Llama 3。

我们来看看同样是主力720亿参数的AI:千问-72B vs Llama 3-72B:

千问-72B已经在各项AI模型的测评中全面碾压了Llama 3-72B。在经过指令微调之后,千问-72B仍然在绝大多数任务中全面超越了Llama 3。毫无疑问,对我们来说,千问已经完全可以替代Llama 3了。

当然,这种720亿参数的AI大模型主要用来秀肌肉的。我们平常在企业中私有化部署和使用,往往使用100亿参数以内的小模型,降低对硬件的要求。然而对比小模型,千问仍然碾压了Llama 3。这里插播一句哈:国内的智谱最新推出的GLM4-9B也特别强悍,碾压Llama 3毫无悬念。

特别能够体现AI大模型能力的编写代码和解数学题方面,千问2.0也有巨大的提升,相比Llama 3已经实现全面的超越。还在训练中的Llama 3的4000亿参数模型尚未出炉之外,千问2.0的720亿参数的大模型,现在就可以宣布全球最强开源大模型了。

令我特别感兴趣的,这次阿里云揭晓了究竟是如何实现了史无前例的100万token的长对话窗口。原来是采用了自研的开源的检索增强和智能体框架Qwen-Agent。而且这种结合了智能体的方式,竟然比单纯的长对话窗口的AI大模型表现更加好。这是一个非常棒的高性价比的创新做法啊。

不得不说啊,我们国内的AI行业科研人员还是非常给力的。虽然开创性的颠覆式创新咱确实比不过老美,但只要方向明确、咱们的追赶力度还是非常恐怖的。虽然引领时代的OpenAI还无法追赶,但全面对标开源的Llama 3真是一点都不虚啊。特别是在美国连开源大模型都要封锁我们的时候,能够做出全球最顶尖的开源AI,真的是给了我们很大的信心。

我是CTO范凯,跟我一起了解AI,拥抱AI的大时代。







请到「今天看啥」查看全文