这段时间,大模型行业是越来越热闹了。
前不久各家还纷纷大打价格牌,阿里云也一口气把大模型的体验门槛降到了脚底板级别。这还没完,就在昨天阿里云又抛出王炸,推出了最新的开源模型Qwen2系列。
为什么说它是王炸呢,最核心的原因还是在于它的模型能力。
上海人工智能实验室推出的OpenCompass是业内公认最权威的模型测评榜单之一,收录了全球上百个开源大模型的性能测试结果并给出了排名,其中
阿里云在今年2月推出的通义千问Qwen1.5在这个榜单中排名第8,领先了一众闭源同行,比如文心4.0、豆包pro、混元pro等。
而这次推出的Qwen2比Qwen1.5又要提升一大截。根据官方披露,
通义千问Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。
在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等国际权威测评中,Qwen2-72B一举斩获十几项世界冠军。
这个成绩不仅把国内同行甩在身后,还力压Meta发布的美国最强开源模型Llama3,成为名副其实的开源最强。
Qwen2发布后仅仅两小时,开源社区Hugging Face联合创始人兼首席执行官克莱门特·德朗格(Clément Delangue)就发推宣布:各位,HF开源大模型榜单新的第一出来了,Qwen2-72B。
其实要秋香说,阿里云能取得这样的成绩,不能说十分意外,只能说是情理之中。
作为国内最大的云厂商,阿里云一直都很重视大模型研发的投入。
过去的不到一年时间里,阿里云旗下的通义千问密集推出Qwen、Qwen1.5、Qwen2三代开源模型。同时Qwen也是国内唯一出现在OpenAI视野里,可以参与国际竞争的国产大模型。不久前,OpenAI创始人奥特曼转发了一份OpenAI研究员发布的榜单,其中GPT-4o位列榜首,而Qwen是榜上唯一一个国内模型。
还有一个值得注意的是,
Qwen2的成绩也标志着在中国大模型领域,开源模型显示出超越最强闭源模型的势头。
过去外界普遍认为,开源模型和最领先的闭源模型之间存在相当大的差距,最直接的理由就是,目前最强大的模型GPT-4o就是闭源。但
阿里云的案例证明了,大模型的能力更多依赖研发、算力等因素,开源与否并不是衡量模型能力的标准。
正相反,许多来自开源社区开发者们的反馈也在帮助厂商迭代和优化模型。
以Qwen系列模型为例。自发布以来,Qwen系列开源模型的累计下载量突破了1600万,涌现了超过1500款基于Qwen二次开发的模型和应用。来自开发者的“催更”也在倒逼阿里云更紧迫的去迭代模型能力。
当然了,从更大的维度来说,
开源也就意味着普惠。