阿里云掀桌，Qwen2问鼎全球最强开源模型

伯虎财经 · 公众号 · · 2024-06-07 23:35

正文

这段时间，大模型行业是越来越热闹了。

前不久各家还纷纷大打价格牌，阿里云也一口气把大模型的体验门槛降到了脚底板级别。这还没完，就在昨天阿里云又抛出王炸，推出了最新的开源模型Qwen2系列。

为什么说它是王炸呢，最核心的原因还是在于它的模型能力。

上海人工智能实验室推出的OpenCompass是业内公认最权威的模型测评榜单之一，收录了全球上百个开源大模型的性能测试结果并给出了排名，其中 阿里云在今年2月推出的通义千问Qwen1.5在这个榜单中排名第8，领先了一众闭源同行，比如文心4.0、豆包pro、混元pro等。

而这次推出的Qwen2比Qwen1.5又要提升一大截。根据官方披露， 通义千问Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。 在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等国际权威测评中，Qwen2-72B一举斩获十几项世界冠军。

这个成绩不仅把国内同行甩在身后，还力压Meta发布的美国最强开源模型Llama3，成为名副其实的开源最强。

Qwen2发布后仅仅两小时，开源社区Hugging Face联合创始人兼首席执行官克莱门特·德朗格（Clément Delangue）就发推宣布：各位，HF开源大模型榜单新的第一出来了，Qwen2-72B。

其实要秋香说，阿里云能取得这样的成绩，不能说十分意外，只能说是情理之中。 作为国内最大的云厂商，阿里云一直都很重视大模型研发的投入。

过去的不到一年时间里，阿里云旗下的通义千问密集推出Qwen、Qwen1.5、Qwen2三代开源模型。同时Qwen也是国内唯一出现在OpenAI视野里，可以参与国际竞争的国产大模型。不久前，OpenAI创始人奥特曼转发了一份OpenAI研究员发布的榜单，其中GPT-4o位列榜首，而Qwen是榜上唯一一个国内模型。

还有一个值得注意的是， Qwen2的成绩也标志着在中国大模型领域，开源模型显示出超越最强闭源模型的势头。

过去外界普遍认为，开源模型和最领先的闭源模型之间存在相当大的差距，最直接的理由就是，目前最强大的模型GPT-4o就是闭源。但 阿里云的案例证明了，大模型的能力更多依赖研发、算力等因素，开源与否并不是衡量模型能力的标准。 正相反，许多来自开源社区开发者们的反馈也在帮助厂商迭代和优化模型。

以Qwen系列模型为例。自发布以来，Qwen系列开源模型的累计下载量突破了1600万，涌现了超过1500款基于Qwen二次开发的模型和应用。来自开发者的“催更”也在倒逼阿里云更紧迫的去迭代模型能力。

当然了，从更大的维度来说， 开源也就意味着普惠。

阿里云掀桌，Qwen2问鼎全球最强开源模型

正文

请到「今天看啥」查看全文