专栏名称: 酷玩实验室
理工男神聚集的神秘所在
目录
相关文章推荐
江苏教育新闻  ·  推迟VS抢跑,开学“时差”反映了啥? ·  14 小时前  
江苏教育新闻  ·  推迟VS抢跑,开学“时差”反映了啥? ·  14 小时前  
中油工程  ·  发展“创新链” 他们落棋“三子” ·  14 小时前  
六里投资报  ·  景林、但斌300亿持仓披露:东方港湾All ... ·  15 小时前  
六里投资报  ·  景林、但斌300亿持仓披露:东方港湾All ... ·  15 小时前  
51好读  ›  专栏  ›  酷玩实验室

大模型圈最新现状:一半在用DeepSeek,另一半在玩“颜文字”?

酷玩实验室  · 公众号  · 科技自媒体  · 2025-01-02 22:00

正文


文章来源于公众号:硅星人Pro

ID:Si-Planet



这两天的大模型圈子,可谓是热闹非凡。一边,DeepSeek凭借其低成本、高性能的亮眼表现,吸引着无数目光,各路技术大牛纷纷点赞。

而另一边,社交媒体和技术论坛上却开始流行起各种奇特的“颜文字”,比如“QwQ”、“QVQ”,不明所以的人可能一脸懵,但懂行的人都知道,这指的正是阿里通义千问开源的系列模型。


今年9月,阿里发布通义千问新一代开源模型Qwen2.5系列,一口气推出了从0.5B到72B参数的不同规模版本,覆盖了各种应用需求,成功跻身全球顶尖开源模型行列,多模态、多语言能力样样不落,成了不少企业和开发者的心头好。不仅如此,Qwen团队最近也动作频频,接连开源了几款颇具亮点的 AI 模型,持续引发关注。


Qwen团队的命名风格也是相当“抽象”:QVQ,“两眼瞪”;QwQ,像是键盘上不小心蹭了一下。这是什么代码世界的颜文字?似乎技术大牛们在严肃的科研之余,偷偷藏了一点“皮”。也许,Qwen的命名哲学就是:名字随意,能打才是硬道理?


提起生成式 AI,大家的目光似乎总离不开大洋彼岸的科技巨头:OpenAI、谷歌、Meta。但最近,AI圈子里却频频闪现一些来自东方的身影,比如DeepSeek和阿里的通义千问Qwen,它们正在各大AI模型性能榜单上攻城略地,成为焦点。


要知道,过去我们聊到国产大模型,总感觉带着点“追赶者”的阴影。但现在这样的中国开源力量,正在用实力证明自己不再是看客,而是足以和OpenAI、Meta这些巨头劲旅掰手腕的角色。


Hugging Face 2024 年年度盘点数据就很有意思:Qwen2.5-1.5B-Instruct 的下载量占比高达 26.6%,碾压了Llama 3 和 Gemma这些明星开源模型。下载量这东西,虽然不能完全等同于“最强实力”,但绝对是人气的硬指标。

Qwen2.5-1.5B-Instruct的超高下载量,证明了其在当前时间节点上的广泛应用和高人气,也反映出中国公司开发的开源大模型正在国际舞台上展现出越来越强的影响力,实际上,Hugging Face平台上 2023年下载量最高的开源模型,同样来自中国社区,是智源研究院BGE-base。


对于Qwen的亮眼表现,国外网友也是喜闻乐见,甚至已经开始玩梗了:扎克伯格可能正偷偷瞅着你用Qwen而不是 Llama。”


圣诞大礼包QvQ,首个开源多模态推理模型


网友们开始用上的包括Qwen团队送上的圣诞礼物:QVQ-72B-Preview。这是一款能够分析图像并进行推理的全新开源模型。虽然还处于实验阶段,但初步测试表明,它在视觉推理任务中表现相当出色。


QVQ通过逐步思考来解决问题,类似于OpenAI的o1或Google的Flash Thinking等能够“逐步思考”的模型。用户扔给它一张图和一些指令,系统会分析信息,在必要时花时间进行反思,并以每个预测的置信度分数提供答案。


在底层架构上,QVQ-72B-Preview 基于 Qwen 现有的视觉语言模型 Qwen2-VL-72B 构建,并增添了思考与推理的能力,这使它成为首个此类开源模型。

开发者在Macbook Pro上运行QVQ

在基准测试中,开源的QVQ全面超越了其前身Qwen2-VL-72B-Instruct,达到了与闭源模型如 OpenAI 的 o1 和 Claude 3.5 Sonnet 相近的准确水平。

QVQ-72B-Preview 的基准测试结果


在实际测试中,一位网友拍了一张纽约地铁照片考验QVQ,并提问“如果我要去唐人街,我该在这站下车吗?”用户最终表示模型做出了正确的判断,结合问题进行了有效的推理。


获陶哲轩点赞的开源推理模型QwQ


时间再往前推,2024年11月28日,Qwen团队还开源了一款专注于推理能力的AI模型 QwQ-32B-Preview。

这是Qwen团队发布的首个开源推理模型,旨在增强AI推理能力。尽管参数量仅为32B,但在 GPQA、AIME、MATH-500 和 LiveCodeBench 等多个评测中,QwQ 都取得了不俗的成绩,甚至在部分测试中超越了超越了o1。QwQ具备深度自省能力,能够质疑自身假设并进行深思熟虑的自我对话,从而解决复杂问题。


虽然QwQ目前还处于实验阶段,但它展现出的强大分析能力和独特的推理方式,已经吸引了不少目光,甚至连数学界的大牛陶哲轩都公开点赞,说它的表现超越了以往的所有开源模型。


在 AIMO(AI 数学奥林匹克)挑战赛中,Qwen 系列模型也成为了参赛者们最常用的模型之一,位列前三。

AIMO使用最多的模型排名前三均为Qwen


“开放权重、价格低、基础能力突出,这样的推理模型谁不喜欢呢”。


Qwen2.5-Coder:开源界的“代码扛把子”?


Qwen2.5 系列的发布,尤其是 Qwen2.5-Coder 的亮相,在AI圈内引发了一波讨论。尽管模型体积相对较小,但Qwen 2.5 Coder32B在HumanEval 等编程基准测试中仍能与前沿模型相媲美。


有海外技术博主就吐槽,现在大家好像都盯着 OpenAI、谷歌、Anthropic 这些巨头的动态,却忽略了Qwen这个“狠角色”。人家可是第一个能跟Claude Sonnet和GPT-4o正面硬刚,还能在你电脑上本地运行的开放权重模型。这可不仅仅是跑分好看而已,很多体验过的人都说“真香”。相比之下,DeepSeek的模型虽然也很牛,但体积太大,本地跑起来有点费劲(彼时deepseek v3还未发布)。Qwen2.5-Coder 的出现,对于开源社区来说绝对是个大新闻。更良心的是,阿里还把技术报告完完整整地公开了,没有藏着掖着,与社区共享这份成果。


还有开发者基于Qwen2.5-Coder做了AI 的视频编辑器Video Composer,用户可以通过拖放素材(如图片、视频和音频),并使用自然语言,让Qwen2.5-Coder生成新视频(基于 FFMPEG 技术)。


满足多样化需求,全球化的Qwen


Qwen的另一大优势在于它的“平易近人”。Qwen2.5 系列不仅面向技术专家或大型企业,它的设计初衷是让广大用户都能轻松使用。从资源受限设备适用的 0.5 亿参数版本,到企业级应用所需的 720 亿参数版本,提供了丰富的选择,满足不同需求。

在日本,阿里云与东京大学初创企业 Lightblue 合作,旨在提升其日语大型语言模型(LLMs)。Lightblue 借助阿里云的架构及 Qwen LLM技术,对模型进行了优化,从而提高了东亚语言的准确性。


知名投资人Coinbase前CTOBalaji Srinivasan也公开认可了 Qwen 的多模态和多语言能力。

现在,全球各地的工程师几乎都可以轻松访问Qwen的各类模型。更难得的是,Qwen在处理多种语言方面表现出色,即使是一些全球AI训练数据比较少的“小语种”,比如缅甸语、孟加拉语和乌尔都语,它也能应对。相比之下,Meta的开源AI模型Llama主要还是针对英语应用为主。

不少日本开发者在认真研究 Qwen2.5 的技术报告






请到「今天看啥」查看全文