本文介绍了趋境科技在AI领域的技术突破和产品创新,通过全新的私有化架构设计,让“算力奢侈品”变为“办公桌标配”,打破顶尖本地化AI智力与落地成本之间的鸿沟。利用MoE大模型架构的稀疏性,采用GPU/CPU异构协同和存储空间优化,小规模集群即可运行高性能大模型。趋境科技的产品已助力多家客户完成大模型部署,节省算力投入,实现AI民主化。
利用MoE大模型架构的稀疏性,采用GPU/CPU异构协同和存储空间优化,实现小规模集群运行高性能大模型。
与清华KVCache.AI团队长期合作,参与多个大模型推理的开源项目,将核心技术开源,助力大模型的发展。
趋境科技创始团队来自清华大学计算机系高性能所,致力于底层创新解决成本、效果、效率的不可能三角问题。其产品已经助力多家客户完成大模型部署,节省算力投入,实现AI民主化。
2025年2月,当DeepSeek-R1以”开源即巅峰”的姿态引爆AI界时,某AI科技团队却陷入了两难:这款拥有类专家级推理能力的模型,既是AI应用效果困局的钥匙,也是吞噬企业算力预算的黑洞——云服务持续过载导致关键实验中断,而组建百万级私有云集群的方案,让这个几十人团队望而却步。
在很多领域,尤其是金融、能源、政府等关键领域,70%以上企业明确要求本地化部署,数据安全与稳定性的优先级高于一切。这成为了大家共同的困境:
顶尖AI智力与落地成本之间,横亘着一道难以逾越的鸿沟
。
在”智能无妥协”的理想国背后,残酷现实正在上演
DeepSeek R1主要分为两大类别,共计8个版本,但性能与GPT-o1抗衡的版本只有671B满血版本。其他蒸馏版模型虽经过了调优,但性能仍与满血版有差距。然而,根据传统的私有化部署方案,运行671B参数的大模型需组建H100/H200 16卡服务器集群,启动成本动辄数百万,运维还需专业机房与高能耗散热系统。
对预算有限的中小团队来说,这相当于吃掉创新团队全年研发预算的60%,试错成本过于高昂,无疑会对其正常的业务运营造成巨大的压力。
这种情况迫使中小企业要么放弃部署,要么选择性能降级的“阉割版”模型或者更小的模型,但智能断崖可能导致试点项目得出负面结论。根据IDC的调查,70%的CIO报告称他们的自建AI应用项目失败率达90%。企业最终陷入“部署不起”与“用不好”的双重困境。
更令人焦虑的是,延迟智能化升级可能导致企业在市场竞争中处于劣势,错失潜在的经济和社会效益,错失政策支持与机遇。打破”顶尖本地化AI智力=天价门槛”的魔咒,让中小团队用有限预算获得智算中心级推理能力是大模型落地的关键。
技术破局密钥:强稀疏化MoE模型需要全新的私有化架构设计
破局的本质还是需要回到技术层面,不仅是DeepSeek系列的大模型,目前主流的大模型大多是MoE架构,这种架构的核心是将模型中的任务分配给不同的专家模块,每个专家模块专注于处理特定类型的任务,也就是说,虽然拥有千亿参数,但由于MoE架构的稀疏性,每次推理仅激活不到10%的神经元。
云上方案固然是一种解法:将专家模块分布式部署于大规模集群上,用海量并发摊薄成本。但中小团队及对安全性有高度要求的关键领域,需要全新的私有化架构设计来进行私有化部署。
基于此,趋境科技给出了全新的技术答案:利用MoE大模型架构的稀疏性,采用GPU/CPU异构协同和以存换算,小规模集群也可运行满血版DeepSeek R1,要成本也要更强智能。
具体到技术实现上,趋境科技通过算力划分和高性能算子,将来自存储、CPU、GPU、NPU的算力高效融合,充分释放全系统的存力和算力,以提升大模型推理性能;同时利用存储空间,为大模型加入处理缓存记忆的能力,面对全新的问题也可以从历史相关信息中提取可复用的部分内容,与现场信息进行在线融合计算,进而降低计算量。
值得一提的是,趋境科技联合清华 KVCache.AI 团队也刚刚更新了开源项目——异构推理框架KTtransformers,支持单GPU本地运行 DeepSeek-R1 671B满血版。更新发布后,引起全球开发者的强烈关注和复现热潮,在x、Reddit、B站等国内外社区均有开发者自发发布复现结果及教学视频,B站up主的教学视频发布当天播放量近20万,登顶全站热榜第一名。
趋境AI大模型推理软硬一体工作站——让大模型推理门槛降低10倍
在产品层面,趋境科技以四大革新重新定义企业级AI部署:
-
仅用传统部署方案成本的10%,获得顶尖大模型的能力。DeepSeek-R1/V3满血版的部署成本从数百万压缩至数十万级,且能够达到286 token/s的预填充和14 token/s的生成速度,比开源版本的llama.cpp最高快28倍。
-
异构算力释放极致性能,从“分钟级等待”瞬间迈入“秒级响应”,让中小团队以“轻量级”硬件获得“智算中心级”的推理能力。
-
国产芯片兼容生态闭环,深度整合英伟达、昇腾等多种芯片,实现从指令集到应用层的全栈优化。
-
工作站采用液冷散热与软硬一体设计,开箱即用,安静无噪,可置于办公室角落。
趋境的坚持:不能因为成本妥协智能
当行业陷入「成本」与「降智」的博弈时,趋境科技坚持底层创新解决成本、效果、效率的不可能三角。实际上,早在去年,趋境已经发布了支持DeepSeek-v2-236B本地私有化部署的一体机产品,此次是更大MoE模型支持的技术升级。
趋境科技的创始团队来自于清华大学计算机系高性能所,拥有超过10年的高性能计算、分布式存储、AI计算引擎优化等领域的技术积累。公司聚集了一群来自于清华、新加坡国立、北航、北邮、北理等国内外知名院校的博士生和研究生,大家怀揣着技术的热情,积极做有技术挑战的工作。
同时,趋境科技与清华KVCache.AI团队长期合作,参与了KTransformers、Mooncake等多个大模型推理的开源项目,将部分核心技术开源,为大模型的发展添砖加瓦。
目前,趋境科技的产品已经助力多家政府、教育、医疗、制造客户完成零妥协部署,单客户最高节省超过百万元初期的算力投入。
“AI民主化不是降低智力标准,而是重构技术边界。我们让每个勇于创新的团队,都能平等获得这个时代最顶尖的AI生产力。”这是趋境科技的愿景。