梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI
让
DeepSeek代替Claude思考
,缝合怪玩法火了。
原因无它:比单独使用DeepSeek R1、Claude Sonnet 3.5、OpenAI o1模型的
效果更好
。
先来看一段VCR:
再来看一个测评结果:
在
代
码编辑基准
Polyglot Benchmark上,缝合模型效果小超o1-high和R1一头。
在这个测试中,
R1扮演架构师
,描述如何解决代码问题。
而
Claude扮演程序员
,按要求生成特定的代码编辑指令,以便把改动应用到源文件中。
除此之外,实验过程中还得出还有几个有意思的结论:
-
o1与Claude Sonnet搭配
效果并不如单独使用o1。
-
使用R1或o1当架构师,
Claude之外的其他模型当程序员
,效果都不如单独使用R1或o1。
-
但
o1-preview和o1-mini当架构师
,
使用很多不同的模型当程序员都能提高组合的成绩。
-
使用R1的推理过程token效果
不如使用R1的最终输出token。
这样看来,R1和Claude Sonnet还真是一对绝配啊~
DeepClaude应用本身100%免费且开源,在GitHub上已揽获3k星星
(当然API要用自己的)
。
网友测试后总结到:Claude擅长撰写清晰、结构良好的文本和代码,因此它能将DeepSeek-R1的想法转化为精炼的回复。
DeepClaude作者之一对此有感而发:
AI智能体和智能体应用正在展示出一种“数字世界优先”的范式转变,智能系统正在成为主动的合作者,而不仅仅是被动的工具。
DeepSeek和Claude的混血儿
具体来说,DeepClaude是一个LLM推理API,通过Rust编写。
它提供了一个统一的接口,将DeepSeek R1的CoT逻辑推理能力和Claude的回复
在单一流中无缝衔接
。
开发者可以通过这个API同时调用两种模型的功能,还能完全掌控自己的API密钥和数据。
打造它的团队名为
Asterisk
,团队成员具有安全研究&CTF
(Capture The Flag)
背景,致力于利用AI让检查代码安全这事儿变得更加高效。
团队认为,DeepSeek R1的CoT深度推理甚至达到了LLM具有反省认知
(metacognition)
的程度,它能够自我纠正、思考不常见/极端/特殊的情况,并在自然语言中进行类似蒙特卡洛树搜索
(MCTS)
的推理。
不过R1在代码生成、创造力和对话技巧方面有所欠缺,Claude 3.5 Sonnet在这些方面表现出色,刚好可以作补充。
何不将两者结合起来?取两者之长,打造出DeepClaude~
对话中,Claude回应之前,系统会显示“
”这样的预填充文本。
DeepClaude结合了这两种模型,具有以下特性:
托管API完全免费,允许用户使用自己的密钥,并将DeepSeek和Claude的流式API整合在一起,提供计算组合使用量和价格等便利功能。
代码是开源的,用户可以自由托管、修改和重新分发。团队表示它已经在Asterisk的生产环境中大规模使用,每天处理数百万token,至今尚未出现故障,只要不滥用就行。
One More Thing
你以为两个模型缝合就是极限了吗?
No no no