专栏名称: t0mbkeeper
汉语从句专家,茧房建筑师
目录
相关文章推荐
界面新闻  ·  财政部:2024年国有企业利润总额43504 ... ·  3 天前  
刘润  ·  刘润公众号一周速览,敬请笑纳 ·  4 天前  
连岳  ·  多尺寸淡水珍珠素钉,不止优雅 ·  1 周前  
51好读  ›  专栏  ›  t0mbkeeper

刚才又测了一下。半年之后,不能完成编程任务的那几个还是不能完成。-20250128145611

t0mbkeeper  · 微博  · 热门自媒体  · 2025-01-28 14:56

正文

2025-01-28 14:56

刚才又测了一下。半年之后,不能完成编程任务的那几个还是不能完成。 DeepSeek v3 不仅可以完成而且比 v2.5 的代码质量更高。DeepSeek R1 也行,但不如 v3 完成的漂亮。
这几天很多人都表达了对 DeepSeek 3 训练成本大幅降低的惊叹。但也有人说这是“断章取义”,比如认为他们训练的只是 FP8 精度,强调他们训练用了大量高质量合成数据,并认为得到这些数据的过程所消耗的算力也应该算在训练成本里。

看了两边的观点之后我觉得好像都有道理,而我也没有资格在这个问题上做出评价。模型训练是大玩家们的游戏。我们能关注的还是模型应用。实验室的同学已经在测试 DeepSeek 3 了,具体好不好用也还是要用了才知道。

另外,今年夏天的时候,我用我自己设定的测试任务测了一下几个大模型。国内的大模型多数都不能完成我的编程任务(网页链接 网页链接)。只有当时的 DeepSeek 2.5 和另外一个能完成。