|
从infra的视角谈谈DeepSeek-V3 吃果冻不吐果冻皮 · 公众号 · · 1 月前 · |
|
|
Deepseek V3 预训练策略解读 吃果冻不吐果冻皮 · 公众号 · · 1 月前 · |
|
|
DeepSeek-V3技术报告解读 吃果冻不吐果冻皮 · 公众号 · · 1 月前 · |
|
|
o1复现的一点点心得 吃果冻不吐果冻皮 · 公众号 · · 1 月前 · |
|
|
第19期-大模型书籍赠送活动 吃果冻不吐果冻皮 · 公众号 · · 1 月前 · |
|
|
游凯超:我与vLLM的2024 吃果冻不吐果冻皮 · 公众号 · · 1 月前 · |
|
|
将Diffusion模型的推理速度提升了8倍,顺利拿到6家企业offer 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|
|
LLM实践-支线:分布式训练框架的编程基础 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|
|
[vLLM vs TensorRT-LLM]:动态序列长度场景对比 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|
|
对OpenAI o3模型的看法、思考与反思 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|
|
[vLLM vs TensorRT-LLM] :系统调度schedule比较 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|
|
LLM推理-PD分离架构思考 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|
|
[vLLM vs TensorRT-LLM]:采样方法对两者性能的影响 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|
|
DPO vs PPO:深度解读谁是LLM Alignment的未来 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|
|
将Diffusion模型的推理速度提升了8倍,顺利拿到6家企业offer 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|
|
OCR多模态大模型:视觉模型与LLM的结合之路 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|
|
工业界主流大语言模型后训练(Post-Training)技术总结 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|
|
第十七期-大模型书籍赠送活动 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|
|
Ilya :pre-train丸啦,搞agentic和reasoning吧 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|
|
图解大模型计算加速系列:vLLM源码解析2,调度器策略(Scheduler) 吃果冻不吐果冻皮 · 公众号 · · 2 月前 · |
|