专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

腾讯研究院AI速递 20250303

腾讯研究院 · 公众号 · 科技媒体 · 2025-03-03 00:01

正文

生成式AI

一、 DeepSeek 开源周彩蛋，披露成本利润率！还有大量技术细节

1. DeepSeek首次披露模型推理系统成本利润率高达545%，日成本约$87,072，理论日收入$562,027；

2. 采用H800 GPU配置，根据负载差异动态调整节点数量，每台H800的prefill吞吐约73.7k tokens/s；

3. 应用大规模跨节点专家并行技术与双批次重叠处理策略，针对不同场景优化并行策略提高效率。

https://mp.weixin.qq.com/s/K_kMW-sc0C1rzpXr7cOttw

二、腾讯直播谈最新快思考模型：API 成本只有 deepseek 不到一半

1. 腾讯发布快思考模型Turbo S，吐字速度提升一倍，首字时延降低44%，API成本仅为deepseek的1/2-1/4；

2. 采用创新Hybrid-Mamba-Transformer融合架构，降低计算复杂度和KV-Cache占用，实现成本下降；

3. 通过长短思维链融合技术，在保持快速响应的同时提升数学、代码等强推理任务表现。

https://mp.weixin.qq.com/s/u0pjLYpeWlqPHvA5ChubRw

三、实测腾讯元宝电脑版：满血DeepSeek，装上就是AI PC

1. 腾讯元宝电脑版上线，内置自家混元大模型和满血版DeepSeek，支持深度思考和联网搜索功能；

2. 元宝电脑版特色是利用微信公众号资源进行搜索，支持多模态功能，可生成图片、解析截图和生成代码；

3. 元宝数据激增，APP单日下载突破50万，DAU超530万进入TOP3。Web端访问量跃升至第四。

https://mp.weixin.qq.com/s/ect4GyjKrlHvAzuhpKMElQ

四、 Meta无预警发布新一代AI眼镜，专为AI和机器人研究打造

1. Meta无预警发布第二代Aria智能眼镜（Aria Gen 2），专为AI和机器人研究人员打造，将向第三方科研人员开放使用；

2. 新眼镜升级传感器套件，鼻托处新增心率监测PPG传感器和接触式麦克风，支持全天候使用(主动使用6-8小时)；

3. 集成多项本地化机器感知系统，包括SLAM空间定位技术，可在GPS信号薄弱环境实现自主建图与导航，已与Envision合作开发视障辅助功能。

https://mp.weixin.qq.com/s/K1MLuWJnmyTcS_HDjn08bA

五、字节视频生成新突破！Phantom搞定多人物/主体一致性

1. 字节跳动推出主体一致性视频生成模型Phantom，突破性解决多主体一致性挑战，能同时保持多个主体的完整性特征；

2. 模型支持身份保持、单参考和多参考主体视频生成，可以精准抓取人物、动物、服装等关键特征，实现自然融合；

3. Phantom基于DiT架构，采用主体到视频(S2V)生成方案，通过文本-图片-视频三元组数据训练，平衡创造性和可控性。

https://mp.weixin.qq.com/s/2dAdu3sN4LpMvSzheHQdCw

六、终于！AI语音不再"像AI"？Sesame的语音存在感突破

1. Sesame团队专注开发自然对话语音伴侣，致力于跨越语音助手的"恐怖谷"，让AI声音更自然、富有情感；

2. 团队开发"对话语音模型"(CSM)，将情感智能、对话节奏、情境意识和一致性格融入语音生成，使用变换器技术整合对话上下文；

3. CSM模型用百万小时英语音频训练，测试显示大模型生成的语音更接近真人，主观测试中在无上下文情况下人们难以分辨AI与真人声音。

https://mp.weixin.qq.com/s/bK9YsUq8dKVDdgjNkBuN_w

前沿科技

七、 Meta把数字人成本打下来，普通人手机拍照即可生成3D数字人

1. Meta推出新技术Avat3r，仅需4张手机拍摄的面部照片，5分钟内即可生成可动的3D数字人模型；

2. 采用动态3D高斯重建模型+ViT视觉Transformer架构，结合DUSt3R和Sapiens技术，单块RTX3090显卡即可实现实时渲染；

3. 支持单图/画作/雕塑跨次元建模，通过FLAME面部编码和跨注意力层实现微表情捕捉，大幅降低数字人制作门槛。

https://mp.weixin.qq.com/s/7eyihZGDVkrow4zlyqCvoA

报告观点

八、 GPT-4.5不如DeepSeek？OpenAI首席研究官正面回应

1. OpenAI发布GPT-4.5后遭遇"群嘲"，不少用户认为其在某些方面不如DeepSeek，OpenAI首席研究官Mark Chen对此作出回应；

2. Chen解释OpenAI走两条技术路线：无监督学习(GPT-4.5)和推理(O1/3)，两者互补而非对立，GPT-4.5在知识量和创意写作方面优于推理模型；

3. 关于DeepSeek高效率的专家混合模型(MoE)，Chen表示OpenAI也在GPT-4.5中探索这一技术，并称"几乎所有大型语言模型都在使用它"。

腾讯研究院AI速递 20250303

正文

请到「今天看啥」查看全文