专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
目录
相关文章推荐
虎嗅APP  ·  被抛弃的五星级酒店 ·  2 天前  
新浪科技  ·  【#特斯拉发布FSD使用说明##特斯拉FSD ... ·  3 天前  
51好读  ›  专栏  ›  腾讯研究院

腾讯研究院AI速递 20250303

腾讯研究院  · 公众号  · 科技媒体  · 2025-03-03 00:01

正文

生成式AI

一、  DeepSeek 开源周彩蛋,披露成本利润率!还有大量技术细节

1. DeepSeek首次披露模型推理系统成本利润率高达545%,日成本约$87,072,理论日收入$562,027;

2. 采用H800 GPU配置,根据负载差异动态调整节点数量,每台H800的prefill吞吐约73.7k tokens/s;

3. 应用大规模跨节点专家并行技术与双批次重叠处理策略,针对不同场景优化并行策略提高效率。

https://mp.weixin.qq.com/s/K_kMW-sc0C1rzpXr7cOttw

二、  腾讯直播谈最新快思考模型:API 成本只有 deepseek 不到一半

1. 腾讯发布快思考模型Turbo S,吐字速度提升一倍,首字时延降低44%,API成本仅为deepseek的1/2-1/4;

2. 采用创新Hybrid-Mamba-Transformer融合架构,降低计算复杂度和KV-Cache占用,实现成本下降;

3. 通过长短思维链融合技术,在保持快速响应的同时提升数学、代码等强推理任务表现。

https://mp.weixin.qq.com/s/u0pjLYpeWlqPHvA5ChubRw

三、  实测腾讯元宝电脑版:满血DeepSeek,装上就是AI PC

1. 腾讯元宝电脑版上线,内置自家混元大模型和满血版DeepSeek,支持深度思考和联网搜索功能;

2. 元宝电脑版特色是利用微信公众号资源进行搜索,支持多模态功能,可生成图片、解析截图和生成代码;

3. 元宝数据激增,APP单日下载突破50万,DAU超530万进入TOP3。Web端访问量跃升至第四。

https://mp.weixin.qq.com/s/ect4GyjKrlHvAzuhpKMElQ

四、  Meta无预警发布新一代AI眼镜,专为AI和机器人研究打造

1. Meta无预警发布第二代Aria智能眼镜(Aria Gen 2),专为AI和机器人研究人员打造,将向第三方科研人员开放使用;

2. 新眼镜升级传感器套件,鼻托处新增心率监测PPG传感器和接触式麦克风,支持全天候使用(主动使用6-8小时);

3. 集成多项本地化机器感知系统,包括SLAM空间定位技术,可在GPS信号薄弱环境实现自主建图与导航,已与Envision合作开发视障辅助功能。

https://mp.weixin.qq.com/s/K1MLuWJnmyTcS_HDjn08bA

五、  字节视频生成新突破!Phantom搞定多人物/主体一致性

1. 字节跳动推出主体一致性视频生成模型Phantom,突破性解决多主体一致性挑战,能同时保持多个主体的完整性特征;

2. 模型支持身份保持、单参考和多参考主体视频生成,可以精准抓取人物、动物、服装等关键特征,实现自然融合;

3. Phantom基于DiT架构,采用主体到视频(S2V)生成方案,通过文本-图片-视频三元组数据训练,平衡创造性和可控性。

https://mp.weixin.qq.com/s/2dAdu3sN4LpMvSzheHQdCw

六、  终于!AI语音不再"像AI"?Sesame的语音存在感突破

1. Sesame团队专注开发自然对话语音伴侣,致力于跨越语音助手的"恐怖谷",让AI声音更自然、富有情感;

2. 团队开发"对话语音模型"(CSM),将情感智能、对话节奏、情境意识和一致性格融入语音生成,使用变换器技术整合对话上下文;

3. CSM模型用百万小时英语音频训练,测试显示大模型生成的语音更接近真人,主观测试中在无上下文情况下人们难以分辨AI与真人声音。

https://mp.weixin.qq.com/s/bK9YsUq8dKVDdgjNkBuN_w

前沿科技

七、  Meta把数字人成本打下来,普通人手机拍照即可生成3D数字人

1. Meta推出新技术Avat3r,仅需4张手机拍摄的面部照片,5分钟内即可生成可动的3D数字人模型;

2. 采用动态3D高斯重建模型+ViT视觉Transformer架构,结合DUSt3R和Sapiens技术,单块RTX3090显卡即可实现实时渲染;

3. 支持单图/画作/雕塑跨次元建模,通过FLAME面部编码和跨注意力层实现微表情捕捉,大幅降低数字人制作门槛。

https://mp.weixin.qq.com/s/7eyihZGDVkrow4zlyqCvoA

报告观点

八、  GPT-4.5不如DeepSeek?OpenAI首席研究官正面回应

1. OpenAI发布GPT-4.5后遭遇"群嘲",不少用户认为其在某些方面不如DeepSeek,OpenAI首席研究官Mark Chen对此作出回应;

2. Chen解释OpenAI走两条技术路线:无监督学习(GPT-4.5)和推理(O1/3),两者互补而非对立,GPT-4.5在知识量和创意写作方面优于推理模型;

3. 关于DeepSeek高效率的专家混合模型(MoE),Chen表示OpenAI也在GPT-4.5中探索这一技术,并称"几乎所有大型语言模型都在使用它"。







请到「今天看啥」查看全文