生成式AI
一、 一文读懂英伟达GTC:Blackwell、硅光芯片和“新故事”
1. Blackwell Ultra GPU及全家桶发布,升级内存、优化推理性能,覆盖从数据中心到个人计算的全场景;并预告2026年更强大的Rubin架构;
2. 推出Dynamo开源软件和Llama Nemotron模型,构建AI Agent生态,但在模型训练效率上不及DeepSeek等竞品;
3. 推出具身智能基础模型Cosmos和人形机器人基础模型Isaac GR00T N1,结合Omniverse构建完整的机器人生态系统,展现在具身智能领域的野心。
https://mp.weixin.qq.com/s/WD4_K3yRVNGKRvp2i3x6zg
二、 谷歌Gemini推出Canvas功能,「动动嘴」做原型设计
1. Gemini推出Canvas功能,可通过语音指令快速完成原型设计,实时预览代码输出,支持网页应用、Python脚本等开发;
2. 新增Audio Overview功能,能将文档、幻灯片转化为播客式对话,目前支持英语版本;
3. Canvas面向全球Gemini用户开放,支持实时编辑、协作分享,简化了编程流程,让开发更直观高效。
https://mp.weixin.qq.com/s/RMM46vm3E7gnLQnpD95VFQ
三、 Grok推出新功能DeeperSearch,让实时AI检索更强大
1. Grok新增DeeperSearch功能,可深入分析48小时内Twitter热门AI资讯,提供实时精准信息;
2. Grok3具备三种模式:Think、DeepSearch、DeeperSearch,其中DeeperSearch搜索和推理能力最强;
3. DeeperSearch在社交媒体数据挖掘方面具有独特优势,普通用户每种模式每天可免费使用5次。
https://mp.weixin.qq.com/s/LSItyW-PlHb0ZOHz93KOaw
四、 Stability AI推3D空间视频工具,照片直接秒变3D视频
1. Stability AI推出Stable Virtual Camera模型,可将2D照片转换为3D视频,支持多种动态相机路径,包括螺旋、推拉变焦等效果;
2. 模型支持1-32张输入图片,可生成最长1000帧视频,输出包括1:1、9:16、16:9等多种比例,但对人物、动物等动态场景效果欠佳;
3. 公司近期经历管理层变动,新任命《泰坦尼克号》导演卡梅隆为董事会成员,并与Arm合作开发移动设备AI音频模型。
https://mp.weixin.qq.com/s/k_OMnU-dxiYA7v8K62X8SQ
五、 可灵接入DeepSeek-R1不用学写提示词了?一手实测
1. 可灵接入DeepSeek-R1后,用户只需输入简单词语,AI就能自动扩充完整的提示词,包含主体描述、场景、运镜等细节;
2. R1能将抽象的成语、古诗词等内容转化为具体的场景描述,并优化生成效果,使视频更符合原意表达;
3. 可灵发布ReCamMaster镜头重建工具,支持10种镜头操作,可实现视频再渲染和相机轨迹重建,适用于多个应用场景。