专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯研究院

腾讯研究院AI速递 20250325

腾讯研究院  · 公众号  · 科技媒体  · 2025-03-25 00:01

正文

请到「今天看啥」查看全文


生成式AI

一、  谷歌Gemini Live上新功能,能看懂手机屏幕、还能实时视频

1. 谷歌Gemini新增实时屏幕共享功能,能准确识别屏幕内容并实时互动,还可打开摄像头与物理世界交互;

2. 用户可让Gemini实时查看屏幕内容或调用手机摄像头画面,但无法控制手机,仅能交流互动;

3. 此功能是"Project Astra"首次亮相,代表谷歌AI助手发展新阶段,将于3月下旬向高级用户推送。

https://mp.weixin.qq.com/s/wfHVXBGq7NEyp9ftlsKtrA

二、  Claude 悄悄进化:全新“思考”工具解锁,像人一样停下来想想

1. Claude新增"think tool"思考工具,相当于为AI添加"暂停键"和"草稿纸",允许在生成答案过程中停下来审视信息;

2. 该功能特别适合复杂工具调用场景,如信息过载、规则繁琐或需要步步为营的任务,开发者可通过简洁JSON配置轻松集成;

3. 实测显示"think tool"在客户服务场景中效果提升高达54%,软件工程任务中平均提升1.6%,主要适用于工具输出分析、政策合规和连续决策任务。

https://mp.weixin.qq.com/s/kL9ZaZF6PfeW7lVlliD2ng

三、  DeepSeek V3 模型更新,编程能力大幅提升,更宽松开源协议

1. DeepSeek发布V3模型更新,编程能力大幅提升,用户测试显示其前端编码能力已接近Claude 3.7,成为感知最强的提升部分;

2. 新版V3由32KGPU集群改进后训练支持,提升幅度大约相当于Sonnet 3.5到3.6的提升,在多轮对话中表现出更强的上下文理解能力;

3. 新版V3将开源许可从初代V3更新为MIT开源许可,以商业友好著称,对希望在商业项目中使用该模型的开发者是最重要的改变。

https://mp.weixin.qq.com/s/9gkU1G0MrF9L0TFXX4Rldw

四、  氛围编程师崛起!Karpathy用400行AI代码构建iOS应用

1. Karpathy无Swift经验仅靠与ChatGPT多轮对话,1小时内完成400行代码的iOS卡路里追踪应用,将"氛围编程"推向热潮;

2. 氛围编程本质是完全放任AI自由发挥而非审查代码,与专业工程师使用LLM的开发模式有根本区别,YC已出现年薪87万的"氛围编程师"职位;

3. 这种编程方式价值在于降低初学者入门门槛,使无编程背景人士也能创建定制化工具,同时帮助资深工程师探索模型能力边界。

https://mp.weixin.qq.com/s/zCoTRVboSrCZfLt4f22qLg

五、  谷歌大型推理模型曝光?竞争场效果击败Claude-3.7-Thinking

1. 谷歌疑似测试中的大型推理模型"Nebula"被意外曝光,据称在LMSYS Arena表现优于Claude 3.7 Thinking、o1和o3-mini;

2. API分析显示Nebula是一款Gemini测试模型,可能为即将发布的Gemini 2.0 Pro Thinking,但在被发现后已下线;

3. 测试案例显示该模型在解决需要物理常识的问题上表现出色(如"底部有孔的桶能储多少水"),同时在创意写作方面也有优异表现。

https://mp.weixin.qq.com/s/COeERA3Swsu9hJbbYtzfbw

六、  文生图低调杀出了一个“黑马”,效果或超过Flux和Imagen 3

1. Halfmoon文生图模型此前在多个图像竞技场排行榜上超越Flux和Imagen 3等SOTA模型;

2. Halfmoon背后是加州帕洛阿尔托的创意工具初创公司Reve AI,产品名为Reve Image;

3. Reve Image从零训练,擅长提示遵循和美学设计,文本指令跟随能力和图片真实度强大。

https://mp.weixin.qq.com/s/DJNFY3cqOY1BDHtFRHII5A

七、  Browser Use融资1700万美元,Manus爆火背后的秘密武器

1. Browser Use融资1700万美元种子轮,由Felicis领投,打造让智能体更易"读懂"网站的技术;

2. 该公司由Müller和Zunic创立,五周内开发出demo后开源,已获GitHub超47k星标;

3. Browser Use将网站元素转化为更像"文本"的格式,被Manus等热门智能体采用,成为智能体浏览网页的底层技术。

https://mp.weixin.qq.com/s/TeBc9LExr0542ClNw4_ubA

前沿科技

八、  苹果AI可穿戴设备计划曝光,手表装上摄像头也能认知世界?

1. 苹果正研发带摄像头和视觉智能功能的智能手表,计划2027年前后推出;

2. 标准版Watch采用"打孔屏"设计,而Ultra版则在侧面表冠和按钮之间安装摄像头;

3. 苹果将AI视觉作为未来设备核心,涵盖全生态产品,同时iPhone 18将首发台积电2nm芯片。

https://mp.weixin.qq.com/s/URzmYxxDuWr1GZLdn51GDQ

报告观点

九、  OpenAI总裁:每天用AI学习2小时,成绩超美国98%学校

1. Alpha School学校每天仅用AI学习2小时,学生成绩达到全美前2%,超过98%的学校;

2. 该学校采用AI实现个性化教学,学习效率是传统学校2倍,平均SAT成绩达1470分;

3. 剩余时间学校专注培养学生演讲、金融、社交、语言和体能等生存技能,学生更爱学习且体能更好。

https://mp.weixin.qq.com/s/iBBPZjHZeyhzMjMxVj2-zw

十、  o1 作者:基准测试或失效,未来靠token成本衡量模型智能

1. OpenAI推理研究负责人诺姆·布朗认为,当前用数字大小比较AI模型基准测试已毫无意义,应考虑"单位成本智能";

2. 突破性AI进展不仅依赖算力和扩展法则,而是源于研究范式的转变,探索新范式不需大量计算资源,但验证需要;

3. 预训练和推理能力相辅相成,虽然模型运行成本高于传统模型,但远低于人类成本,且在专业领域超越人类后价值巨大。

https://mp.weixin.qq.com/s/ZcV85-WDKFHoD2RRM-3w1Q

👇订阅下方合集,获取每日推送







请到「今天看啥」查看全文