生成式AI
一、 马斯克20万块GPU炼出Grok-3,号称世界最聪明大模型
1. Grok-3基于20万块GPU训练,在LMSYS Arena排行榜Elo评分超1400,击败DeepSeek-R1和o3-mini;
2. 新模型具备强大数学和推理能力,在AIME 2024数学测试等多项基准测试上刷新SOTA,推出Think和Big Brain等多种思维模式;
3. 首个智能体DeepSearch能进行互联网深度搜索,Premium Plus用户可立即使用,一周内所有功能上线,几个月内全面开源。
https://mp.weixin.qq.com/s/YDjin48P-qsxPv48mpCbtg
二、 OpenAI新开源计划?端侧模型or小模型,奥特曼在线征集
1. 奥特曼在x平台上提出可能新增开源计划,将在端侧模型和O3-mini级小模型中二选一,目前通过在线投票征集意见;
2. OpenAI上次开源大语言模型是2019年的GPT-2,此后GPT-3、o3-mini等均未开源,引发业内质疑和批评;
3. 奥特曼近期多次承认"不开源是错误的",但此次开源计划暂不涉及即将发布的GPT-4.5和GPT-5模型。
https://mp.weixin.qq.com/s/Mh_iHCQGtqpNS_vtDzR7iA
三、 微软开放3.1T token高质量数据!含通用/代码/数学/问答
1. 微软开源RedStone数据处理框架,从Common Crawl中提取3.1T token高质量数据,包含Web、Code、Math和QA四大领域数据集;
2. RedStone创新地定义高质量数据为"包含知识且文本流畅",通过多层过滤系统处理数据,实现网页内容的精细化筛选和抽取;
3. 实验表明RedStone各领域数据集均超越现有开源数据集,在MMLU等任务上显著提升模型性能,且支持自定义过滤器扩展到其他领域。
https://mp.weixin.qq.com/s/4NVBVRTuk8azQbD5SDi92Q
四、 首个短剧创作大模型开源,个人可用,单卡80秒出大片
1. 昆仑万维开源SkyReels-V1和A1两个模型,支持33种表情和400+种动作组合,单卡80秒可生成544p分辨率视频,性能超越现有开源模型;
2. SkyReels-V1采用千万级好莱坞数据训练,实现影视级表情识别、人物空间感知、行为意图和场景理解,可支持文生视频和图生视频;
3. SkyReels-A1专注表情动作可控,能实现更大幅度的面部和肢体表演控制,支持任意人体比例的视频生成,效果优于Runway的Act-One。
https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw
五、 国产开源接力,阶跃星辰一次开源两款国产多模态大模型
1. 阶跃星辰开源Step-Video-T2V和Step-Audio两款多模态大模型,前者300亿参数,可生成204帧540P高质量视频,位列开源视频模型第一;
2. Step-Video-T2V具备强大运镜、人物运动生成和形象表现能力,采用创新的Video-VAE架构,实现16×16空间压缩比,效率提升64倍;
3. Step-Audio支持多种情绪、方言和歌声生成,在五大公开测试集上性能领先,能完成语音识别、语义理解、对话等一体化功能。
https://mp.weixin.qq.com/s/Rz4CYNi8oSp_kRqNfWtSfA
六、 秘塔AI的浅度研究「Shallow Research」上线,先想后搜
1. 秘塔AI搜索推出新研究模式,采用DeepSeek R1和自研小模型协同架构,2-3分钟可分析数百个网页实现浅度研究;
2. 该模式让大模型负责框架思考和步骤拆解,小模型负责信息搜索和资料整合,平衡深度推理和响应速度;
3. 秘塔"浅度研究"功能对标Google、OpenAI和Perplexity的Deep Research,未来将增加代码执行和数值分析等能力。
https://mp.weixin.qq.com/s/L9lUlYJglyp9iMsr9DcJAw
七、 深圳上线70名基于DS的AI员工,满足240个政务场景
1. 深圳福田区上线基于DeepSeek开发的政务大模型2.0版,推出70名"AI数智员工",覆盖公文处理、民生服务等240个政务场景;
2. 新模型采用DeepSeek R1底座和混合专家架构,解决了算力消耗、响应稳定性等问题,支持本地化细分领域训练;
3. 实际应用中,个性化定制从5天缩短至分钟级,公文格式修正准确率超95%,招商分析效率提升30%,显著提升政务服务效率。
https://mp.weixin.qq.com/s/cRalKSPJxLYgzsApONMTUw
八、 AI看照片,几秒就能地理定位!因太危险被公司主动关闭
1. 初创AI公司graylark开发GeoSpy技术,能通过一张照片在几秒内定位具体拍摄地点,并生成3D场景,Superbolt高端版本可精确定位到数米范围;
2. 该技术基于4600万张街景图像训练,通过分析建筑风格、植被等视觉特征实现定位,具有强大的抗干扰性和可扩展性;
3. 因存在隐私安全风险,GeoSpy已停止面向公众开放,转为仅向政府和执法部门提供服务,用于情报调查和案件破获。
https://mp.weixin.qq.com/s/e5qXz4e6IovB-opRG9EpmA