生成式AI
一、 谷歌Gemma 3突然上线!单GPU最强多模态,手机可跑
1. 谷歌发布Gemma 3系列开源模型,推出1B、4B、12B、27B四种参数版本,仅需单GPU即可运行;
2. Gemma 3-27B在LMArena竞技场获1339 ELO分,击败多个大型模型,成为仅次于DeepSeek R1的最优开源模型;
3. 新模型支持多模态功能,可处理140+语言,具备128k上下文窗口,在数学性能方面较上代提升33-45分。
https://mp.weixin.qq.com/s/buqtV1nEDhpvdvEFhRcoIA
二、 OpenAI发布AI Agent系列工具与API,但建议用户“监工”
1. OpenAI发布Agent开发套件,包含Responses API、内置工具与智能体SDK,使AI能够自主操作计算机执行任务;
2. Responses API整合对话式接口与助手API工具调度能力,支持网络搜索、文件搜索和计算机使用功能,将逐步取代Assistants API;
3. 计算机使用工具可捕获模型生成的鼠标与键盘操作轨迹,但OpenAI建议用户在涉及系统操作时保持人工监督。
https://mp.weixin.qq.com/s/utzDzh_rTe3G8-GUgwRnTw
三、 10秒生成4分钟音乐,8GB显存就能跑!Hugging Face趋势榜一
1. DiffRhythm是一款全新AI音乐生成模型,能在10秒内生成长达4分45秒的完整歌曲,包含人声和伴奏;
2. 该模型采用简单高效的全diffusion架构,只需歌词和风格提示即可创作,无需复杂的多阶段架构;
3. DiffRhythm支持本地部署,最低只需8GB显存即可运行,已登上Hugging Face趋势榜首位,模型和推理代码已全部开源。
https://mp.weixin.qq.com/s/u5Y68MvzHPHBKEQKoHmv_A
四、 Agent应用潮?国产首款创作型Agent,轻松创作互动小说
1. 国产首款创作型Agent工具"谜境Agent"正式上线,专注于互动小说创作,将传统4-6个月的创作流程压缩至5-10分钟;
2. 该工具搭载DeepSeek R1模型,具备快速生成剧本大纲、自动生成角色图及场景图、自动配音配乐等功能;
3. 谜境Agent支持边玩边制作模式,可自动构建画面交互逻辑,支持选项/点击/数值等多种互动玩法,用户可随时一键修改内容。
https://mp.weixin.qq.com/s/lH2uqs6V1n_eXlc35nDUEg
五、 百万年轻人"抽象"创作,AI二次元社区「狸谱」凭啥火出圈
1. AI二次元社区「狸谱」迅速走红,月活突破100万,应用商店"图形与设计"榜单一度冲至第2名,站内已有7000万张图片;
2. 该平台主打"抽象"创作,推出炖图、动态Live、灵魂提取器、挂件等功能,让手残党也能轻松创作二次元内容;
3. 狸谱背靠"阶跃星辰"技术支持,精准切中二次元圈创作需求,成功在线上线下同时破圈,成为年轻人释放"厨力"的新平台。
https://mp.weixin.qq.com/s/NMETpkXldSneFV4UO1v9Kg