专栏名称: AI范儿

AI领域四大媒体之一。智能未来，始于Prompt！

【一周 AI 热点】AI 操控电脑和手机、纯血鸿蒙发布、多款文生图重磅更新、智谱及科大讯飞产品重大升级

AI范儿 · 公众号 · · 2024-10-28 13:48

正文

国际要闻

OpenAI驳斥 GPT-5 发布传闻，重组安全团队并加速AI媒体生成

OpenAI首席执行官Sam Altman在社交媒体上驳斥了有关公司计划在年底前发布新AI模型Orion的报道，称之为“假新闻”。尽管未直接否认任何具体内容，但Altman的回应显然是为了澄清当前的传闻。与此同时，OpenAI解散了负责高级人工智能系统安全的AGI准备团队，并将成员重新分配到其他部门，这一决定引发了对AI安全监管不足的担忧。高级顾问Miles Brundage的离职进一步加剧了这些担忧，他强调发展安全AI系统需要多方合作。

此外，OpenAI的研究人员开发了一种新型连续时间一致性模型（sCM），使AI生成图像、视频和音频的速度提高了50倍，同时保持高质量样本，为实时AI应用提供了新的可能性。在管理层方面，OpenAI迎来了首位首席经济学家Aaron Chatterji，他将研究AI对经济增长和就业的影响，并任命了新的首席合规官，以应对法律和道德挑战。

Anthropic新AI颠覆企业自动化：像人类一样使用计算机

人工智能研究公司Anthropic推出了能够像人类一样操作计算机的AI模型Claude 3.5，能浏览屏幕、点击按钮和输入文本，可能极大改变企业自动化工作流程，提高多行业效率。

苹果Apple Intelligence正式上线，库克今年再次访华

苹果公司宣布其全新AI功能Apple Intelligence将于10月28日随iOS 18.1版本正式上线。该功能包括文本校对、照片清理、通知摘要及Siri增强等多项先进功能。此外，苹果计划在后续版本中将Siri与ChatGPT整合，提升用户体验。尽管市场对Apple Intelligence的前景持乐观态度，但苹果内部认为其AI技术仍落后于竞争对手。此次上线将为iPhone 16和15 Pro系列用户带来全新体验。

10月25日，商务部部长王文涛与苹果公司首席执行官库克举行会谈，双方就苹果在华业务及中美经贸关系进行了深入交流。王文涛表示欢迎苹果继续深耕中国市场，并承诺中国将进一步优化营商环境，为外资企业提供优质服务。

谷歌宣布12月发布Gemini 2.0及多款AI创新工具

谷歌计划在12月发布下一代AI模型Gemini 2.0，以与OpenAI的GPT-4升级版本竞争。Gemini 2.0将基于2月发布的1.5版本，并扩大上下文窗口。同时，谷歌还在研发名为"Jarvis"的AI系统，能够独立控制Chrome浏览器，自动完成搜索、购物和预订等任务。Jarvis通过定期截屏分析执行操作，尽管面临速度和用户信任度等挑战，谷歌计划与Gemini 2.0一同在12月发布。

此外，谷歌DeepMind推出了实时AI音乐制作工具MusicFX DJ，允许用户通过输入不同的音乐元素提示来创作独特的曲目，支持实时播放和多层次音乐元素混合。谷歌DeepMind还开源了SynthID Text工具，该工具能够辨别AI生成的文本，通过微调Token概率分数嵌入水印并扫描现有水印以识别AI内容。SynthID已整合至Google Responsible Generative AI Toolkit开源项目中，并发表在《Nature》期刊上。

Meta在手机AI竞赛中领先谷歌和苹果

Meta开发了适用于智能手机和平板电脑的 Llama 人工智能模型的小型版本，这为数据中心以外的 AI 应用打开了新的大门。Meta 最新发布了其 Llama 3.2 1B 和 3B 模型的压缩版，运行速度提升至原来的四倍，同时内存消耗仅为之前版本的一半。据 Meta 测试，这些小型模型的表现几乎与大型模型相当。

Meta还与芯片制造商合作，确保其AI能在各种价位的手机上高效运行，并通过开源模型，推动移动AI应用的创新。

Midjourney发布AI图像编辑器，革新图像创作方式

Midjourney推出了一款AI图像编辑器，允许用户上传图像并进行编辑，如改变风格、纹理或增添细节。编辑器目前仅对特定用户开放，包括已生成超过10,000张图片的用户、年费会员以及订阅一年以上的用户。新功能包括从URL编辑和上传图片编辑，支持多种编辑选项，如擦除、移动/调整大小和恢复。此外，还有“Retexture”功能，可改变图片内容同时保留原始结构。社区反馈积极，Midjourney还计划推出3D或视频编辑器。

Stability AI 发布 Stable Diffusion 3.5

Stability AI 推出 Stable Diffusion 3.5，旨在提高文本到图像生成AI技术。新版本包括多种模型变体，以满足不同需求，并通过社区许可证免费提供给年收入低于100万美元的实体。此外，Stability AI 利用新技术提升模型质量和性能，如 Query-Key Normalization，增强了模型训练和微调的稳定性。

AI初创公司Ideogram发布无限画布Canvas，革新图像编辑体验

加拿大AI图像初创公司Ideogram推出Canvas，一个交互式无限画布，用户可以展开、比较、调整大小和重新排序新生成的图像，甚至将多个AI生成的图像合成为一张新图。此外，Ideogram还推出了Magic Fill和Extend功能，进一步完善图像编辑工具。Canvas支持所有使用层级，付费计划提供更多功能和较少限制。

游戏规则改变者：Runway发布AI面部动作捕捉功能Act-One

Runway公司推出了Act-One，一项革命性的AI面部表情动作捕捉功能，它允许用户通过任何摄像机录制视频，并将捕捉到的面部表情以高精度转换为AI生成的角色。这项工具简化了传统复杂的面部动画创作流程，为动画师、游戏开发者和电影制作人提供了更广泛的视频叙事可能性，同时确保了安全和内容审核。

开源AI视频生成模型Mochi 1挑战行业巨头

Genmo公司推出Mochi 1，一个开源的视频AI模型，能够根据文本提示生成高质量视频，性能可与Runway、Kling等行业领先者媲美。Mochi 1遵循Apache 2.0许可证，提供免费下载，但需要至少4个Nvidia H100 GPU运行。此外，Genmo还提供托管服务供用户体验。公司已完成2840万美元A轮融资，旨在推动视频生成技术的民主化和创新。

微软、X和OpenAI争夺收购AI搜索初创公司Perplexity

据The Information报道，人工智能搜索引擎初创公司Perplexity正以至少80亿美元估值进行融资，成为X、Notion、OpenAI和微软的热门收购目标，这些公司都提出了1.5亿至2亿美元的收购要约。

Nvidia发布Sana AI模型：家用PC也能秒速生成4K图像

Nvidia最近推出了一款名为Sana的AI模型，它能够在普通消费级硬件上快速生成高质量的4K图像。这一技术突破得益于其深度压缩自动编码器，能将图像数据压缩至原始大小的1/32，同时保持细节。Sana结合了Gemma 2 LLM以理解提示，生成图像速度快且效率高。尽管模型尚未公开发布，但其在演示网站上的表现已经相当出色，未来有望在AI艺术领域占据一席之地。

NVIDIA计算机发现史上最大的素数，刷新记录

一名前NVIDIA员工通过互联网梅森素数大搜索（GIMPS）项目，利用全球志愿者的GPU资源，发现了一个新的梅森素数2^136,279,841 - 1，这个数拥有超过4100万位，比之前的记录多出1600多万位，成为目前已知最大的素数。这一发现不仅证明了云计算能力，还可能对未来的密码学算法产生影响。

角色AI因青少年自杀事件受限，用户不满

Character AI在一名青少年用户自杀后，对其平台上的AI聊天机器人实施了新的安全和自动审核政策，以减少对未成年人的风险。然而，这些措施引发了用户的强烈不满，他们认为这些限制过于严格，损害了聊天机器人的个性化和互动性。公司面临在保护用户免受伤害与维护AI技术自由表达之间的平衡挑战。

国内要闻

华为「纯血鸿蒙」系统正式发布！引领国产OS新纪元

华为正式发布首个国产移动操作系统「纯血鸿蒙」，即HarmonyOS 5，带来系统级AI和革命性升级。新系统在UI设计、流畅度、设备互联、光影特效等方面进行了全面提升，同时推出了华为nova 13系列和WATCH Ultimate手表等新产品。鸿蒙系统的发布，标志着国产操作系统在技术和生态上的重大突破，为用户带来更智能、更流畅的体验。

荣耀MagicOS 9.0升级支持30亿参数大模型

荣耀MagicOS 9.0正式发布，支持30亿参数端侧大语言模型，相比上一代70亿参数模型，加载速度提升77%，出词速度提升500%，功耗下降80%，内存占用减少1.6GB，存储占用减少1.8GB，全面提升系统性能和效率。

智谱AI发布AutoGLM，贾维斯式AI助手成现实

智谱AI发布了AutoGLM，一款能够自主操作手机应用的AI产品，标志着向真正智能助手贾维斯的转变。AutoGLM能根据用户指令完成复杂任务，如订酒店、社交互动等，展现了AI从对话工具向实际行动助手的进化。尽管目前支持的应用有限，但其潜力预示着未来人机交互的新纪元。

同日，智谱清言近日宣布上线GLM-4-Voice情感语音模型，该模型能够理解并表达情感，实现情感共鸣，支持多语言及方言识别，并具备随时打断和调节语速的功能。此外，GLM-4-Voice将支持视频通话，且已开源，可在智谱清言App上体验。

另外本周中国三星与智谱华章宣布在AI手机领域展开深度合作，旨在结合三星的硬件优势和智谱的GLM大模型，打造个性化的AI手机和智能服务。双方将从生产力、创造力、娱乐等方面为用户带来全新的AI体验。

微软亚研院前首席研究经理谭旭加盟月之暗面，研发类GPT-4o语音模型

前微软亚洲研究院首席研究经理谭旭于8月加入月之暗面，负责研发端到端语音模型。月之暗面的多模态研究始于去年10月，目前团队规模约10人。谭旭在微软期间专注于生成式AI和多媒体内容生成，其成果广泛应用于Azure和Bing。他的目标是帮助月之暗面打造类似GPT-4o的语音体验，提升语音交互的自然度和响应速度。

科大讯飞星火4.0 Turbo发布：七大能力超越GPT-4 Turbo

科大讯飞在2024全球开发者节上发布了讯飞星火4.0 Turbo，宣称其在数学和代码能力上超越了GPT-4 Turbo。该模型在算法上实现了超长思维链、树搜索等，并预计年底实现高难度数学能力。同时推出了星火代码7B版本，旨在提供业界最优的代码生成和补全效果。

科大讯飞同时宣布，其语音识别技术已覆盖全国地级市方言，支持202种方言。同时，科大讯飞发布了星火多语言大模型，支持包括英语、俄语、日语在内的9种外语，展示了多种使用场景，并已对外开放给开发者和行业伙伴使用。

科大讯飞还宣布，其汽车端侧星火大模型将于四季度在奇瑞、广汽、长城等品牌车型中搭载上市。该模型基于端侧硬件，即使在无网络环境下也能使用，支持国内外主流芯片平台，端侧首次响应时间仅需40ms，端云融合交互时间低至1.3秒。

MiniMax将发布对标GPT-4o的实时语音对话API产品

AI大模型领域的独角兽MiniMax计划于11月推出首款端到端实时语音对话API服务，旨在提供更低延迟、更自然的语音交互体验。该产品将与OpenAI的GPT-4o竞争，后者以快速响应和多模态处理能力著称。预计到2026年，对话式AI市场规模将达到108亿元，带动超过385亿元的规模。

智元机器人灵犀X1全球开源推动人形机器人技术发展

【一周 AI 热点】AI 操控电脑和手机、纯血鸿蒙发布、多款文生图重磅更新、智谱及科大讯飞产品重大升级

正文

请到「今天看啥」查看全文