专栏名称: APPSO

让智能手机更好用的秘密。

传 Sora 两周内推出/OpenAI 元老、北大校友翁荔宣布离职/Google 版「贾维斯」泄露 | Hunt Good 周报

APPSO · 公众号 · app · 2024-11-10 11:58

正文

欢迎收看最新一期的 Hunt Good 周报！

在本期内容你会看到：

9 条新鲜资讯
4 个有用工具
1 个有趣案例
3 个鲜明观点

Hunt for News｜先进头条

💥 OpenAI 再发 Sora 新短片，传 Sora 两周内推出

近日，伦敦艺术家 Jon Uriarte 与 OpenAI 联合创作了一支短片。

Jon Uriarte 表示，Sora 的最强之处在于，能够找到「精确视觉」与意外惊喜之间的平衡。

在这个视频中，我首先处理的是人们坐在塑料椅子上飞行的场景，这是我作品中的一个常见主题。Sora创造的视觉效果让我惊叹——那种照片级的质量，纹理细节。它生成的图像感觉非常自然，同时具有惊人的精确度。

谈及 Sora 对创作过程的影响， Jon Uriarte 称：

我没想到构思一个想法的过程会如此顺畅。我对某些「画面」有清晰的构想，但在创作的过程中，新的想法也自然而然地浮现出来。对我来说，这就像写作或做白日梦一样。

另外，据 Runway 联合创始人 Cristóbal Valenzuela 在 X 平台引用传言称，OpenAI 计划在大约两周内发布 Sora。

🔗 https://www.youtube.com/watch?v=\_iETa2KDRuw

🤔 传 OpenAI 下一代模型性能提升不及预期

外媒 The Information 再次报道了有关 OpenAI 下一代前沿模型 Orion 的消息。

报道称，尽管 OpenAI 仅完成了 Orion 训练过程的 20%，OpenAI CEO Sam Altman 表示 Orion 在智能和执行任务、回答问题的能力方面已经与 GPT-4 不相上下。

不过，据一些实际使用或测试过 Orion 的 OpenAI 员工评估，与 GPT-3 和 GPT-4 之间的巨大进步相比，Orion 提升幅度较小。

据悉，OpenAI 内部研究人员认为 Orion 在处理特定任务方面并不一定比其前代模型更出色。

例如，Orion 在语言任务上表现更佳，但在编程等任务上可能并不优于之前的模型，且运行成本更高。

据透露，OpenAI 目前仍在进行 Orion 发布前的安全测试过程，预计明年初发布 Orion 时，也不再遵循以往「GPT」的命名方式。

报道指出，GPT 发展放缓的一个原因是高质量文本和其他可用数据的减少。截至发稿前，OpenAI 尚未就上述报道作出回应。

🔗 https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows

🤖 Meta 前 Orion 硬件负责人加入 OpenAI ：负责机器人和消费硬件业务

Meta AR 眼镜项目前负责人 Caitlin Kalinowski 宣布加入 OpenAI 领导机器人和消费硬件。

她在 X 平台表示：

在新职位上，我将重点推进 OpenAI 在机器人技术领域的工作，并加强与其他组织的合作，旨在将人工智能技术应用于现实世界，从而让人类享受到 AI 带来的益处。

Kalinowski 曾在苹果担任技术主管，负责设计 MacBook。后来加入了 Meta，在 Reality Labs 担任增强现实硬件团队的负责人超过 11 年。

在此期间，她领导了多款 VR 硬件产品的研发，包括 Meta Quest 2 等。自 2022 年 3 月起，她还领导了 Meta 首款 AR 眼镜 Orion 的研发。

加入 OpenAI 后，Kalinowski 可能会与老上司、前苹果首席设计官 Jony Ive 合作开发新的 AI 硬件设备。

🔗 https://techcrunch.com/2024/11/04/metas-former-hardware-lead-for-orion-is-joining-openai/

🥳 机器人步态卷起来了

人形机器人的步态成了下一个内卷的方向？

继众擎机器人发布其首款全尺寸通用人形机器人 SE01，宣称全球首次实现自然步态行走后，宇树科技也发布了旗下人形机器人的最新步态进展。

视频中，宇树科技宣称「2 天学会，仿人自然行走」的人形机器人步态相当自然，还有机器狗挑战高难度动作，如直立行走，抗击打等。目前，该视频在 X 平台引来百万网友的围观。

🔗 https://x.com/UnitreeRobotics/status/1852246146049282531

👀 OpenAI 安全副总裁 Lilian Weng 官宣离职

OpenAI 的首席安全研究员 Lilian Weng（翁荔）最近宣布将于 11 月 15 日离开 OpenAI。

她在 OpenAI 工作了 7 年，曾担任安全系统团队负责人和研究与安全副总裁等职位，曾参与 GPT-4 项目的预训练、强化学习 & 对齐等方面的工作。

翁荔本科毕业于北京大学信息系统与计算机科学专业，曾前往香港大学进行短期交流，之后赴美获得博士学位。

最近几个月离开 OpenAI 的其他高管包括 CTO Mira Murati、首席研究官 Bob McGrew、研究副总裁 Barret Zoph、研究员 Andrej Karpathy 和联合创始人 John Schulman 等。

这些离职员工部分加入了竞争对手 Anthropic，部分选择自己创业，而翁荔目前尚未说明下一步去向。

🔗 https://techcrunch.com/2024/11/08/openai-loses-another-lead-safety-researcher-lilian-weng/

🤖 Google 版「贾维斯」泄露

最近，据 The Information 报道，Google 意外泄露了人工智能产品 Jarvis 的内部预览版，其原型是计算机使用代理，可在 Chrome 浏览器扩展商店下载。

Google 将这款产品描述为「与你一起上网的有用伴侣」，可完成购买产品、预订航班等任务。

不过，当时记者测试时因访问权限问题，可下载原型但却无法正常运行。

此前，Google 原计划 12 月公开展示 Jarvis 并推出新模型。Anthropic 上个月已发布针对开发人员的类似产品，OpenAI 也在开发类似产品。

而包括 OpenAI 最近似乎也「意外」泄露了对 o1 的访问权限，莫不是提前泄露正在成为厂商们一种预热手段。

🔗 https://www.theinformation.com/briefings/google-accidentally-reveals-jarvis-ai-that-takes-over-computers

🌐 OpenAI 收购域名 Chat.com

OpenAI 最近收购了价值超过 1500 万美元的 URL「chat.com」。

该 URL 此前由 HubSpot 联合创始人 Dharmesh Shah 拥有，他在 2023 年称为此支付了「8 位数的金额」，并认为基于聊天的软件是下一件大事。

几个月后，Shah 出售了该域名，虽未明确买家，但在 Altman 发推后，现已证实是 OpenAI 购买，但对于价格却含糊其辞。

Shah 暗示未从域名出售中获利，可能收取了 OpenAI 股票作为报酬。

🔗 https://fortune.com/2024/11/07/sam-altman-15-million-dollar-url-chat-com/

🤩 微软推出 Magentic-One：多 AI 智能体协同完成复杂任务

微软最近推出了一款名为 Magentic-One 的多 AI 智能体协同系统，旨在通过多个专用 AI 智能体的合作，高效处理复杂的工作流程。

Magentic-One 的核心是一个名为协调器代理（Orchestrator）的智能体，它不仅负责任务调度，还负责设计整个任务的蓝图。

协调器通过构建「任务账本」（task ledger）来启动操作，并在项目进展中维护「进度账本」（progress ledger），确保每个阶段的任务都能按时完成。

Magentic-One 通过协调器指挥四个主要代理，各自承担不同的角色：

WebSurfer 智能体：负责在网络上进行搜索、点击链接和与在线元素互动，能够跨多个网站收集信息并提供摘要。

FileSurfer 智能体：探索本地目录、分析文件内容，支持文档管理和数据检索。

编码智能体：具备编写和评估代码的能力，能够撰写新脚本、调试现有代码，并与其他代理协作。

计算机终端智能体：直接执行由编码代理生成的代码，适用于需要即时测试或部署的项目。

Magentic-One 在多个基准测试中表现出色，该系统现已开源，供研究人员和开发人员使用。

🔗 https://www.microsoft.com/en-us/research/publication/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/

🎶 AI 帮助「披头士」发行最后一首歌，即将角逐格莱美奖

披头士乐队在解散近 50 年后，其歌曲「Now and Then」于 2023 年 11 月发行。

这首歌最初是约翰・列侬在 1970 年代后期录制的小样，2021 年电影制作人彼得・杰克逊和他的声音团队用机器学习技术分离了器乐和人声，让保罗・麦卡特尼和林戈・斯塔尔最终完成了这首歌。

「Now and Then」获得了两项格莱美提名，分别是年度唱片和最佳摇滚表演，将与 Beyoncé、Charlie XCX、Billie Eilish、Taylor Swift 等歌手竞争。

尽管这首歌使用了机器学习完成，但仍在格莱美奖围绕 AI 的规则范围内。该规则规定只有人类创作者有资格被提名或获奖，但包含 AI 元素的作品在适用类别中同样有资格。

当然，最终结果如何，还得到明年 2 月份才能见分晓。

🔗 https://www.theverge.com/2024/11/8/24291691/the-beatles-ai-now-and-then-song-grammy-nomination

Hunt for Tools｜先进工具

👏 腾讯混元宣布 MoE 大语言模型和 3D 模型开源

昨日，腾讯混元宣布最新的 MoE 模型「混元Large」以及混元 3D 生成大模型「Hunyuan3D-1.0」正式开源，支持企业及开发者精调、部署等不同场景的使用需求，可在 HuggingFace、Github 等技术社区直接下载，免费可商用。

据介绍，腾讯混元 Large 是目前开元领域参数规模最大、效果最好的 MoE 模型，而腾讯混元 3D 生成大模型则是业界首个同时支持文字、图像生成 3D 的开源大模型。

腾讯混元 Large 模型总参数量 389B，激活参数量 52B ，上下文长度高达 256 K，公开测评结果显示，腾讯混元 Large 在 CMMLU、MMLU、CEval、MATH 等多学科综合评测集以及中英文 NLP 任务、代码和数学等 9 大维度全面领先，超过 Llama3.1、Mixtral 等一流的开源大模型。

腾讯混元 3D 生成大模型首批开源模型包含轻量版和标准版，轻量版仅需 10s 即可生成高质量 3D 资产，目前已在技术社区公开发布，包含模型权重、推理代码、模型算法等完整模型，可供开发者、研究者等各类用户免费使用。

🔗 https://llm.hunyuan.tencent.com/

💥 Google Gemini 2.0 或 12 月发布，响应速度更快

外媒 testingcatalog 近日报道了有关 Gemini 2.0 的传闻。

在隐藏的最新更新中出现了 Gemini Pro 2.0 的选项，被标记为「实验性」且目前无法访问。

泄露的 UI 界面暗示 Gemini 2.0 可能像 1.5 Pro 一样仅高级用户可用。

早期测试显示其响应速度很快，但似乎还未完全成熟，未能通过「草莓测试」。

此前有消息称，Google 计划在 12 月发布 Gemini 2.0。

🔗 https://www.testingcatalog.com/google-gearing-up-for-gemini-2-0-launch-with-new-ai-model-in-testing/

🫥 字节推出单图视频驱动模型 X-Portrait 2，一键「迁移」表情神态

近日，字节跳动和清华大学在 GitHub 上联合推出了一款最新的人像动画技术「X-Portrait 2」。

具体来讲，X-Portrait 2 是一款「生成式人像转移模型」，其使用方法非常直观和简单：

用户只需要提供一张静态肖像图和一段含有表情变化的「表演」视频，这个技术就能一键将表情「迁移」至肖像上面，从而使前者也「动起来」。

此外，X-Portrait 2 还创新地引入了生成式扩散模型，这种模型能够处理不同视角下的表情变化，生成更加流畅和真实的动画效果，解决了传统方法在视角变化时可能出现的表情不协调问题。

🔗 https://byteaigc.github.io/X-Portrait2/

🤯 告别默片，清影视频模型全面升级

11 月 8 日，智谱官方宣布清影视频模型于近期迎来全面升级。

具体升级点如下：

模型能力全面提升：在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强。

4K 超高清分辨率：支持生成 10s、4K、60 帧超高清视频，视觉体验拉到极致，动态画面更加流畅。

可变比例：支持任意比例的图像生成视频，超宽画幅也能轻松 Hold 住，从而适应不同的播放需求。

多通道生成能力：同一指令/图片可以一次性生成 4 个视频。

带声效的 AI 视频：新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。

我们也第一时间上手实测，欢迎回看 APPSO 此前文章：

国产 AI 视频神器大更新，支持 4K、60 帧，视频生成有声时代来了 | 附体验链接

附上体验地址：https://chatglm.cn/video

🔗 https://mp.weixin.qq.com/s/5-6RIkFHfgstWydTp4jRoQ

Hunt for Fun｜先行

📀 打造创意视频，试试 DALL·E 3+海螺 AI

X 博主 @umesh_ai 使用 DALL·E 3 和海螺 AI 制作了两段视频，你更喜欢哪一版？

第一版

第二版

制作方法非常简单，先用 DALL·E 3 生成原图片，然后使用海螺 AI 的图生视频功能生成相关视频，提示词已经准备好了，欢迎食用：

Prompt: A [SUBJECT] is crouching on the beach, lifting a wave like a carpet to reveal a [OBJECT] lying underneath deep inside. The ocean is calm with a clear blue sky in the background. The scene creates a clever illusion, in a surreal manner, with the wave being lifted as if it is a tangible object

🔗 https://x.com/umesh\_ai/status/1854912499294089539

Hunt for Insight｜先知

🤯 Sam Altman 预测：AGI 可在 5 年内实现

前不久，OpenAI CEO Sam Altman 罕见发表长文称，人类距离超级智能的到来可能只有几千天。

最近，Altman 在接受采访时，再次提到了这个话题：

我认为在未来 5 年内，我们将见证技术本身以难以置信的速度进步。

人们可能会感叹，通用人工智能（AGI）的时代已经来临又迅速过去。进步的速度非常快，我们在人工智能研究以及科学的其他领域都取得了大量新发现。

此外，他认为 AGI 的影响将是渐进和细致的，悄无声息地融入我们的日常生活，而非预期中的激进，用他的话来说就是「出乎意料地小」。

不过，Altman 也承认，从长远来看，随着人工智能的快速进步，其影响将变得更加明显。

作为补充，在上周的 Reddit AMA 活动中，当被问及 AGI 能够用已知的硬件实现时，他坚信用现有的硬件就可以实现。

🔗 https://wccftech.com/openai-ceo-sam-altman-predicts-agi-could-appear-within-five-years/

🤔 翁荔：我们每个人都应该成为 AI 的大家长

前 OpenAI 研究副总裁（安全）翁荔最近在 2024 Bilibili 超级科学晚上发表了主题为《AI 安全与「培养」之道》的演讲。

翁荔指出，一个既安全又智能的 AI 能为生活带来诸多益处，但如自动驾驶技术一样，一旦出错后果不堪设想。随着 AI 智能化和自主化，确保其行为符合人类价值观成为核心议题。

在她看来，提供多样、全面、正确的数据，依赖多人标注的数据以提高准确性，还能够借此减少 AI 的偏见。

她表示，强化学习通过奖惩机制训练 AI，类似训练小狗。基于人类反馈的强化学习（RLHF）技术可把高质量标注的数据喂给 AI，调节 AI 的学习过程。

我们每个人都应该成为 AI 的大家长，不仅监督和反馈 AI 的表现，还参与塑造一个安全可信的 AI 世界。

🔗 https://www.bilibili.com/video/BV19dSHYUEAo/?spm\_id\_from=333.337.search-card.all.click

👀 黄仁勋：SaaS 平台将因专业智能体繁荣发展

本周，英伟达市值超越苹果，重回世界第一。

期间，英伟达创始人黄仁勋也再次接受采访，谈论了关于 AI 的多个重要话题，包括对未来十年的展望，超越摩尔定律的方法等。

黄仁勋表示，未来十年，英伟达希望每年在整体规模上将性能提升两到三倍，进入「超级摩尔定律」曲线。

在他看来，摩尔定律的两个基本技术支柱已遇瓶颈，新的扩展方式包括软硬件协同设计和全栈优化（数据中心级创新），通过协同设计可改变算法和系统架构以适应不同精度，而 NVLink 是实现低延迟和高吞吐量这两个矛盾要求的关键。

谈及 xAI 迅速建起超级集群，他觉得这主要归功于马斯克的意志力和执行力。未来达到更大规模的超级集群则要面临资本、能源、供应等困难。

黄仁勋认为我们接近人工通用智能和人工通用机器人。未来将拥有生物智能和人工智能员工，SaaS 平台将因专业智能体繁荣发展。

🔗 https://www.youtube.com/watch?v=hw7EnjC68Fw

彩蛋时间

🐻‍❄️《冰熊》

作者：@hunt385971

工具：Midjourney V6.1

Prompt：a polar bear made of ice with an oil rig and fire in the background, running on four legs, with smoke coming out from its mouth, carrying iceberg on its back, Offshore oil fields. It is set against an empty white background, creating a surreal effect. The composition features symmetrical elements and is captured through photography. This artwork presents a vivid depiction of nature's destruction, conveying both fear and sadness in the style of surrealism.
链接：https://www.midjourney.com/jobs/cc727c9c-4681-4188-8692-a52139e4aac7?index=0