专栏名称: APPSO

让智能手机更好用的秘密。

前苹果首席设计官 Jony Ive 确认与 OpenAI 开发 AI 硬件，iPhone 设计负责人加盟|Hunt Good周报

APPSO · 公众号 · app · 2024-09-22 11:58

正文

欢迎收看最新一期的 Hunt Good 周报！

在本期内容你会看到：

7 条新鲜资讯
4 个有用工具
1 个有趣案例
4 个鲜明观点

Hunt for News｜先进头条

🍎 前苹果首席设计官 Jony Ive 确认与 OpenAI 开发硬件

尽管外界多有传闻苹果前灵魂设计师 Jony Ive 将携手 OpenAI CEO Sam Altman 开发一款面向个人的 AI 硬件，但一直没有实锤。

直到昨日，Jony Ive 本人在《纽约时报》的采访中证实了这一点。

报道称，Airbnb CEO Brian Chesky 曾是 Jony Ive 旗下公司 LoveFrom 的早期客户，在前者的安排下，去年 Altman 和 Chesky 还多次共进晚餐。

两人闲聊时也谈到，生成式 AI 的到来使得创建新的计算设备成为可能，可以比传统软件为用户做更多的事情，能够总结、优先处理信息，识别和命名植物等物体，并甚至最终处理预订旅行等复杂请求。

几顿约饭过后，两人随后同意由 LoveFrom 主导设计，并开始私下筹集资金。

Jony Ive 和鲍威尔・乔布斯（乔布斯遗孀）的公司艾默生集团共同资助该项目，并可能在今年年底前筹集到高达 10 亿美元的启动资金。

截至今年 2 月份， LoveFrom 雇佣了大约 10 名员工，包括曾负责 iPhone 产品开发的 Tang Tan 和前苹果公司工业设计副总裁 Evans Hankey。

报道称，LoveFrom 的初衷是使用 AI 来创造一种比 iPhone 对社会破坏性更小的计算体验。

有传言称该设备的概念是基于生成式 AI 的能力，可以处理比传统软件更复杂的请求，并且可能受到触摸屏技术和最初的 iPhone 的启发。

不过，LoveFrom 的联合创始人马克・纽森表示，这款产品的具体细节和上市时间仍在研究中。

🔗 https://www.nytimes.com/2024/09/21/technology/jony-ive-apple-lovefrom.html

🙋‍♂️ OpenAI 招聘「多智能体」研究团队，朝 AI 第三阶段迈进

根据 OpenAI 研究科学家 Noam Brown 的消息，OpenAI 正在招聘机器学习工程师，以打造一个新的「多智能体」研究团队。

目前新推出的 o1 模型处于第二阶段，即所谓的「推理者」阶段。

相比之下，OpenAI 认为「多智能体」是提高 AI 推理能力的关键途径，将进一步推动 AI 的发展，使其达到第三级，即代理层面。

此前，OpenAI 曾提出了一套支持「自定义」AI 进化等级的分类系统，具体等级如下：

第一级 (Level 1)：聊天机器人，具有对话语言能力的 AI

第二级 (Level 2)：推理者，能解决人类级别问题的 AI

第三级 (Level 3)：代理，能采取行动的 AI 系统

第四级 (Level 4)：创新者，能辅助发明的 AI

第五级 (Level 5)：组织者，可以完成组织工作的 AI

OpenAI CEO Sam Altman 近期表示，从第一级到第二级的过渡需要时间，但第二级的一个令人兴奋的特点是，它能够相对快速地推动技术发展到第三级。

🔗 https://analyticsindiamag.com/ai-news-updates/openai-hiring-for-multi-agent-research-team-to-accelerate-ai-to-level-3/

👏 英特尔 Gaudi 3 将于下周发布

尽管近日陷入被高通收购的传闻，但这可一点也没耽误英特尔的产品节奏。

英特尔的新款 AI 芯片 Gaudi 3 预计将在下周的 9 月 24 日正式发布。

这款产品被英特尔视为 AI 英雄（AI Hero），能够处理大规模的训练和推理任务，并具备无限扩展的能力。

根据官方信息，Gaudi 3 的能效相比前代产品提升了一倍以上，并且在运行 AI 模型的速度上比英伟达的 H100 GPU 快 1.5 倍。

英特尔还强调，Gaudi 3 的发布预计会对目前由英伟达主导的 AI 芯片市场造成一定的冲击。

🔗 https://analyticsindiamag.com/ai-news-updates/intel-gaudi-3-finally-releasing-next-week/

🔈 GPT-4o 级语音 Moshi 开源

两个月前，GPT-4o 级语音 Moshi 横空出世，人人可玩且获得一致好评。本周，Kyutai 实验室宣布开源 Moshi。

Moshi 由三个强大的开源组件构成：

Helium：一个经过 2.1 万亿个 token 训练的 7B 语言模型

Mimi：一个创新的神经音频编解码器

多流架构：能同时处理用户和 Moshi 音频的新型架构

这三个组件的结合，让 Moshi 成为了一个强大的开源 AI 对话系统。

不过，考虑到近日有消息传出 GPT-4o 高级语音模式将于 9 月 24 日全量推送，Moshi 反显得无关紧要了。

附上技术报告地址：
chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://kyutai.org/Moshi.pdf

🔗 https://x.com/kyutai\_labs/status/1836427396959932492

👁️ 马斯克脑机接口获批，失明者有望重见光明

本周，马斯克领导的脑机接口公司 Neuralink 宣布，其「盲视」（Blindsight）设备已获得美国食品药品监督管理局（FDA）的「突破性设备」认定。

这一认定意味着 Neuralink 的设备有望加速获得审查并批准成为上市医疗器械，为失明者带来重见光明的希望。

Neuralink 的「盲视」设备是一种脑机接口技术，旨在帮助失去双眼和视神经的人恢复视力。该技术通过在大脑中植入微型电极阵列，直接刺激视觉皮层，绕过眼睛和视神经，使大脑能够接收和解码来自外部环境的视觉信息。

马斯克表示，「盲视」设备有望帮助那些失去双眼和视神经的人恢复视力，甚至可能让先天失明的人首次获得视觉能力。

🔗 https://x.com/neuralink/status/1836118060308271306

💰 传 Black Forest Labs 寻求以 10 亿美元的估值融资 1 亿美元

据外媒 TechCrunch 报道，AI 初创公司 Black Forest Labs 正寻求以 10 亿美元的估值融资 1 亿美元。

Black Forest Labs 是一家由前 Stability AI 核心开发人员创立的 AI 初创公司，专注于开发图像和视频领域的生成式 AI 模型。

而近日因为与 xAI Grok 的合作，也让其代表作 FLUX 模型再次名声大噪。

两个月前，Black Forest Labs 以 3100 万美元的融资额正式亮相，但目前这笔融资交易尚未敲定，仍可能发生变化。

此外，也尚不完全清楚哪些投资者参与了最新一轮融资，但据称 Lightspeed 可能参与了此次融资。

🔗 https://techcrunch.com/2024/09/20/grok-image-generator-black-forest-labs-raising-100m-at-1b-valuation/

🕶️ Snap 推出独立 AR 眼镜，宣布与 OpenAI 合作

在近日举办的 2024 Snap 全球生态合作伙伴大会上，Snap 带来了第五代 Spectacles 智能眼镜，也是第二代 AR 眼镜。

全新的第五代 Spectacles 大体延续了「3D 眼镜」的设计语言，总体更圆润，眼镜柄也更粗了。

226 克的重量也不算轻，相当于将一台国产大折叠手机挂脸上，比上一代的 134 克足足重了将近 70%。大幅增重带来了更多的功能。

上一代仅支持手势操作，这一代不仅新增了语音输入，还能在手机上安装 App 进行联动，不过依旧不支持眼动追踪，也不支持音频播放。

用户在手机上安装 Snapchat 应用后，就可以把手机当作 Spectacle 的「手柄」，可以用来当作直升机游戏的操纵台，或者高尔夫模拟器中的球杆。

上一代被诟病的续航也有了增加，从 30 分钟提升到 45 分钟，虽然提升幅度高达 50%，但依旧不算是优秀的水平。

Snap 本身也和 OpenAI 合作，Spectacles 集成了自家基于 ChatGPT 打造的「My AI」聊天机器人，也引入了 OpenAI 的多模态 AI 模型。

更多具体信息欢迎回看 APPSO 此前文章：

这家靠滤镜火遍全球的公司，抢先 Meta 苹果推出新一代 AI 智能眼镜，8400 元「租」一年

Hunt for Tool｜先进工具

😄 腾讯元器 AI 智能体接入公众号

9 月 20 日，腾讯混元官方发文，宣布腾讯元器 AI 智能体支持发布到公众号。具体功能如下：

打造数字分身，与粉丝实时互动

可作为 7*24 小时的智能客服，回答用户问题

插入公众号文章，解锁更多文章玩法

目前，用户通过「设置智能体 - 授权公众号历史文章到知识库 - 一键配置到公众号」三个步骤，即可零门槛创建腾讯元器 AI 智能体。

🔗 https://mp.weixin.qq.com/s/4J\_wwjqtdS-YEhn-GzXYEw

📻 YouTube 将推出 AI「一站式服务」

YouTube 将推出一项名为「灵感」的 AI「一站式服务」。

该服务集成在 YouTube 创作者中心的新选项卡中，旨在简化视频制作流程，并帮助创作者提高效率。

这个 AI 工具能够为创作者提供视频创意的建议，包括视频概念、推荐标题和缩略图，甚至可以帮助编写视频的大纲。

此外，YouTube 还推出了 Veo 工具，它利用 Google DeepMind 的视频模型技术，可以通过 AI 生成视频背景和最长 6 秒的完整视频片段。

YouTube 计划在今年年底或明年初向创作者推出这些 AI 功能。

🔗 https://deepmind.google/discover/blog/empowering-youtube-creators-with-generative-ai/

📹 阿里通义发布开源模型 Qwen 2.5，升级旗舰模型 Qwen-Max，视频生成模型上线

在本周的云栖大会，阿里云带来了旗下多款 AI 模型和产品的更新。

通义千问新一代开源模型 Qwen2.5 发布，旗舰模型 Qwen2.5-72B 号称在性能上超越 Llama 405B。Qwen2.5 全系列涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型，每个模型都有基础版本、指令跟随版本、量化版本，总计上架 100 多个模型。

通义旗舰模型 Qwen-Max 也迎来升级，号称性能接近 GPT-4o。官方介绍称，相比上一代，Qwen-Max 在训练中使用了更多的训练数据、更大的模型规模、更强的人类对齐，最终达到了更高的智能水平，数学和代码能力超越了 GPT-4o。

通义万相也正式上线了视频生成模型，开放了文生视频、图生视频两个创作入口，支持运动生成、复杂语义理解和概念组合生成等能力，以及勾线动画、国漫 3D、毛毡动画、CG 厚涂、3D 动画、国风画风和元素等风格。

附上体验地址：https://tongyi.aliyun.com/wanxiang/

🔗 https://mp.weixin.qq.com/s/Mujk6\_CKJ6U7XxiJ7EiMpg

🎤 Suno 推出一键翻唱任意风格歌曲功能

近日，Suno 发布了一项名为「Covers」的重磅功能。

通过这项功能，用户可以上传任何音频或歌曲，并将其转换为全新任意风格的音乐作品，并同时保留原有的旋律。

你可以简单地理解为，就像是让 ChatGPT 去模仿一些作者的文风一样来生成自己的文本内容。

该功能的核心在于 AI 能够识别上传音频中的乐谱、乐器、节奏和旋律等元素，并生成全新的翻唱版本。

此外，「Covers」功能不仅适用于简单的录音，还可以处理完整制作的歌曲，甚至支持添加歌词到器乐中，或者改变用户的歌声。

目前，该功能已经向所有的 Pro 和 Premier 订阅用户开放。

🔗 https://x.com/suno_ai_/status/1834332349762359634

Hunt for Fun｜先行

📀 可灵 AI 面向全球发布 1.5 模型

可灵 AI 最近面向全球发布了全新的 1.5 版本模型。

本次升级的重点内容：

可灵 1.5 模型直出 1080P 高清视频，画面美感及运动合理度、文本响应度均有明显提升，「高品质模式」已正式上线，生成价格不变。

可灵 1.0 模型的图生视频新增「运动笔刷」功能，支持为图片中的人物 / 物体等各种元素指定运动轨迹，从而实现更好的运动控制和运动表现。

一起来看看网友用可灵 AI 制作的精彩故事短片。

视频来自 @minchoi

🔗 https://x.com/FinanceYF5/status/1837629700409381094

Hunt for Insight | 先知

📲 阿里 CEO 吴泳铭：AI 最大的想象力不在手机屏幕，而是改变物理世界

9 月 19 日，阿里巴巴集团 CEO、阿里云智能集团董事长兼 CEO 吴泳铭在 2024 云栖大会上发表主题演讲。

他认为，过去 22 个月，AI 发展的速度超过任何历史时期，但我们依然还处于 AGI 变革的早期。

生成式 AI 最大的想象力，绝不是在手机屏幕上做一两个新的超级 app，而是接管数字世界，改变物理世界。

吴泳铭表示，下一阶段先进模型的投入门槛是几十亿、几百亿美金级别。而机器人将是下一个迎来巨变的行业。未来所有能移动的物体都会变成智能机器人。

此外，在他看来，未来几乎所有的软硬件都会具备推理能力，它们的计算内核将变成 GPU AI 算力为主、CPU 传统计算为辅的计算模式。

🔗 https://mp.weixin.qq.com/s/Qqfwwq9OOQ\_IsIScL4FnCg

🕐 Jim Fan：未来 2-3 年机器人领域或迎来「GPT-3 时刻」

OpenAI 的第一个实习生、师从李飞飞教授、英伟达高级科学家……Jim Fan 在具身智能领域有着太多的经验可以分享。

最近，他接受了红杉资本 Traning Data 的采访。

Jim Fan 表示，在接下来的两到三年内，我们将有望看到机器人基础模型的突破。这将类似于机器人领域的 GPT-3 领域。

所谓的 GPT-3 时刻是指机器人在系统一方面的突破。他以「打开」这个词在不同情境下有不同含义为例，人类自然理解这些含义。

相比之下，目前的机器人模型还未能在这些低层次动作控制上进行有效泛化。

Jim Fan 认为，Transformer 架构的潜力还没有被发挥到极致。数据仍然是一个瓶颈，而在模拟环境或真实机器人上收集这些数据是一个不错的途径。

一旦建立了成熟的数据管道，我们可以直接用 Transformer 处理数据，就像 Transformer 预测维基百科上的下一个词一样。

🔗 https://open.spotify.com/episode/2YEslWY161A5nAniNse3gR?si=f65cc4556dbd4c89&nd=1&dlsi=f1dff45b58bd407e

🍎 扎克伯格：Meta 很多方面和苹果截然不同，更注重反馈并非喝彩

近日，Meta CEO 马克・扎克伯格在一个播客节目中表示，Meta 在很多方面和苹果「截然不同」。

扎克伯格称，苹果的产品也很出色，不过他们的策略是花很长的时间完善、打磨好产品，再进行推出，这也符合他们的企业文化。

而 Meta，扎克伯格认为，更重视发布新产品、新功能并及时获得反馈，而不是期待推出产品后获得人们的一致好评，在他眼中这会错过学习大量有用知识并融入下一个新产品的宝贵时间。

他也表示，终极的数字社交体验是人工智能的终极化身。为此，Meta 已经努力了十年。他预测道，眼镜和全息影像将会成为一种无处不在的产品。就像是以前每个人有手机，后面都换成了智能手机。

🔗 https://www.acquired.fm/episodes/the-mark-zuckerberg-interview

🤯 李飞飞：空间智能是理解和生成三维世界的基础

在正式官宣创办 World Labs 之后，「AI 教母」李飞飞最近接受了来自 a16z 的专访。

李飞飞在回顾从人工智能寒冬到深度学习兴起的历程后，指出当前人工智能正处于一个非常激动人心的时刻。

她认为，其中计算能力在推动 AI 发展起到关键作用，比如从 AlexNet 到现代 GPU 的进步，使得训练模型的时间从六天缩短到几分钟。

此外，在她看来，空间智能是视觉智能的核心。与一维的语言模型相比，空间智能是理解和生成三维世界的基础，对 AI 的未来至关重要。

未来，空间智能将帮助我们将这些体验提升到 3D 级别。不仅仅是图像或剪辑，而是一个完全模拟但又充满活力和互动的 3D 世界。

这种技术可能用于游戏，但用途远不止于此，比如虚拟摄影等各种应用场景，甚至有数百万种可能的应用。

🔗 https://x.com/a16z/status/1837234492630569198

彩蛋时间

作者：@ryeuncia

工具：Midjourney v6.1

Prompt:Minimalist red mountain with a thin white line background, ethereal illustration style, digital art, a simple red and pink color scheme, a small boat on a river in front of mountains， in the style of translucent silk

链接：https://www.midjourney.com/jobs/4cd832d7-9e31-490d-a7ee-a4ee0f8f47fa?index=0