专栏名称: APPSO

让智能手机更好用的秘密。

Rabbit R1每天仅剩5000人使用/詹姆斯·卡梅隆加入Stability AI/豆包视频大模型发布|Hunt Good周报

APPSO · 公众号 · app · 2024-09-29 17:58

主要观点总结

本期周报主要介绍了最新科技进展和AI相关的一些创新项目。包括：最新一期的Hunt Good周报内容，涉及AI硬件、初创公司、AI模型等方面的新闻；Meta发布的AI模型和新功能；Google和Meta在AI领域的最新动态；以及一些关于AI技术的讨论和思考。

关键观点总结

关键观点1: 最新一期的Hunt Good周报内容

包括8条新鲜资讯、5个有用工具和1个有趣案例。涉及到AI领域的发展动态，包括新推出的AI模型、新工具的应用场景等。

关键观点2: Meta的最新AI模型和功能

包括新的视频生成模型和更新后的语音模型。这些模型和功能在各自的领域内都有着突出的表现，例如视频生成模型的语义理解能力和语音模型的语音交互能力。

关键观点3: Google和Meta在AI领域的最新动态

包括OpenAI高管变动、新版本的AI模型发布等。同时介绍了这两家公司在AI领域的发展策略和成果。

关键观点4: 关于AI技术的讨论和思考

包括对AI未来发展方向的探讨、对AI伦理和隐私问题的思考等。这些讨论和思考有助于我们更深入地理解AI技术，并引导我们思考如何更好地应用和发展AI技术。

正文

欢迎收看最新一期的 Hunt Good 周报！

在本期内容你会看到：

8 条新鲜资讯
5 个有用工具
1 个有趣案例
3 个鲜明观点

Hunt for News｜先进头条

🤯 辉煌不再，Rabbit R1 日活量骤减至 5000

过去一年，AI 硬件行业都在寻找下一个 AI iPhone，但却又仿佛受到诅咒般地高开低走。

售价 199 美元的当红炸子鸡 Rabbit R1，在发售之初，一天之内就售出 1 万台，至今已售出超过 10 万台。

而最近，据创始人 Jesse Lyu（吕骋）透露，现在每天大约只有 5000 人还在使用 R1。此外，自首次发布以来，他的团队已经向 R1 推送了 16 次无线更新。

Lyu 也没有回避用户的差评如潮，但他同时也表示，硬件初创公司如果想要参与到市场对话中，就必须接受产品的不完美。

如果你是一家初创公司，那你最好早点发货。

另外，Lyu 宣布，R1 即将在 10 月 1 日推出全新模型——Large Action Model。据称该模型能推理执行普通任务的步骤，比如购买音乐会门票、注册网站，甚至玩在线游戏等。

值得一提的是，资深记者 Mishaal Rahman 曾指出，R1 的底层系统疑似套壳 Android。Lyu 则回应强调 Rabbit OS 和 LAM 都是在云端运行的，基于高度定制的 Android 开源项目，并进行了底层固件的修改。

🔗 https://www.fastcompany.com/91196736/ai-hardware-is-in-its-flip-phone-phase

❌ 传 Arm 有意收购英特尔产品部门但遭拒

继曝出高通向英特尔发出收购邀约后，又一家巨头盯上了英特尔。

英特尔今年早些时候对将其产品和制造部门进行了拆分，分别成立了「英特尔代工（Intel Foundry）」和「英特尔产品（Intel Product）」两个部门。

而据彭博社报道，Arm 有意收购英特尔的芯片产品部门，但遭到了拒绝。

收购英特尔的产品部门将有助于 Arm 转向销售更多自己的产品，从而更好地和英伟达等 AI 芯片巨头竞争，而不仅仅是销售芯片许可证。

在市值对比上，Arm 目前的市值比英特尔高出约 170 亿美元。

🔗 https://fortune.com/europe/2024/09/27/british-semiconductor-darling-arm-buy-intel/

🐧 腾讯类人形机器人首秀：轮足一体设计

9 月 24 日，腾讯 Robotics X 实验室人居环境机器人「5 号」（The Five，小五）正式亮相。

据介绍，作为腾讯 Robotics X 实验室最新一代机器人，小五集合了此前多代机器人研发的核心能力，融合了四腿轮足复合设计、大面积触觉皮肤、多指灵巧手以及安全人机物理交互等多项自研技术。

实验表明，小五可在真实人居环境中完成行走、搬运物体等动作，处理复杂任务，与人进行交互。

小五与此前的机器人最大的不同，是在本体上采用了四条直线腿和轮足复合的设计，既保持了足式机器人的越障能力，也保持了轮式机器人运行的效率，让机器人在平地上有更快的速度。

🔗 https://mp.weixin.qq.com/s/pZUKo5OLLdARQGvG7pwM6A

💰 Perplexity 拟推新广告模式：品牌可竞标赞助问题

「清爽、无广告」是当下 AI 搜索引擎的最大卖点，但也可能成为初创企业的致命弱点。

AI 搜索引擎领头羊 Perplexity 最近被曝出正在和 Nike 和万豪等品牌就新广告模式进行谈判。新广告模式将允许品牌对「赞助」问题进行竞价，具有广告商批准的 AI 生成答案。

Perplexity 表示，希望在今年年底前推出广告系统，并瞄准「高端」品牌客户。

知情人士透露，在 Perplexity 的广告系统下，营销人员将按所谓的 CPM 收费，也就是为这些赞助帖子产生的每 1000 次展示支付超过 50 美元的费用。

相比之下，Google 估计为 1100 美元。

创始人兼 CEO Aravind Srinivas 称：「如果广告是相关的，并且来自高质量的品牌，那么这些广告就真的很有用，很多人都是基于这一点进行购买的。」

🔗 https://www.ft.com/content/ecf299f4-e0a9-468b-af06-8a94e5f0b1f4

🙋‍♂️ 导演詹姆斯·卡梅隆加入 Stability AI 董事会

Stability AI 又缓过来了？

本周，Stability AI CEO Prem Akkaraju 宣布，曾执导过《泰坦尼克号》《异形》《阿凡达》等电影的导演詹姆斯·卡梅隆，加入 Stability AI 董事会。

卡梅隆以艺术家为中心的视角，加上他的商业和技术敏锐度，将支持 Stability AI 继续释放新的机会，使创作者能够以曾经难以想象的方式讲述故事。

Stability AI 在新闻稿中写道，卡梅隆的加入代表着 Stability AI 变革视觉媒体的使命向前迈出了重要一步。

卡梅隆曾表示：「早在三十多年前，我就已经站在了 CGI 技术的最前沿，并且从那时起，我就一直保持在这一领域的最尖端。现在，生成式 AI 与 CGI 图像创作的结合，正成为新一轮的技术浪潮。」

🔗 https://stability.ai/news/james-cameron-joins-stability-ai-board-of-directors

🕶️ Meta 发布史上最强 AR 眼镜

十年磨一剑，Meta AR 眼镜迎来 iPhone 时刻。

本周，Meta 发布了其首款 AR 智能眼镜 Orion，它一共由三个部分组成：眼镜本体，一个手势追踪腕带，以及一个遥控器大小的「计算模块」，三者无线连接。

这种「分体式」的方案，加上机身采用了更轻的镁材料，Orion 眼镜本体实现了惊人的 98 克重量，并且能够实现 2 小时左右的续航。

Orion 的镜片并非是玻璃显示屏，而是碳化硅透镜。

镜框上微型的投影仪会将光发射在波导中，而波导投射在透镜上，从而显示出具有不同纵深和大小的 AR 虚拟内容（扎克伯格称其为「全景图」）。

据 The Verge 的测试，Meta Orion 的视场角高达 70 度，可能是行业内拥有最宽视野的 AR 眼镜。

根据现有的演示视频，用户可以戴着眼镜打开多个 Meta Horizon App 窗户进行多任务，或者用 Meta AI 对现实世界的事物进行识别、标注。

不过，目前的 Orion 设备还是原型机，只面向部分开发者和体验人员提供，其中包括老朋友黄仁勋。

具体可以回看 APPSO 此前详细的总结文章——真 AR 眼镜来了！十年保密项目烧钱数十亿，Meta 最强 AI 加持，黄仁勋首测

🔗 https://about.fb.com/news/2024/09/introducing-orion-our-first-true-augmented-reality-glasses/

💵 Character.AI 创始人= 27 亿美元？

一个 AI 天才值得付出多少酬劳？答案可能是 27 亿美元。

据《华尔街日报》报道，Google 向 Character.AI 开出一张约 27 亿美元的支票。

据悉，一方面，这笔费用为了获得 Character.AI 的技术许可，另一方面，则是借此让创始人 Noam Shazeer 同意回归 Google。

在 Google 内部，人们普遍认为 Shazeer 的回归是公司同意支付这笔巨额许可费用的主要原因。

Shazeer 曾在 2000 年底加入 Google，是最重要的早期员工之一。

2017 年，他作为作者之一发表了论文《Attention is All You Need》，这篇论文首次提出了 Transformer 架构，为当今流行的生成式 AI 工具（如 ChatGPT、Claude 等）奠定了基础。

2021 年，因对官僚主义感到失望，他从 Google 离职，随后与 Daniel de Freitas 共同创办了 Character.AI 公司。

🔗 https://www.wsj.com/tech/ai/noam-shazeer-google-ai-deal-d3605697?mod=livecoverage\_web

🧐 融资生变，OpenAI 高管震荡内幕再曝光

越是生机勃勃，越是震荡不断，此刻 OpenAI 正在迎来一种非世俗意义上的「新生」。

先是 OpenAI CTO 宣布离职，挥挥手引发两名高管出走，后又被曝出离职的 Ilya 曾考虑回归 OpenAI，却被公司管理层耍了一道。

没人想到，舆论风口的调转如此之快。

被誉为 AI 乔布斯的 Altman 在本周也拿到了反派角色的剧本，在其领导下，OpenAI 无视安全，匆忙上马拥有安全漏洞的 GPT-4o，又不断压榨员工，甚至连高管都苦不堪言。

而另一边，OpenAI 的融资进展也突逢变数。

苹果在最后关头宣布退出 OpenAI 新一轮融资。不过，好在苹果选择「放手」后，微软、英伟达等巨头仍在谈判桌上。其中已投 130 亿美元的微软预计还将追加约 10 亿美元。

尽管本轮融资尚未最终敲定，参与者和投资金额仍有变动的可能。

但可预见的是，OpenAI 正坚定地从非营利组织转型为营利性公司。因为报道还提到，若是 OpenAI 两年内没完成公司结构的重组，本轮投资者将有权要求退回他们的「真金白银」。

这场 OpenAI 连续剧显然还将持续下去，吃瓜群众能做的也只有静待反转、反转和反转。

🔗 https://www.wsj.com/tech/ai/open-ai-division-for-profit-da26c24b?mod=tech\_feat1\_ai\_pos1

Hunt for Tools｜先进工具

📀 字节豆包视频大模型发布

文生视频的赛道越来越热闹了，两周一更新，一月一迭代。

9 月 24 日，字节跳动旗下火山引擎在深圳举办 AI 创新巡展，一举推出了豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款大模型。

简单总结豆包视频模型的特点：

支持文生/图生视频，时长可达 10s

精准的语义理解，多动作多主体交互

一致性切镜

强大动态与酷炫运镜

高保真高美感，多风格多尺寸

这次 APPSO 参与了内部测试，得到称得上是了不起的效果——还是那句话，很强，很炸裂

具体可以回看 APPSO 此前文章：

10 秒钟收获影视级短片，花式运镜主体依然清晰，这个全新国产视频模型稳稳拿捏

🔗 https://mp.weixin.qq.com/s/1putuD\_htU0qYtLnArG6yA

👏 Google 更新 Gemini 1.5 系列模型

近期，Google 宣布升级 Gemini 1.5 系列模型，推出了两款可投入生产的 Gemini 模型：Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 。

相较于以往版本，这两款新模型均配备 2M 上下文窗口，是之前型号的两倍。

此外，1.5 Flash 模型请求速率限制提高 2 倍，而 1.5 Pro 模型请求速率限制提高约 3 倍。

并且，两种模型在 MMLU-Pro 基准测试中的成绩提升了约 7% ，在 MATH 基准测试中成绩提高了约 20%。

例如，Gemini 模型能够综合处理长达 1000 页的 PDF 文件，回答包含超过一万行代码的代码库的问题，甚至处理长达 1 小时的视频内容。

Gemini 1.5 模型在今年 5 月份的 Google I/O 大会上首次亮相，而这两款新模型在此基础上作出了改进。开发人员现在可以通过 Google AI Studio 和 Gemini API 免费访问该模型。

🔗 https://www.tomsguide.com/ai/google-just-dropped-new-versions-of-gemini-here-s-why-its-a-big-deal

📲 Meta 发布端侧最强开源 AI 模型

近期，Meta 正式推出了 Llama 3.2 多模态 AI 模型。

Llama 3.2 涵盖不同大小的模型版本：

1B（文本输入）、3B（文本输入）、11B（文本+图像输入）以及 90B（文本+图像输入）模型，适应于不同的应用场景和计算资源。

Llama 3.2 保持了与前代版本相同的 128K 上下文长度，允许用户输入大量文本，进行复杂的任务处理。

在相关的基准测试中，Llama 3.2 的视觉模型在图像理解任务上超越了其他竞争对手，如 Claude 3 Haiku 和 GPT-4o，在图像理解任务方面表现出色。

🔗 https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

🤖 能进厂打工却未必拧得好螺丝

我们已经开始大规模讨论人形是否是机器人最合适的形态，但现实的发展或许还远远没到这一步。

据晚点 Late Post 报道，特斯拉 Optimus 人形机器人目前已经生产数百台，但还不到可以上产线工作的状态，目前只能用来采集数据、测试不同的设计方案。

此前，Fortune 曾报道，为了更好地训练特斯拉 Optimus，特斯拉正在招聘「数据收集操作员」，以每小时 48 美元的价格进行数据收集和训练工作。

报道中还提到，一位接触过特斯拉团队的投资人表示，马斯克对人形的坚持，是为了换掉制约汽车制造的最后一个环节——工人。

马斯克的预言有很多，有声称 2029 年将会将人类送上火星，也声称明年 AI 将会比任何人都聪明，更曾大胆预言 20 年后地球上将会有大约 10 亿个人形机器人。

而马斯克那些年吹过的「牛」也都基本实现了。

🔗 https://mp.weixin.qq.com/s/jVxopXkmFYzU5MDk\_qqcJw

👀 ChatGPT 高级语音模型宣布全量开放

不用等到秋天，OpenAI 宣布 ChatGPT 新版高级语音模式将在本周内向所有 Plus 和 Team 用户全量推送。

不过，新版高级语音模式每天的使用时间也是有限制。

CNBC 和 X 网友 @MattVidPro 的体验都发现，只能和 ChatGPT 聊 45 分钟左右。当用户的使用时间剩余 15 分钟时，系统就会发出提醒。

此外，OpenAI 还一口气推出了五种听起来更自然的全新语音风格——Vale、Spruce、Arbor、Maple、Sol。

遗憾的是，ChatGPT 的视频和屏幕共享仍旧没上线。简言之，姗姗来迟的高级语音模式本质上还是一个阉割品。

更多具体信息欢迎回看 APPSO 此前文章——ChatGPT 高级语音模式首批体验来了！网友玩坏了，但还是个阉割版

🔗 https://x.com/OpenAI/status/1838642444365369814

Hunt for Fun｜先行

🎨 Midjourney+可灵 AI=超级短片？

网友 @Alin_Reaper05 用 Midjourney+可灵 AI 做了一段精彩的视频，具体效果如下：

具体 Prompt 如下，感兴趣的朋友不妨也一起「炼丹」。

向左滑动查看更多内容

Midjourney Prompt：Video game screenshot of an anthropomorphic wolf with large ears wearing brown and an eye patch, in the style of Studio Ghibli. Screengrab from the Monster Hunter World movie, created using Unreal Engine 5. --ar 16:9 --q 2 --v 6.1 --s 150 --p 85eqvou

可灵 Prompt：mesmerizing slowly movement of the face

🔗 https://x.com/Alin\_Reaper05/status/1838497603752788322

Hunt for insights｜先知

🚫 宫本茂：拒绝盲目追随 AI 潮流，要走出不同的游戏开发道路

当 AI 在游戏的世界里「攻城略地」时，一部分游戏从业者却果断 Say no，拒绝盲目跟随 AI 潮流。

据《纽约时报》报道，任天堂灵魂人物宫本茂在接受采访时表示，任天堂会更理性看待 AI 对游戏的影响，希望走出和其他电子游戏行业不同的路。

例如，现在有很多关于人工智能的讨论。当这种情况发生时，每个人都开始朝着同一个方向发展，但这正是任天堂更希望朝着不同方向发展的地方。

作为参考，索尼 PlayStation 之父久多良木健曾表示，随着 AI 和其他新技术的出现，他预计游戏将逐渐进入实时计算时代。

🔗 https://www.nytimes.com/2024/09/25/arts/design/shigeru-miyamoto-interview-nintendo-museum.html?searchResultPosition=1

🤩 Tesla 前 AI 总监：什么是技术之美

技术产品的本质是什么？这个过于宏观的问题其实也可以用计算器来作答。

Tesla 前 AI 总监、OpenAI 创始团队成员 Andrej Karpathy 最近提出一个疑问，为什么我们现在的科技大多都在向着这种复杂、依赖性过高、对用户不友好的方向演变？

计算器是你大脑的一个完全自给自足的算术插件。它今天可以工作，几千年前也能工作。你为它买单，它就归你所有。它没有其他的主人。它只做它该做的事。它是完美的。

他以计算器举例称，相比繁琐复杂的现代科技产品，计算器自给自足，操作简单，可以长期工作，支持一次购买，不会收集用户信息，无需账户、更新、权限，没有广告或促销、无数据泄露风险。

Karpathy 建议，消费者和开发者应该记住技术可以是什么样子。其中消费者应该更加警惕，拒绝不良的科技趋势，而开发者应该在设计产品时考虑更多的伦理和隐私问题。

🔗 https://karpathy.ai/blog/calculator.html

🤳 扎克伯格：创作者和出版商往往「高估」了他们的作品对训练 AI 的价值

Meta CEO 扎克伯格在接受采访时谈到了抓取创作者数据训练 AI 模型的版权问题。

他认为大多数创作者的个人作品价值不高，Meta 可能会为有价值的内容建立合作伙伴关系，但如果创作者要求付费，Meta 可能会像对新闻媒体那样选择放弃使用其内容。

「我认为个人创作者或出版商往往会高估他们特定内容的价值。」

Meta 目前也卷入了关于未经许可抓取数据用于 AI 训练的诉讼，Meta 认为这种行为在法律上应该是被允许的。扎克伯格解释道：

我认为，在任何一种新的技术媒介中，都有围绕合理使用的概念，以及你所能控制的界限在哪里。

当你把东西放到世界上时，你在多大程度上还能控制它、拥有它、许可它？

我认为，在 AI 时代，所有这些问题基本上都需要重新审视和讨论。

🔗 https://www.theverge.com/2024/9/25/24254042/mark-zuckerberg-creators-value-ai-meta

彩蛋时间

😄《天空之城》

作者：@SmokeAwayyy

链接：https://x.com/SmokeAwayyy/status/1839443805147435191