专栏名称: APPSO

让智能手机更好用的秘密。

Runway一夜删库跑路/OpenAI家庭机器人亮相，网友：像真人装的/韩国女性陷AI换脸恐慌 | Hunt Good 周报

APPSO · 公众号 · app · 2024-09-01 17:58

正文

欢迎收看最新一期的 Hunt Good 周报！

在本期内容你会看到：

7 条新鲜资讯
6 个有用工具
1 个有趣案例
3 个鲜明观点

Hunt for News｜先进头条

🤖 OpenAI 押注，1X 人形机器人正式亮相

人形机器人来了，家务活不用干了？

昨日，由 OpenAI 押注的机器人初创公司 1X 宣布推出一款专为家庭使用而设计的双足人形机器人原型 ——NEO Beta。

NEO Beta 身高约 1.65 米，体重 30 公斤，设计用于执行家务任务。它能够以 2.5 英里 / 小时的速度步行和 7.5 英里 / 小时的速度跑步，并且在执行任务时能够保持静音。

NEO Beta 的设计注重安全性，采用了类似人类肌肉组织的结构，使其在与人类互动时更加柔和和安全。

不过，也有很多不买账的网友对宣传视频持怀疑态度，认为这些视频没有展示出机器人在不同情况下的适应能力。

比如，如果视频中的人说了「不」，机器人会有什么反应？如果人移动了位置，机器人还能不能正确地做出反应？

据 1X CEO Bernt Børnich 透露，更多关于 NEO Beta 的具体演示视频将在几天后释出。

🔗 https://x.com/1x\_tech/status/1829567690681307284

🍎 OpenAI 拟融资数十亿美元，英伟达 / 苹果 / 微软有意？

微软和 OpenAI 的铁联盟要掺入第三方了？

据多家外媒报道，OpenAI 正在洽谈新一轮融资，预计估值将超过 1000 亿美元，成为全球市值最高的 AI 独角兽之一。这轮融资的投资者包括 Thrive Capital、微软、苹果和英伟达等。

外媒 The Information 指出，本轮融资期间，OpenAI 或将从非营利组织转变为营利性企业。

另外，最新的数据显示，自去年 11 月份以来，ChatGPT 的周活跃用户数量已经翻了一倍，超过 2 亿。

面对此前舆情不断的境况，为了少出「幺蛾子」的 OpenAI 正在招聘一名技术内部风险调查员，目的是要「加强公司对内部安全威胁的防范能力。」

招聘信息显示，该职位的职责包括分析异常活动、检测和缓解内部威胁，并与人力资源和法律部门合作，「对可疑行为」进行调查。

🔗 https://www.theinformation.com/articles/why-openai-needs-an-ipo

💥 曝 OpenAI 神秘模型「草莓」秋季推出

OpenAI 的神秘模型「草莓」终于要成熟了？

据 The Information 报道，OpenAI 计划最快在今年秋天推出名为「Strawberry（草莓）」的推理 AI 模型。

作为 ChatGPT 升级的一部分，「草莓」的核心能力在于强大的推理能力，可以处理数学和编程领域的复杂问题，其在 MATH 基准测试中的得分已经超过 90%。

此外，该模型的功能并不仅限于技术问题的解答，如果给「草莓」模型更多的「思考」时间，它还能回答客户关于更主观话题的问题，例如产品营销策略。

据悉，「草莓」模型包含多个版本，其中一款更为精简的版本用于聊天机器人，而完整版本的模型则为下一代旗舰大模型 Orion 生成训练数据，从而缓解互联网高质量文本短缺的问题。

当下的 OpenAI 表面上已然不复往年的荣光，也是时候从弹药库掏点新东西出来了。

🔗 https://www.theinformation.com/articles/openai-shows-strawberry-ai-to-the-feds-and-uses-it-to-develop-orion

🎨 Midjourney 宣布进军硬件领域

本周，文生图独角兽 Midjourney 宣布进军硬件领域。

公司创始人 David Holz 曾担任 Leap Motion 的首席技术官。年初 Midjourney 还雇佣了前 Apple Vision Pro 工程师 Ahmad Abbas 作为硬件部门的主管。

目前，官方还没有透露会打造何种硬件，但强调「肯定有更多形态的可能性」，并且不会是类似于 Limitless Pendant 的吊坠形态。

在今年 1 月份的时候，X 博主 @nickfloats 爆料，成立的硬件团队计划进入个人计算领域，开发一种可以让用户组织和管理成千上万虚拟 3D 空间的球形设备「orb」。

🔗 https://x.com/midjourney/status/1828839444130214208

🚫 韩国 N 号房再现！大量女性被 AI 换脸

曾经因为 N 号房震惊世界的韩国，此时此刻正在上演 2.0 版本。

之前的 N 号房事件，作案人在加密即时通讯软件 Telegram 上建立多个聊天室，发布性剥削内容。这次的事件，也主要发生在 Telegram。

两者主要是犯罪手段的区别：一个是偷拍，一个是 Deepfake（深度伪造）。

我们早已对 Deepfake 不陌生，它利用 AI 生成看似真实的视频、音频或图像，模拟实际没有发生的事情。

N 号房 2.0 的加害人们，将魔爪伸向了身边的家人、同事和同学。

《韩民族日报》报道，一个 22.7 万人参与的 Telegram 聊天室，只需要女性的照片，就能在 5 到 7 秒内生成 AI 换脸等 Deepfake 内容。

具体更多内容欢迎回看 APPSO 此前文章👇：

韩国 N 号房再现！大量女性被 AI 换脸在微博求助，涉及 500 所学校，超过 22 万人参与

🔗 https://mp.weixin.qq.com/s/UBdaY89‍36NyfScxxf7zoPw

📹 Runway 页面从 Hugging Face 等平台消失

近日，知名 AI 视频生成平台 Runway 的内容从 Hugging Face AI 平台上消失，疑似「删库」。

此外，Runway 在 Hugging Face 上的 Stable Diffusion v1.5 项目界面也无法访问，GitHub 的相关界面也一并消失。

赛博禅心求证了相关负责人，确认是 Runway 主动删库，在此之前没有通知任何人，包括 Hugging Face。

赛博禅心猜测相关页面消失的原因可能是由于版权问题。Runway 此前开源了参与的 Stable Diffusion 1.5 项目，被 SD 以侵犯知识版权为由要求删除。

🎲 米哈游创始人新 AI 公司曝光，此前称「AI 彻底改变游戏开发」

米哈游创始人蔡浩宇近日在社交媒体上罕见发言，表示「AIGC 已经彻底改变了游戏开发」：

在未来，只有两类人在创造游戏方面才有意义。

一种是前 0.0001% 的人，一群最有洞察力的天才组成的精英团队，创造出前所未有的东西。

另一种是 99% 的业余爱好者，可以仅仅为了满足自己的想法而随心所欲去创造游戏。

至于普通到专业级的开发者，他建议「转行」。

随后有媒体爆料了一家名为「Anuttacon」的公司，旨在为游戏玩家创造前所未有的体验，突破互动娱乐的界限。

这家公司的注册地点和米哈游新加坡总部一致，并且这家公司的生态总裁曾以米哈游新加坡分公司身份出席公开活动，也使用过米哈游的企业邮箱。结合蔡浩宇的言论，多家媒体猜测，这家公司和蔡浩宇有关。

据报道，微软图形负责人、Meta 大模型负责人等 AI 界人士也都疑似加入了 Anuttacon。

Hunt for Tool｜先进工具

📱Bland AI 完成 A 轮融资，正式推出产品

AI 取代人类的工作，正在从客服行业开始。

由 YC 孵化的 Bland AI 在今年 1 月份发布了其产品 Demo，号称是全球最快的对话式 AI，它可以同时发送或接收高达50 万+的电话呼叫，并且以人类的速度用任何声音回应。

本周 Bland AI 完成 1600 万美元的 A 轮融资，也已经正式发布产品。

据介绍，这个电话呼叫代理能够模仿人类的声音和语言进行交流，根据客户的需求进行个性化设置，甚至 24 小时处理处理数百万个呼叫。官方宣称，Bland 甚至能够在没有任何幻觉的情况下完成上述这些任务。

坏了，这下或许再也分不清电话那头是人还是 AI 了。

🔗 https://x.com/usebland/status/1828882563588612233

🎮 Google 推出 GameNGen，实时生成游戏画面

本周，Google 发布了首个 AI 游戏引擎 GameNGen。

GameNGen 是一个完全由神经模型驱动的游戏引擎，它能够在单个 TPU 芯片上以超过 20 帧每秒的速度实时模拟经典射击游戏《毁灭战士》。

并且生成的画面质量与真实游戏非常接近，完全不需要游戏引擎的常规组件。

GameNGen 的工作原理是利用扩散模型实时预测每一帧，因此游戏画面是根据玩家操作与复杂环境进行交互，实时生成的。

引擎的训练分为两个阶段，首先是强化学习智能体学习玩游戏并记录训练过程，其次是训练扩散模型以根据过去帧和动作的顺序生成下一帧。

GameNGen 的发布可能意味着 AI 将能够即时创建游戏，并为每个玩家提供个性化服务。此前英伟达创始人黄仁勋曾预言，未来游戏中的每一个像素都将被生成，而不是渲染。

🔗 https://x.com/\_akhaliq/status/1828631472632172911

🤯 智谱发布新一代基座模型，视频通话功能上线

在 KDD 2024 大会上，智谱发布了新一代基座模型，包括语言模型 GLM-4-Plus、文生图模型 CogView-3-Plus、图像 / 视频理解模型 GLM-4V-Plus、视频生成模型 CogVideoX 等。

智谱官方表示，这些模型在相应领域均达到了国际第一梯队的水平。

此外，智谱还在「清言 APP」上线了视频通话功能，并在 MaaS 平台上开放了 GLM-4-Flash API 的免费使用。

我们也第一时间上手实测了清言 APP 的视频通话功能，欢迎回看 APPSO 此前文章：

智谱版《Her》来了！这个类 GPT-4o 视频通话功能，我在国产 AI 里体验到了

🔗 https://mp.weixin.qq.com/s/f0Wl2qJEqMOxZP3vxdQdJg

🌔 阿里云发布国际首个「月球科学多模态专业大模型」

古人把酒问月，现在阿里云用大模型问月。

8 月 29 日，中国科学院地球化学研究所与阿里云联合发布国际首个「月球科学多模态专业大模型」。

月球专业大模型以视觉、多模态及自然语言等通义系列模型为基模，结合 RAG 检索增强等技术，于阿里云百炼专属版进行微调及训练。

科研工作者只需输入月球撞击坑图像和相关问题，月球专业大模型即可调用通义视觉、多模态模型，从 17 种多模态数据中（包括光谱、高程、重力等数据）判定该图像对应的模态类型。

通过检索知识库、调用通义语言模型，月球专业大模型可回答该撞击坑的形态、大小、年代等相关问题，并给出推理过程。

🔗 https://mp.weixin.qq.com/s/40LFaLId-vBgxE3ikF7QBA

🍎 苹果相册一键消除，拍照路人不存在了！

本周，苹果在 iOS 18.1 最新测试版中加入了图片的「一键清除」，哪里不要点哪里。

清除功能不仅能消除单个人物，还能一次处理多个对象，消除特效很炫酷，但生成结果偶尔也会翻车，快来看看。

📀 MiniMax 视频生成模型正式登场

昨日，MiniMax 正式发布了视频生成模型。

现场亮相的演示 demo 讲述了一个小男孩拥有一枚可以创造想象世界的魔法硬币的故事。

官方表示，该视频中的每个场景都由 MiniMax 大模型生成，未经过任何修改。

经体验，该视频模型支持原生 1280*720 25fps、时长 6s，生成过程大约 2 分钟。

我们也随手让其生成了一个视频，你们觉得效果如何？

Prompt：使用电影风格拍摄，铁匠身穿破旧的工作服，在暖色调的灯光下，手持铁锤敲打铁块。镜头从高角度俯拍，背景是模糊的铁匠铺，充满了岁月的痕迹。氛围怀旧。

附上 PC 端体验地址：https://hailuoai.com/

Hunt for Fun｜先行

🧐 早晨不需要被吵醒？光也可以

外媒 arstechnica 编辑 Sharron Harding 最近分享了一款智能睡眠闹钟的评测体验。

这款「闹钟」名为 Hatch Restore 2。它可以模拟日出，在 30 分钟内逐渐增加光线亮度，从柔和的红色过渡到明亮的日光色。

向左滑动查看更多内容

官方宣称，这种自然的光线变化有助于用户在早晨轻松醒来，而不是被突然的响声惊醒。

并且，该设备内置多种白噪音和其他舒缓声音，帮助用户在夜间放松入睡。用户可以通过 Hatch Sleep 应用程序自定义自己的睡眠例程，包括设置不同的光线和声音组合，以适应个人的睡眠需求。

不过，Harding 在亲身体验三周后发现，虽然闹钟的效果还不错，但这并没有帮助她成为早起者，该睡的懒觉还是得睡（手动狗头）。

🔗 https://arstechnica.com/gadgets/2024/08/sunrise-alarm-clock-didnt-make-waking-up-easier-but-made-sleeping-more-peaceful/

Hunt for Insight | 先知

🤖 波士顿动力创始人：人形机器人为什么从液压转向电驱？

波士顿动力创始人 Marc Raibert 最近在 WRC 2024 上和几位中国人形机器人领域明星创业者进行了一场圆桌对话。

Marc Raibert 认为端到端模型目前不是推动人形机器人取得重要进展的方法，而控制系统和控制理论等传统技术仍然发挥着重要作用。

他强调将机器学习等技术与现有技术结合的重要性，并预测这可能在未来 5-10 年为机器人带来不一样的变化。

当被问及 Atlas 机器人从液压驱动转向纯电驱动的原因，Raibert 提到了三个主要因素：液压系统的复杂性和维护问题液压技术人才的缺乏，以及电动机在规模化量产上的优势。

🔗 https://www.bilibili.com/video/BV1VrWzeQEqf/?vd\_source=7184a0d70c4988ce7cdac52eec6d058b

🎬 a16z：AI 将如何融合电影和游戏？

最近，一篇来自知名风险投资机构 a16z 的文章预测，未来将会出现一个新的皮克斯，利用生成式 AI 和交互式视频重塑故事讲述方式。

作者认为， 故事是人类体验的核心，技术的进步推动了叙事方式的发展。

文章预言，下一代皮克斯将不会依赖传统的电影或动画，而是通过交互式视频，这种新型讲故事的形式将模糊视频游戏和电视 / 电影之间的界限，打破了观众被动观看的传统，实现故事与玩家互动的融合。

而互动媒体能够创造更深的观众参与感和身份认同，比如从「我看哈利波特」到「我是哈利波特迷」的转变。

不过文章也认为，考虑到底层硬件和模型改进的速度，业界可能还需要约 2 年的时间才能实现商业上可行的、完全生成的交互式视频。

🔗 https://a16z.com/the-next-generation-pixar/

🧐 吴恩达：token 价格的大幅下降主要受到开源权重模型的推动

AI 领域知名专家吴恩达近日在 X 平台针对 OpenAI 近期对其 GPT-4o 模型的降价措施发表了看法。

吴恩达指出，Token 价格的大幅下降主要受到开源模型的推动，如 Llama 3.1。此外，初创公司如 Together AI 以及大型云服务公司纷纷加入价格竞争也扮演了重要角色。

硬件领域的创新也在助推价格的进一步下降。吴恩达特别提到，诸如 Groq、Samba Nova、Cerebras 等公司在加速 Token生成方面的突破，推动了市场价格下调。

他进一步预测，随着半导体技术的改进、模型体积的缩减以及推理架构中算法的创新，未来 Token 价格将继续下降。

吴恩达认为，随着 Token 价格的持续降低，目前从经济角度来看不完全可行的智能体任务负载将变得更加可行。

此外，他还建议 AI 公司应定期评估并考虑切换到最新版本的模型，以便充分利用价格下降和性能提升带来的优势。

🔗 https://x.com/AndrewYNg/status/1829190549842321758

彩蛋时间

☘️《绿》

作者：@iorosemary

工具：Midjourney

Prompt：Close-up of a room of some kind of spaceship with white walls and wires, shot from the side, side angle of the photo, in the center of the image there is an island with various plants and trees, monitors and computers lie on the grass, pure white color, hyper-realistic details, fog, scientific style, white and neon green light, symmetry, white color , close-up, macro, sharp details Ultra HD, macro photography, cyberpunk style

链接：https://www.midjourney.com/jobs/74f6edbe-27be-46bb-b888-60a3470582bf?index=0