专栏名称: APPSO

让智能手机更好用的秘密。

OpenAI o1 被玩疯了！IQ 测试 120、分钟级创建 3D 贪吃蛇，但千万别问这个问题 | Hunt Good 周报

APPSO · 公众号 · app · 2024-09-15 17:58

正文

欢迎收看最新一期的 Hunt Good 周报！

在本期内容你会看到：

7 条新鲜资讯
6 个有用工具
1 个有趣案例
4 个鲜明观点

Hunt for News｜先进头条

💰「AI 教母」李飞飞创业方向瞄准「空间智能」

成功融资 2.3 亿美元后，「AI 教母」李飞飞正式官宣创办 AI 初创公司 ——World Labs。

李飞飞发文称，将与其他三位联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall，以及一支世界级图像技术团队共同创办实验室，致力于解决这个大自然花费五亿年才解决的超级难题。

据悉，World Labs 希望在明年推出首款构建能够理解 3D 世界并与之交互的 AI 模型产品，公司称其为「大世界模型」。

据称目标用户是艺术家、设计师、开发人员和工程师，以及游戏公司和电影公司。

对于空间智能的介绍，该公司官网上写道：

人类智能有许多方面，其中之一是语言智能，它使我们能够通过语言进行交流和与他人联系。但更为基础的或许是空间智能，它让我们能够理解和与周围世界互动。

空间智能还能帮助我们创造，将脑海中的画面带入现实世界...... 要超越当今模型的能力，我们需要具备空间智能的 AI，它能够在三维空间和时间中对世界进行建模，并对物体、场所和交互进行推理。

英伟达 AI 智能体项目负责人 Jim Fan 表示，空间智能是计算机视觉和具身智能体的下一个前沿。

🔗 https://x.com/drfeifei/status/1834584286932181300

🧬 OpenAI 发布「o1」模型：具有人类般的推理能力

本周，OpenAI 发布了全新模型「o1」的预览版，以及更小、更便宜的「o1-mini」。

据介绍，o1 与 GPT-4o 的主要区别在于能够解决编程和数学等复杂问题，OpenAI 用一种新的「强化学习」的方式训练 o1 模型，使其能够实现人类般的逐步思考能力，花更多时间去解决问题。

模型会学习完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

OpenAI 使用国际奥林匹克数学资格考试对 o1 进行了测试，得分 83%，而 GPT-4o 得分 13%。不过，o1 目前不具备浏览网页或者处理文件和图像能力。

困扰 ChatGPT 和其他 AI 机器人的「Strawberry 有几个 r」问题，o1 能够正确回答，但依然未能解决「9.8 和 9.11 哪个大」的经典难题。

开发人员要调用 o1 API，输入 tokens 每一百万个价格 15 美元（折合人民币元 106.75 元），输出 tokens 每一百万个 60 美元（折合人民币约 427 元），远高于 GPT-4o。

网友 @howie_serious 用 o1 模型做 2024 年高考数学卷，除了证明题没有测试，其他题目均答对。

向左滑动查看更多内容

数学家陶哲轩表示， o1 模型的体验类似于指导一个水平一般但不算太无能的研究生。「与之前的版本相比，o1 模型更强大，但在处理最复杂的数学研究任务时仍然表现不佳。」

还有网友 @real_kai42 尝试用 o1 模型解读起密文，「思考」76 秒后，最终得出正确答案，展现出强大的逻辑推理能力。

向左滑动查看更多内容

关于 OpenAI o1 的 IQ 测试也安排上了。

向左滑动查看不同测试结果

还有网友用 OpenAI o1 模型在不到一分钟的时间内创建了一个 3D 版的贪吃蛇游戏。

甚至搭配近期爆火的代码神器 Cursor 创建了一个 iOS 天气 APP，全程用时不到 10 分钟。

此外，有网友在测试中发现，如果用户向 ChatGPT 询问 o1 模型详细的思考过程及步骤，OpenAI 就会给用户发出警告邮件：

请停止此活动，确保您使用 ChatGPT 时符合我们的使用条款。违反此条款的行为可能导致失去 OpenAI o1 访问权限。

甚至已经有部分网友因为试图「套话」o1 模型的完整思维链（CoT）而遭到封号。

OpenAI 对此的解释是，公司内部需要监测模型的思维过程，因此不能在这些原始 tokens 中加入安全限制，也就不方便让用户看到。

另外，据《财富》杂志报道，近日 Altman 在一次全公司会议上告诉员工，这家初创公司复杂的非营利性企业结构将发生变化。

「可能在明年的某个时候。」

更多具体信息欢迎点击回看 APPSO 此前文章：

1、OpenAI 发布最强模型 o1 ！打破 AI 瓶颈开启新时代

2、实测 OpenAI 新模型 o1 ：做题王者，实战青铜

🤖 传字节跳动再试智能硬件

据晚点报道，字节跳动正在探索将其大模型技术与硬件产品相结合，再次试水硬件领域。

字节跳动不仅会自行开发 AI 硬件，也会与外部硬件公司合作。

报道称，由 Kayden（花名）带领的字节的 AI 硬件团队正在开发一款与豆包大模型和 App 联动的智能耳机，同时也在探索 AI 眼镜的研发方向。

字节已经收购了智能耳机公司大十未来科技，并且正在利用其团队作为 AI 硬件团队 Flow 的基础。

除了智能耳机和眼镜，字节的 AI 硬件团队还在研发其他穿戴设备，这些设备也将搭载豆包大模型。

🔗 https://www.latepost.com/news/dj\_detail?id=2493

💥 苹果发布史上首台 AI iPhone

我们终于等来苹果发布的史上第一台 AI 手机。

作为 iPhone 16 系列上的最大亮点，没有如期推送的 Apple 智能将于下月推出，短期内仅限于美国英语地区。

苹果表示，Apple Intelligence 功能将逐步支持更多语言。

在今年 12 月份，澳大利亚、加拿大、新西兰、南非和英国等地的英语方言将率先使用 Apple 智能，而苹果计划在 2025 年逐步增加对中文、法语、日语和西班牙语等其他语言的支持。

至于中国用户，无论你是否在中国大陆购买的 iPhone，也不管你的 Apple ID 国家 / 地区是否设置在大陆，目前都无法使用 Apple 智能，直到 Apple 智能在中国大陆推出时才能激活。

此外，本次发布会着重提到，用户可以通过全系标配的「相机控制」按钮来启用视觉智能。

比如，当你看到一家餐厅，你可以通过按压「相机控制」拍下餐厅，然后就能通过 Apple 智能实时获得该餐厅的营业时间以及好评率，从而查看菜单或预订餐厅等。

更多具体信息欢迎回看 APPSO 此前文章：

iPhone 16 发布！苹果史上第一台 AI 手机，Apple 智能明年支持中文，最大惊喜是个按键

🔗 https://mp.weixin.qq.com/s/gpJap75PcFEkm1vClhJ2gw

🎬 快手可灵 AI 启动中国首个 AIGC 导演共创计划

9 月 9 日，快手宣布正式启动「可灵 AI」导演共创计划。

李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等 9 位知名导演，将依托可灵 AI 的技术能力，制作出品 9 部的 AIGC 电影短片。

9 部时长 3 分钟左右短片将全部由可灵 AI 进行视频生成，电影导演完全依托视频生成大模型，群体深度参与电影级内容创作。

这次依托国产视频生成大模型可灵 AI 进行电影级的内容共创，既是首个 AIGC 导演共创计划在国内正式落地，也将是李少红、贾樟柯等导演个人创作生涯中首次创作 AIGC 电影短片。

🔗 https://mp.weixin.qq.com/s/\_jkMb-7tDhd-lI4bP\_UUdw

🤖 Unitree G1 再整活

宇树科技又双叒叕整活了。

创始人兼 CTO 王兴兴罕见地在 X 平台分享了一段 Unitree G1 机器人的演示视频。

视频中的 Unitree G1 灵活得不像机器人，不仅能轻松地全身旋转，扭腰，甚至还巧妙地玩起了经典动作梗。

据悉，在性能参数上，Unitree G1 拥有 127 厘米的身高和 35 公斤的体重，其移动速度可达每秒 2 米。

Unitree G1 的关节数量在 23 到 43 个之间，具有超大关节运动角度空间，起售价为 9.9 万元。

🔗 https://x.com/WXX\_A\_/status/1834198288813412812

🎮 米哈游 AI 大模型「Glossa」完成备案

上海市互联网信息办公室于 9 月 9 日发布「上海市生成式人工智能服务已备案信息公告」。

根据公告，上海市新增 7 款已完成备案的生成式人工智能服务，累计已完成 41 款生成式人工智能服务备案。

备案名单显示，米哈游旗下子公司「上海米哈游秘法科技有限公司」的服务通过备案，模型名称为「Glossa」。

此前，米哈游创始人蔡浩宇曾在社交媒体上罕见发言，表示「AIGC 已经彻底改变了游戏开发」：

在未来，只有两类人在创造游戏方面才有意义。

一种是前 0.0001% 的人，一群最有洞察力的天才组成的精英团队，创造出前所未有的东西。

另一种是 99% 的业余爱好者，可以仅仅为了满足自己的想法而随心所欲去创造游戏。

🔗 https://mp.weixin.qq.com/s/DAPnNsiQo2DjkJvDUW78JA

Hunt for Tool｜先进工具

✅「欧洲版 OpenAI」发布首个多模态模型

没有任何预告，法国 AI 初创 Mistral AI 发布了旗下首个多模态模型。

这款模型名为 Pixtral 12B，拥有 120 亿个参数，大小约为 24GB，基于 Mistral 的文本模型 Nemo 12B 构建。

它能够回答与给定 URL 或 base64 编码图像相关的任意数量、任意大小的图片问题。

从网上流传的多项基准测试结果来看，Pixtral 12B 的性能几乎全面碾压了 Phi-3 vision、Qwen2-VL 7B、Claude 3 Haiku、LLaVA-OV 7B。

Mistral 开发者关系主管 Sophia Yang 透露，Pixtral 12B 很快将在 Mistral 的聊天机器人 Le Chat 和 API 服务平台上提供测试。

附上 Le Chat 体验地址：
https://chat.mistral.ai/chat

🔗 https://mp.weixin.qq.com/s/QO0s3uKi0P78BioO7S74GQ

💬 Android 版 Gemini Live 免费上线

发布一个月后，对标 GPT-4o 的 Gemini Live 开始向 Android 上的免费用户推出。

该功能允许自然对话并能随时打断响应，可在后台运行。结束对话后，文本记录将会保存在历史聊天记录里。

这项功能支持流畅的自然对话，用户可以随时打断讲话，而且可以在后台无缝运行。

Gemini Live 支持包括 Nova、Vega 在内的 10 种音色，暂不支持 Gemini 扩展访问 Gmail、YouTube Music 和其他应用程序，但该功能将在未来推出。

目前，Gemini Live 在设置为英语的 Android 设备上可用，未来将支持更多语言。

🔗 https://9to5google.com/2024/09/12/gemini-live-android-free-users/

📀 Adobe Firefly 视频模型测试版年底前推出

由生成式 AI 加强的 PR，教你一句话 P 视频。

Adobe 宣布将于今年年底前推出 Firefly 视频模型的测试版，届时用户可以在应用和独立网站上体验这一功能。

Adobe 在 2023 年 3 月首次推出了 Adobe Firefly，此后在成像、设计和矢量等方面进行了快速创新，其模型已用于 Creative Cloud 和 Express 中的一些热门功能。

官方宣称，该模型的设计考虑了创作者的权利，只在获得许可的内容上进行训练，编辑者可以放心使用。

Prompt: Cinematic closeup and detailed portrait of a reindeer in a snowy forest at sunset. The lighting is cinematic and gorgeous and soft and sun-kissed, with golden backlight and dreamy bokeh and lens flares. The color grade is cinematic and magical

据了解，Firefly 视频模型支持文本到视频功能，能够使用文本提示、相机控制和参考图像生成 B-Roll 来填补时间线中的空白。

Prompt: Slow-motion fiery volcanic landscape, with lava spewing out of craters. the camera flies through the lava and lava splatters onto the lens. The lighting is cinematic and moody. The color grade is cinematic, dramatic, and high-contrast.

此外，该模型还能够创建大气元素，如火焰和烟雾，以及 2D 和 3D 动画，并且可以将静态图像转换为生动的视频剪辑。

生成续帧功能则将于今年晚些时候在 Premiere Pro（测试版）中推出，支持可扩展剪辑以覆盖素材中的间隙、平滑过渡或延长镜头以实现完美编辑。

🔗 https://blog.adobe.com/en/publish/2024/09/11/bringing-gen-ai-to-video-adobe-firefly-video-model-coming-soon

👏 视频大模型 Vidu 上线「主体参照」新功能

视频抠图的苦，体会过的人都懂。

本周 Vidu 上新的「主体参照」的功能简直就是救命杀器：

支持真人、动物等不同类型的形象，多种画风，通过框选操作，明确主体部分不变，剩下的用 prompt 进行生成，就大功告成。

在媒体会上，生数科技 CEO 唐家渝表示，「作为一个技术厂商，要更多地走向创作者，走向行业，走向应用。」

体验指路👉🏻：www.vidu.studio

更多具体评测欢迎回看 APPSO 此前文章：

告别抠图，Vidu 发布重大更新，一键实现主体迁移

🔗 https://mp.weixin.qq.com/s/MzLPY6nURyLnwKmsPgRUtw

🤯 Gen-3 Alpha 功能再上新

本周，Runway Gen-3 Alpha 上线了 Video to Video 功能。

用户只需上传视频，并提供特定的提示词或选择预设样式，系统就能根据这些信息生成全新的视频内容。

官方表示，Video to Video 引入了一种全新的控制方式，能够让视频呈现更加精确的动作、出色的表现力，以及明确的创作意图。

该功能现已在网页端面向所有付费用户开放。

🔗 https://x.com/runwayml/status/1834711758335779300

📹 阿里通义即将发布 AI 视频生成模型：支持文本、图片生成

多家媒体报道称，阿里通义将在 2024 年云栖大会（9 月 19 日至 21 日）发布视频生成大模型，目前通义万相官网已上线「视频生成」入口，开放用户预约。

根据介绍，用户可以从通义万相 PC 端或 App，通过文字描述或图像控制生成视频：

输入文字控制画面内容与变化过程，配合提示词智能扩写功能

将图片作为视频首帧延续生成，生成更可控，画面更精准

特色功能方面，通义视频生成将支持运动生成、复杂语义理解和概念组合生成等能力。艺术风格方面，支持勾线动画、国漫 3D、毛毡动画、CG 厚涂、3D 动画等风格，以及国风画风和元素的呈现。

附上预约地址：
https://tongyi.aliyun.com/wanxiang/wanxvideo?autoReservation=true

Hunt for Fun｜先行

😄 用 AI 鲁迅把国足、调休犀利吐槽了个遍

最近一段 Prompt 在网上火得一塌糊涂。

将 Prompt 输入 Claude Sonnet 模型之后，它就能将一个寻常词汇剖析得淋漓尽致。

辛辣犀利的文笔，一针见血的讽刺，活脱脱鲁迅林语堂的文风，骂人都不带一个脏字。

先来看看具体的效果。

谁都以为 02 年闯入世界杯是个起点，却没想到 20 多年前的那一幕，却是渐行渐远的巅峰。

「让亿万观众体验从希望到绝望的过山车」，AI 的点评实至名归。

对于调休，它精准地形容道：「把本该属于你的假期，变成一场精心编排的工作马拉松。」

非广，纯推荐，随机附上一些网页体验地址：

https://www.textcard.net/

https://vectorvein.com/public/v-app/6c1e679554204237ab732c32365aa6fc?key=8e5057b8757f43c3ab066db79e6fbbf8

具体体验欢迎回看 APPSO 此前文章：

我用全网疯传的「汉语新解」Prompt，让 AI 鲁迅把国足、调休犀利吐槽了个遍

Hunt for Insight | 先知

🧐 黄仁勋：AI 芯片热潮将持续，所有人都在指望英伟达

在近日的高盛 Communacopia 技术会议上，英伟达 CEO 黄仁勋发表了演讲，谈及对 AI 芯片未来发展的观点。

黄仁勋表示， AI 芯片正在成为科技界最热门的商品，有限的供应量引发了激烈的争夺。

再次谈及「摩尔定律」，黄仁勋认为随着传统 CPU 效率提升速度的减缓，该定律「已接近终结」，市场将会看到数据计算成本的飙升，而加速计算带来了巨大的成本节约。

黄仁勋也声称，虽然合作伙伴台积电在芯片代工方面具有巨大的优势，但是如果有必要，英伟达可以「随时把订单转给其他供应商」。

黄仁勋强调，英伟达将在今年第四季度量产最新芯片 Blackwell 并扩大产能，明年继续扩产。

「我们肩上负有许多人的责任，每个人都指望着我们。」黄仁勋表示，「所以少睡点没关系，我们只需要三小时就够了」

🔗 https://www.reddit.com/r/NvidiaStock/comments/1fev2u8/jensen_huang_speaking_at_goldman_sachs/

🤯 月之暗面创始人杨植麟：AI 时代的超级应用，大概率会是一个 AI 助理

昨日，月之暗面创始人杨植麟在天津大学宣怀学院分享了一些对 AI 行业发展的思考。

杨植麟认为，大模型的发展从集中在垂直领域的 AI 到通用智能的转变，是由互联网提供大量数据、计算技术的进步以及 Transformer 结构的提出共同推动的。

在他看来，OpenAI o1 模型通过强化学习试图突破数据墙，提高计算效率，并预测 AI 产品能力将更多依赖于模型能力而非互联网时代的产品逻辑。

杨植麟还提出了 AGI 的三层挑战，包括规模化定律、多模态整合与数据墙问题，以及推理能力的提升。

他强调，AI 时代的超级应用可能是一个 AI 助理，且 AI 的商业模型将随着智能成本的降低而更加可行。

🔗 https://mp.weixin.qq.com/s/ZYIHoSUoTH4wd3d5Z2zmeQ

📈 百度李彦宏：未来大模型之间的差距将拉大

界面新闻获悉百度 CEO 李彦宏的一次内部讲话内容，谈到了业界对于大模型的认识误区，涵盖大模型竞争、开源模型效率、智能体趋势等。

李彦宏认为，未来大模型之间的差距可能会越来越大，模型的天花板很高，现在距离理想情况还相差非常远，所以模型要不断快速迭代、更新和升级；需要能几年、十几年如一日地投入，不断满足用户需求，降本增效。

不同的模型之间差距不是越来越小，是会越来越大的，只是他们不知道真实需求的时候，只去做测试集的题可能会觉得差不多。

李彦宏指出，模型之间的差距是多维度的，一个维度是「能力」方面：理解能力、生成能力、逻辑推理能力、记忆能力等；另一个维度是「成本」方面：想具备这个能力或者想回答这些问题，付出的成本是多少。

他还强调，模型除了能力或效果之外还要看效率，从效率上看，开源模型是不行的。

并且他认为，智能体是大模型最重要的发展方向，但是到今天为止，智能体还不是共识。「像百度这样把智能体作为大模型最重要的战略、最重要的发展方向的公司并不多。」

🔋 Sam Altman：未来的两大基础性资源将是智能和能源

近日，OpenAI 创始人 Sam Altman 回到母校圣路易斯市的约翰・伯勒斯学校演讲并接受采访。

针对近期发布的 OpenAI o1 模型，Altman 表示它可能改变编程的本质，使程序员更高效地完成复杂任务，还可能助力科学研究，比如有望加快疾病治疗研究和新材料发现。

Altman 指出既然每周八小时工作制难以实现，不如用 AI 改变工作本质，让未来工作更像爱好、艺术或自我表达。

当谈及验证 AI 内容真实性的保障措施时， Altman 表示可在水印技术和工具生成的内容上采取措施，但不执行保障措施的服务生成的内容会很普遍。

类似于「免疫系统」，他希望世界能像 Photoshop 刚出现时那样，人们不再完全相信网上内容，而是更加怀疑和谨慎。

此外，在他看来，AI 的发展不仅没有放缓，而且对未来几年「胜券在握」。他提到，未来的两大基础性资源将是智能和能源，智能创造思想完成智力任务，能源让任务在现实世界中实现。

🔗 https://www.stlpr.org/show/st-louis-on-the-air/2024-09-13/sam-altman-chatgpt-openai-o1-st-louis

彩蛋时间

🍚《食侠》

作者：@kooods

工具：Midjourney v6.1

Prompt：Iron Man, in the rain, cooking on the streets of China

链接：https://www.midjourney.com/jobs/02a7bf0a-e45e-4448-9ae6-d41613d7b2b6?index=0