专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

五分钟看完谷歌凌晨发布：叫板 GPT-4o 语音能力，重新定义手机；OpenAI 推出全新测试集 | AI头条

AI科技大本营 · 公众号 · · 2024-08-14 11:06

正文

整理 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

一分钟速览新闻点！

五分钟看完 Made by Google 2024 发布会！
Andrej Karpathy 最新文章：《使用特殊 tokens 对 LLM 进行类似 SQL 注入的攻击》
OpenAI 推出全新测试集 SWE-bench Verified
Sakana AI 发布能独立科研的“AI 科学家”
社区预热 Grok 2.0 功能前瞻
AI 初创公司发布“全球最强” AI 编程助手 Genie，击败 Devin 和 GPT-4
金融时报：有一半的求职者在使用 AI 生成的简历

五分钟看完 Made by Google 2024 发布会！

北京时间 8 月 14 日凌晨 1 点（即太平洋时间 8 月 13 日上午 10 点），Google 在其第九届 Made by Google 发布会上，展示了如何通过其最新的 Gemini AI 平台、Android 操作系统以及 Pixel 产品线将最佳的人工智能技术带给更多用户和更多智能手机。

Google 坚信，当 AI 技术融入人们随身携带的设备中时，能够极大地提升日常生活的生产力，开启新的学习方式，并创造更多表达自我的途径。在这次活动中，Google 详细介绍了针对 Gemini AI 平台和 Android 操作系统的更新，并展示了如何将这些新功能引入最新的 Pixel 设备，包括全新的 Pixel 9 系列手机、Pixel 9 Pro Fold 折叠屏手机、Pixel Watch 3 智能手表以及 Pixel Buds Pro 2 真无线耳机。

发布会开始前，先是致敬了“谷歌之母” Susan Wojcicki ，R. I. P.

详情阅读： 《从房东到谷歌第16号员工再到YouTube CEO，56岁“谷歌之母”因病去世》

重磅发布 Gemini Live：OpenAI 大危机！

发布会上，谷歌重磅推出了 Gemini Live 服务，该服务首先向使用英语的 Gemini Advanced 订阅用户开放。Gemini Live 类似 ChatGPT 高级语音模式 ，提供了一种移动对话体验，用户可以与 Gemini 进行自由流畅的对话。该服务采用了增强型语音引擎，能够进行更连贯、更有情感表达力、更逼真的多轮对话。

用户可以在聊天机器人说话时打断它，提出后续问题，聊天机器人会实时适应用户的说话模式。Gemini Live 还允许用户从 10 种新的自然声音中选择回应声音，并可以按照自己的节奏说话，或在回答中途打断并提出澄清性问题。不过，目前 Gemini Live 还不支持多模态输入，该功能预计将在今年晚些时候推出。

现场演示翻车了两次，场面一度十分尴尬

随着与 Android 的深度集成，它不仅可以读取屏幕，还可以与多应用程序集成进行联动。谷歌表示，未来 Gemini Live 能通过摄像头与用户进行交流，不仅能理解用户语言，还能理解用户意图。

布局 Android AI 生态，对抗苹果战线

Gemini 为 Android 构建了深度集成，它不仅可以读取屏幕，还可以与用户已经使用的许多应用程序互动。例如，用户可以将 Gemini 生成的图像直接拖放到 Gmail 和 Google Messages 等应用中。 Gemini 专为 Android 打造 ，支持 200 多个国家和地区的 45 种语言，并支持数十亿台设备，这意味着它是迄今为止世界上使用最广泛的 AI 助手。

Gemini Live 还将 与多种 Google 应用（如 Keep、Tasks、Utilities 和 YouTube Music）深度集成 。这使得 Gemini 可以在多个应用中随意调用进行联动。帮助用户更好地完成日常任务，比如从邮件中提取信息并添加到购物清单，或者创建特定主题的播放列表等。

Pixel 9：首款搭载 Gemini Nano 的手机

谷歌发布了首批 Gemini AI 加持的旗舰智能手机 Pixel——Pixel 9 系列。谷歌 Pixel 9 系列一共有 3 款全面屏手机—— Pixel 9 、 Pixel 9 Pro 和 Pixel 9 Pro X L ，以及一款折叠屏手机 Pixel 9 Pro Fold 。所有新手机全部搭载谷歌自研 Tensor G4 芯片，差距主要来自不同的硬件配置的排列组合。售价方面，Pixel 9 价格为 799 美元（约合人民币 5717 元）起步，而 Pixel 9 Pro 和 Pixel 9 Pro XL 的起售价分别为 999 美元和 1099 美元。作为谷歌第二款折叠屏手机，Pixel 9 Pro Fold 的起售价达到 1799 美元。

据称， Pixel 9 内置的 AI 模型比谷歌去年推出的模型功能强大 3 倍，复杂程度也高 3 倍。借助与 DeepMind 共同设计的 Google Tensor G4 芯片， Pixel 9 可以产生高达每秒 45 个 tokens 的移动输出率，达到业界领先水平。该芯片专为 Gemini 等先进 AI、高精度的照片和视频以及全天候智能助手而打造。

AI 手机具体都能做什么？

本次发布会重点强调了「 重新定义手机的用法 」。在硬件方面，谷歌提升了 Pixel 9 全系列的运行内存容量，以适应内存需求巨大的设备内置 AI。Pixel 9 配备 12GB RAM，其余机型将配备 16GB RAM。

但更重要的方面是软件——这些手机都配备了一些新的 Pixel 独有的 AI 功能，尤其是购买 Pixel 9 Pro 手机的用户还将获得一年的 Google One AI Premium 服务，该服务可访问谷歌的高级 AI 模型 Gemini Advanced。

下面简短介绍下，包括新款升级以及全新的 Pixel Watch 3 智能手表、Pixel Buds Pro 2 真无线耳机在内，这些 AI 硬件究竟有哪些“ 黑科技 ”：

Pixel Screenshots ：允许用户通过手动截图记录重要信息，并能通过会话式搜索找回这些信息。
Gemini 理解屏幕 ：Gemini 现在能够根据手机屏幕上显示的内容进行响应，比如从 YouTube 旅行视频中提取餐厅列表并添加到 Google Maps。
更快更好的 Gemini 助手 ： Gemini 更新至更快更精准的新版本，支持从多个应用中获取信息或执行操作。
Pixel Buds Pro 2 实时对话 ： Pixel Buds Pro 2 耳机用户可以通过轻触并按住耳机与 Gemini 进行实时对话。
Magic Editor ：允许用户通过文本提示重新构想照片，包括替换天空或其他背景元素。
Add Me ： Pixel 9 相机新增功能，可以轻松拍摄合照。先让摄影师进行拍照，随后摄影师与一人交换位置拍照，即可将自己加入照片中。

Pixel Studio ：支持基于文本提示创建插图的应用。
Circle to Search 分享： Circle to Search 功能增加了分享选项，可直接分享屏幕或图片的部分区域。
AI 天气总结 ：推出 AI 驱动的 Pixel Weather 应用，提供定制化的天气报告。
Call Notes ：可在通话结束后生成通话摘要，并且所有通话内容不会上传至云端。
Pixel Watch 3 ：新款智能手表具备“脉搏消失”检测功能，当检测到佩戴者心率降至 0 或处于危及生命水平时，自动呼叫紧急服务。此功能首先在欧盟和英国推出。

全新发布 Pixel Studio

谷歌还推出了新图像生成应用 Pixel Studio，该应用能基于 Imagen 3 模型生成艺术风格图片，将预装在 Pixel 9 系列手机上。生成时间不超过 2 秒。此外，用户还可以通过调用 Gemini 在云端生成更优质的内容，并可直接拖放至电子邮件或聊天中。此应用与苹果新发布的 iPhone 人工智能图像生成器 Image Playground 形成竞争。

国内外 AI 要闻

OpenAI 推出全新测试集 SWE-bench Verified

OpenAI 发布 SWE-bench Verified，这是 SWE-bench 的一个经过人工验证的子集，用于更可靠地评估 AI 模型解决现实世界软件问题的能力。SWE-bench 是一个基准测试，用于评估大语言模型（LLMs）解决来自 GitHub 的现实世界软件问题的能力。SWE-bench Verified 通过人工注释筛选出 500 个样本，以确保问题描述明确且单元测试适当。GPT-4o 在 SWE-bench Verifie d 上的表现达到了 33.2%，比原始 SWE-bench 上的表现显著提高。

Sakana AI 发布能独立科研的“AI 科学家”

日本 Sakana AI 团队近期发布了一项突破性技术——AI科学家（AI Scientist），该系统能够独立完成科学研究的全过程，包括想法生成、实验迭代、论文撰写以及自动化论文评审。在想法生成阶段，AI 科学家基于给定的模板进行头脑风暴，探索新的研究方向，并确保其原创性。随后，在实验迭代过程中，系统执行实验、生成可视化图表并记录实验细节。到了论文撰写环节，AI 科学家采用 LaTeX 编写格式化的学术论文，并通过 Semantic Scholar 自动引用相关文献。最后，借助于大语言模型驱动的自动评审系统对论文进行评估，形成反馈闭环以不断优化研究成果。这一系统已成功生成一篇题为《自适应双尺度去噪》的论文，并达到了顶级机器学习会议“弱接受”的评价标准，尽管仍存在一些不足之处，但这标志着人工智能在科学研究领域的应用迈出了重要一步。

社区预热 Grok 2.0 功能前瞻

近日，特斯拉 CEO 埃隆·马斯克近日在社交媒体平台 X 上发布重磅消息，宣布 xAI 公司旗下新一代人工智能模型 Grok 2 测试版即将发布。随后，社交媒体上出现了关于 Grok 2.0 的讨论热潮，并有人抢先爆料了下一代 Grok 的信息。根据最新的爆料，Grok 2.0 在编程、写作和新闻生成方面将有显著提升。更引人注目的是，它将利用 FLUX.1 模型生成图像，这一功能无疑将为用户带来全新的体验。

AI 初创公司发布“全球最强” AI 编程助手 Genie，击败 Devin 和 GPT-4

AI 初创公司 Cosine 宣布，他们已经打造出世界上最强的 AI 编程助手 Genie，并在权威榜单 SWE-Bench 中获得了 30.08% 的好成绩，超过了 Devin 和 GPT-4。Cosine 表示，Genie 可以完全自主地与用户进行沟通，并完成解决 Bug、构建功能、重构代码等任务。Cosine 采用特殊数据集和自我改进机制，使 Genie 在复杂编码中表现出色。目前 Genie 已开放申请试用，未来将推出更多惊

五分钟看完谷歌凌晨发布：叫板 GPT-4o 语音能力，重新定义手机；OpenAI 推出全新测试集 | AI头条

正文

请到「今天看啥」查看全文