7月8日 AI 头条｜苹果 Apple Intelligence 功能或将在明年春季上线

硅星GenAI · 公众号 · · 2024-07-08 23:36

正文

划重点:

苹果 Apple Intelligence 功能或将在明年春季上线
月之暗面推出 Kimi 浏览器插件，增加多项新功能
快手可灵 AI 网页端上线，所有功能限时免费
谷歌Deepmind发布新技术，AI 训练效果提升13倍
阿里达摩院推出 AI 视频制作工具寻光
X 或将推出多项 AI 功能，基于 Grok 模型构建
Youtube 更新 Erase Song 工具，可针对版权作品进行删除
WhatsAPP 测试新功能，增强 AI 图片处理能力
阿里通义音频生成大模型 FunAudioLLM 开源支持情绪语音对话、有声读物等场景

资讯详情：

苹果 Apple Intelligence 功能或将在明年春季上线

据 The Verge 报道，Mark Gurman 表示苹果或将会在2025 年春季发布的 iOS 18.4 版本中向所有用户提供 Apple Intelligence 人工智能系统。

届时苹果将会带来更智能的Siri 系统，并为用户带来更全面的 AI 功能体验。而在此之前，苹果将会在今年秋季推出部分 AI 功能，包括整合 ChatGPT 接口、全新 Siri UI 等等。苹果官方并未明确公布 Apple Intelligence的上线时间，只表示 AI 功能将于明年推出。

月之暗面推出 Kimi 浏览器插件，增加多项新功能

据月之暗面官方消息，月之暗面推出 Kimi 浏览器插件，并未网页用户带来多项新功能。

Kimi 浏览器插件目前推出了两项新功能，一个是点问笔，可以在划选文字后出现，Kimi 插件会在理解上下文的基础上，结合具体场景，帮你更好理解一个术语、一个名字、一句话；而不是简单地搜索和重组信息。领一个功能则是总结器，他可以帮助用户快速总结当前网页全文内容，答疑解惑。Kimi 浏览器插件支持全局浮窗和侧边栏模式，适合在写作时持续对话和搜索。

快手可灵 AI 网页端上线，所有功能限时免费

据快手官方消息，快手旗下视频生成大模型工具可灵网页端现已上线，用户可以申请试用。

目前可灵网页端所有功能限时免费开放，用户可以利用文生视频功能生成10秒左右的视频，也可以利用图生视频功能创造新的视频。另外，可灵还为图生视频功能增加了运镜控制、自定义首尾帧等功能。

谷歌Deepmind发布新技术，AI 训练效果提升13倍

据 Toms hardware 报道，谷歌 DeepMind近日发布了发布了关于训练人工智能模型的最新研究成果。

谷歌这项新技术被称为 JEST，是一种全新的 AI 训练方法，与其他方法相比，模型性能提高了 13 倍，能效提高了 10 倍。JEST 方法首先创建一个较小的人工智能模型，对来自极高质量来源的数据进行质量分级，按质量对批次数据进行排序。然后，它将该分级与更大的、质量较低的数据集进行比较。小型 JEST 模型确定最适合训练的批次，然后根据小型模型的结果训练大型模型。

阿里达摩院推出 AI 视频制作工具寻光

据阿里巴巴官方消息，阿里巴巴达摩院在 WAIC 推出了一站式 AI 视频平台寻光，可以帮助用户快速完成视频创作全过程。

据悉，寻光集成了剧本创作、分镜设计、视频素材编辑等关键步骤，可以利用 AI 技术意见创建分镜故事版，还能够为视频创作者利用 AI 制作专属演员。寻光还能够利用AI 根据用户想法生成具备一致性的角色和场景画面，再利用运镜控制、运动编辑创作影片。

X 或将推出多项 AI 功能，基于 Grok 模型构建

据 X用户 Nima Owji 爆料，X 将会在推出多想给予 Grok 模型开发的 AI 功能，为用户带来更多 AI 功能体验。

据悉，X 将会为付费用户提供Grok 侧边栏功能，在给用户提供和 Grok 聊天机器人交流的同时让用户可以更方便的使用相关功能。X还将会针对用户的账户内容进行总结，并提供文本搜索功能。

Youtube 更新 Erase Song 工具，可针对版权作品进行删除

据 9to5Google 报道，Youtbe 为创作者提供了一个改进工具"Erase Song"，它可以在不影响视频中其他音频的情况下删除受版权保护的歌曲。

Erase Song使用人工智能来删除视频中的歌曲，但不会删除创作者的对话或其他声音。Youtube 表示，Erase Song 出现在仅与音频有关的视频中。除了删除歌曲外，该工具还可以将视频中受版权要求影响的特定部分的音频全部静音。

未来几周，Erase Song 将在台式机和移动设备的 YouTube Studio 上推出。

WhatsAPP 测试新功能，增强 AI 图片处理能力

据 WABetaInfo 报道，Meta 宣布ndroid 版 WhatsApp 的一个新测试版本允许用户向 Meta AI 发送照片，让用户可以通过 WhatsApp 处理图片。

据悉，新功能允许用户就自己的照片提出问题，包括识别对象或提供上下文。Meta AI 还将提供对照片进行修改的功能，用户可以通过分享提示在聊天中直接编辑图片。值得注意的是，用户可以随时删除照片，从而保持对照片的完全控制。

阿里通义音频生成大模型 FunAudioLLM 开源支持情绪语音对话、有声读物等场景

据阿里通义实验室消息，音频生成大模型项目FunAudioLLM 现已开源。该项目由两个核心模型SenseVoice和CosyVoice组成。

CosyVoice 专注于自然语音生成，具备多语言支持、音色和情感控制功能，在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行方面表现出色。它通过15万小时数据训练，支持中英日粤韩五种语言，能够快速模拟音色并提供情感和韵律的细粒度控制。

SenseVoice 则致力于高精度多语言语音识别、情感辨识和音频事件检测。它经过40万小时数据训练，支持超过50种语言，识别效果优于Whisper模型，尤其在中文和粤语上提升超过50%。SenseVoice还具备情感识别和声音事件检测能力，以及快速的推理速度。

今日重点论文：

谷歌：

7月8日 AI 头条｜苹果 Apple Intelligence 功能或将在明年春季上线

正文

请到「今天看啥」查看全文