8月7日 AI 头条｜苹果 Apple Intelligence 智能回复功能加入反幻觉指令

硅星GenAI · 公众号 · · 2024-08-07 18:59

正文

划重点:

苹果 Apple Intelligence 智能回复功能加入反幻觉指令
面壁智能宣布开源 MiniCPM-V 2.6 模型，端侧能力全面对标 GPT-4V
新一代人形机器人Figure 02登场，内置定制大模型
亚马逊音乐推出AI驱动的主题功能用来推荐播客
月之暗面 Kimi 上下文缓存 Cache 存储费用降价 50%
阿里通义 App 推出“角色扮演”功能，可将视频人物换成“孙悟空”“机器人”
腾讯元宝上线长文精读，助力专业阅读提效
Canva 可画发布一站式 AI 创作套件魔力工作室

资讯详情：

苹果 Apple Intelligence 智能回复功能加入反幻觉指令

据 9to5mac 报道，据一位 Reddit 用户表示，他在macOS 测试版中发现了内置的苹果智能提示，其中一条显示，苹果为智能回复功能增加了反幻觉指令。

该指令主要为智能回复功能提供，该功能可帮助用户利用AI 技术自动生成回复，帮助用户回复电子邮件和信息等。而根据泄露的指令来看，苹果为了不让回答出现幻觉问题，给该功能加了不少限制，比如仅提取邮件中明确提出的问题，并提供相应的回答选项。此外，如果邮件中没有问题，则输出空列表。只输出有效的 json 内容，不输出其他内容。

苹果目前尚未对此事发表回应。

面壁智能宣布开源 MiniCPM-V 2.6 模型，端侧能力全面对标 GPT-4V

据面壁智能官方消息，面壁智能近日开源 MiniCPM-V 2.6 模型，该模型仅有8B参数，但端侧AI多模态能力全面对标 GPT-4V 水平。

据面壁智能表示，MiniCPM-V 2.6 模型将实时视频理解、多图联合理解、多图 ICL 等能力首次搬上端侧多模态模型，更接近充斥着复杂、模糊、连续实时视觉信息的多模态真实世界，更能充分发挥端侧 AI 传感器富集、贴近用户的优势。

目前该模型已经在 Github 以及 HuggingFace 上开源。

新一代人形机器人Figure 02登场，内置定制大模型

机器人开发公司figure 今天凌晨正式发布其最新版的仿真人形机器人 Figure 02，这是 2023 年发布的 Figure 01 机器人的后续产品。

据Figure AI称，此次工程和设计团队“从零开始完成了硬件和软件的重新设计”，在人工智能、计算机视觉、电池、电子设备、传感器和执行器等关键技术上取得了重大突破。Figure 02 延续上一代，可以通过内置麦克风和扬声器与人类进行语音对话。这一核心功能依托于与OpenAI合作训练的定制AI模型，能够理解、处理并回应人类的语音输入。机器人以语音作为默认操作界面，意味着用户可以像跟人交谈一样自然地与Figure 02互动，而无需依赖传统的按钮或屏幕界面。

此外，Figure 02机载CPU / GPU的计算和AI推理能力是上一代产品的3倍。这一重大提升使其能够完全自主地执行现实世界中的AI任务，而无需依赖外部资源。

亚马逊音乐推出AI驱动的主题功能用来推荐播客

据 The Verge 报道，亚马逊音乐于当地时间星期二宣布推出一项由 AI 驱动的新功能 Topics，他可以为用户推荐合适的播客。

在分析播客转录和描述以确定关键主题后，人工智能会在人工审核员的帮助下生成一个 "话题 "标签按钮。在每集描述下方，点击任何标签都会生成与该主题相关的播客剧集列表。

目前，该功能只适用于使用 iOS 或 Android 上最新版亚马逊音乐手机应用程序的美国用户。

月之暗面 Kimi 上下文缓存 Cache 存储费用降价 50%

月之暗面今日宣布，Kimi 开放平台的上下文缓存 Cache 存储费用降价 50%，Cache 存储费用由 10 元 / 1M tokens / min 降低至 5 元 / 1M tokens / min，即日起生效。

7 月 1 日，Kimi 开放平台上下文缓存（Context Caching）功能开启公测。官方表示，该技术在 API 价格不变的前提下，可为开发者降低最高 90% 的长文本旗舰大模型使用成本，并提升模型响应速度。

上下文缓存是一种数据管理技术，允许系统预先存储会被频繁请求的大量数据或信息。当用户请求相同信息时，系统可以直接从缓存中提供，无需重新计算或从原始数据源中检索。

阿里通义 App 推出“角色扮演”功能，可将视频人物换成“孙悟空”“机器人”

通义 App 上线新功能“角色扮演”，用户只需要上传一段视频即可完成“现实与虚拟”的跨界，实现诸如机器人带娃、孙悟空跳舞、二次元女生职场搬砖的效果。

据悉，用户准备一段不超过 15 秒的视频，通过“通义 App > 频道 > 角色扮演 > 开始创作”的顺序进入功能入口，用户也可以在官方提供的视频模板中选择视频，最多可替换视频中的3 个角色。可选角色方面，官方提供了孙悟空、机器人及两款不同风格的女性角色供用户选择。

角色扮演功能背后的核心技术是通义实验室研发的 AI 模型 Motionshop。其支持在不改变周边场景的情况下，利用视频处理、角色跟踪 / 分割、姿态估计、路径追踪渲染等多种技术，使动态视频中的主角“跨越现实与虚拟的界限”。

腾讯元宝上线长文精读，助力专业阅读提效

腾讯元宝官方今天宣布，正式上线长文精度模式。

当用户上传论文、财报、研报等专业内容的 URL 链接或文件，除获得文字概括总结外，还可进入深度阅读模式，对长文进行精读。该模式可提供核心内容概览及模块化解析，生成总结性图表，辅助用户快速理解关键信息。

腾讯元宝的深度阅读模式可原生支持最长近50万字的输入，能够在理解专业内容的基础上，生成图文并茂的内容，不仅可以引用输入内容的原图，还能通过代码绘制高阶的分析图。

Canva 可画发布一站式 AI 创作套件魔力工作室

据新华网报道，在线视觉传播和协作平台Canva可画宣布其一站式AI创作套件魔力工作室在中国正式上线。

该套件号称“人人可用的一站式 AI 创作套件”，功能包括基于 AIGC 的文案生成、图片生成、花字特效生成、图片编辑、转场动画设计生成等。用户仅需输入简单的文字描述，即可快速生成图片插画、花字特效和演示文稿等等。此外，该套件内置“魔力橡皮擦”“魔力抓取”，用户可去除图片中的指定元素或提取、移动图片主体。

据可画官网显示，该套件中的多项功能需要高级会员才可解锁，不过用户可以免费试用一定次数。

今日重点论文：

8月7日 AI 头条｜苹果 Apple Intelligence 智能回复功能加入反幻觉指令

正文

请到「今天看啥」查看全文