专栏名称: 硅星GenAI
比一部分人更先进入GenAI。
目录
相关文章推荐
深圳商务  ·  春节假期,深圳外贸“欣欣向荣” ·  昨天  
深圳商务  ·  春节假期,深圳外贸“欣欣向荣” ·  昨天  
Alisha全球出海日记  ·  2025阿根廷跨境贸易实战指南 ·  3 天前  
云南省人民政府  ·  我省开展2024年推进外贸稳进提质政策项目申 ... ·  4 天前  
进出口财税通  ·  deepseek:2025年出口退税稽查新动向 ·  4 天前  
51好读  ›  专栏  ›  硅星GenAI

8月7日 AI 头条|苹果 Apple Intelligence 智能回复功能加入反幻觉指令

硅星GenAI  · 公众号  ·  · 2024-08-07 18:59

正文

划重点:
  • 苹果 Apple Intelligence 智能回复功能加入反幻觉指令

  • 面壁智能宣布开源 MiniCPM-V 2.6 模型,端侧能力全面对标 GPT-4V

  • 新一代人形机器人Figure 02登场,内置定制大模型

  • 亚马逊音乐推出AI驱动的主题功能 用来推荐播客

  • 月之暗面 Kimi 上下文缓存 Cache 存储费用降价 50%

  • 阿里通义 App 推出“角色扮演”功能,可将视频人物换成“孙悟空”“机器人”

  • 腾讯元宝上线长文精读,助力专业阅读提效

  • Canva 可画发布一站式 AI 创作套件魔力工作室

资讯详情:
苹果 Apple Intelligence 智能回复功能加入反幻觉指令
据 9to5mac 报道,据一位 Reddit 用户表示,他在macOS 测试版中发现了内置的苹果智能提示,其中一条显示,苹果为智能回复功能增加了反幻觉指令。
该指令主要为智能回复功能提供,该功能可帮助用户利用AI 技术自动生成回复,帮助用户回复电子邮件和信息等。而根据泄露的指令来看,苹果为了不让回答出现幻觉问题,给该功能加了不少限制,比如仅提取邮件中明确提出的问题,并提供相应的回答选项。此外,如果邮件中没有问题,则输出空列表。只输出有效的 json 内容,不输出其他内容。
苹果目前尚未对此事发表回应。
面壁智能宣布开源 MiniCPM-V 2.6 模型,端侧能力全面对标 GPT-4V
据面壁智能官方消息,面壁智能近日开源 MiniCPM-V 2.6 模型,该模型仅有8B参数,但端侧AI多模态能力全面对标 GPT-4V 水平。
据面壁智能表示,MiniCPM-V 2.6 模型将实时视频理解、多图联合理解、多图 ICL 等能力首次搬上端侧多模态模型,更接近充斥着复杂、模糊、连续实时视觉信息的多模态真实世界,更能充分发挥端侧 AI 传感器富集、贴近用户的优势。
目前该模型已经在 Github 以及 HuggingFace 上开源。
新一代人形机器人Figure 02登场,内置定制大模型
机器人开发公司figure 今天凌晨正式发布其最新版的仿真人形机器人 Figure 02,这是 2023 年发布的 Figure 01 机器人的后续产品。
据Figure AI称,此次工程和设计团队“从零开始完成了硬件和软件的重新设计”,在人工智能、计算机视觉、电池、电子设备、传感器和执行器等关键技术上取得了重大突破。Figure 02 延续上一代,可以通过内置麦克风和扬声器与人类进行语音对话。这一核心功能依托于与OpenAI合作训练的定制AI模型,能够理解、处理并回应人类的语音输入。机器人以语音作为默认操作界面,意味着用户可以像跟人交谈一样自然地与Figure 02互动,而无需依赖传统的按钮或屏幕界面。
此外,Figure 02机载CPU / GPU的计算和AI推理能力是上一代产品的3倍。这一重大提升使其能够完全自主地执行现实世界中的AI任务,而无需依赖外部资源。
亚马逊音乐推出AI驱动的主题功能 用来推荐播客
据 The Verge 报道,亚马逊音乐于当地时间星期二宣布推出一项由 AI 驱动的新功能 Topics,他可以为用户推荐合适的播客。
在分析播客转录和描述以确定关键主题后,人工智能会在人工审核员的帮助下生成一个 "话题 "标签按钮。在每集描述下方,点击任何标签都会生成与该主题相关的播客剧集列表。
目前,该功能只适用于使用 iOS 或 Android 上最新版亚马逊音乐手机应用程序的美国用户。
月之暗面 Kimi 上下文缓存 Cache 存储费用降价 50%
月之暗面今日宣布,Kimi 开放平台的上下文缓存 Cache 存储费用降价 50%,Cache 存储费用由 10 元 / 1M tokens / min 降低至 5 元 / 1M tokens / min,即日起生效。
7 月 1 日,Kimi 开放平台上下文缓存(Context Caching)功能开启公测。官方表示,该技术在 API 价格不变的前提下,可为开发者降低最高 90% 的长文本旗舰大模型使用成本,并提升模型响应速度。
上下文缓存是一种数据管理技术,允许系统预先存储会被频繁请求的大量数据或信息。当用户请求相同信息时,系统可以直接从缓存中提供,无需重新计算或从原始数据源中检索。
阿里通义 App 推出“角色扮演”功能,可将视频人物换成“孙悟空”“机器人”
通义 App 上线新功能“角色扮演”,用户只需要上传一段视频即可完成“现实与虚拟”的跨界,实现诸如机器人带娃、孙悟空跳舞、二次元女生职场搬砖的效果。
据悉,用户准备一段不超过 15 秒的视频,通过“通义 App > 频道 > 角色扮演 > 开始创作”的顺序进入功能入口,用户也可以在官方提供的视频模板中选择视频,最多可替换视频中的3 个角色。可选角色方面,官方提供了孙悟空、机器人及两款不同风格的女性角色供用户选择。
角色扮演功能背后的核心技术是通义实验室研发的 AI 模型 Motionshop。其支持在不改变周边场景的情况下,利用视频处理、角色跟踪 / 分割、姿态估计、路径追踪渲染等多种技术,使动态视频中的主角“跨越现实与虚拟的界限”。
腾讯元宝上线长文精读,助力专业阅读提效
腾讯元宝官方今天宣布,正式上线长文精度模式。
当用户上传论文、财报、研报等专业内容的 URL 链接或文件,除获得文字概括总结外,还可进入深度阅读模式,对长文进行精读。该模式可提供核心内容概览及模块化解析,生成总结性图表,辅助用户快速理解关键信息。
腾讯元宝的深度阅读模式可原生支持最长近50万字的输入,能够在理解专业内容的基础上,生成图文并茂的内容,不仅可以引用输入内容的原图,还能通过代码绘制高阶的分析图。
Canva 可画发布一站式 AI 创作套件魔力工作室
据新华网报道,在线视觉传播和协作平台Canva可画宣布其一站式AI创作套件魔力工作室在中国正式上线。
该套件号称“人人可用的一站式 AI 创作套件”,功能包括基于 AIGC 的文案生成、图片生成、花字特效生成、图片编辑、转场动画设计生成等。用户仅需输入简单的文字描述,即可快速生成图片插画、花字特效和演示文稿等等。此外,该套件内置“魔力橡皮擦”“魔力抓取”,用户可去除图片中的指定元素或提取、移动图片主体。
据可画官网显示,该套件中的多项功能需要高级会员才可解锁,不过用户可以免费试用一定次数。
今日重点论文:






请到「今天看啥」查看全文