出品 | AI 科技大本营(ID:rgznai100)
一分钟速览新闻点!
-
Anthropic 发布最强模型 Claude 3.5 Sonnet
-
Anthropic 首次推出 Artifacts,让用户可以查看、编辑和构建由 Claude 生成的内容
-
国际计算机视觉顶会 CVPR 2024 最佳论文公布,皆与生成式 AI 相关
-
数据显示谷歌已降低 Reddit 对 AI 搜索结果的影响
-
消息称苹果 AI 正寻求与中国本土企业合作,已与百度、阿里、百川等接触
-
阿里 Qwen2-72B 登顶 HELM 榜单:性能超越 Llama3-70B
-
消息称 PICO 研发多款 AI 穿戴设备,搭载豆包大模型
-
英伟达挑战者 AI 芯片制造商 Cerebras 秘密申请 IPO
-
AI 视频初创公司 HeyGen 融资6000万美元,估值超5亿美元
-
GrayMatter Robotics 为制造业开发人工智能机器人单元,已获4500万美元 B 轮融资
Anthropic 发布最强模型 Claude 3.5 Sonnet
Anthropic 于当地时间6月20日,宣布推出 Claude 3.5 Sonnet,这是 Claude 3.5 系列的首个模型版本,属于中等尺寸模型,介于小型 Haiku 和高端 Opus 之间。该模型在推理、编码、视觉和自然语言理解能力方面超越了以前的版本和竞争对手,在各项评估中优于 OpenAI 的 GPT-4o 和谷歌的 Gemini 1.5 Pro。据 Anthropic 表示,根据内部基准测试,Sonnet 的性能甚至超过了顶级 Opus,运行速度是 Claude 3 Opus 的两倍。该公司称,在编码挑战方面,Sonnet 超越了之前的 Opus 模型,修复了 64% 的代码错误,而 Opus 只有 38%。
Claude 3.5 Sonnet 具有200K tokens 的上下文窗口,定价为每百万输入 tokens 3美元和每百万输出tokens 15美元。据悉,为确保安全,Anthropic 将 Sonnet 提交给英国和美国人工智能安全研究所进行外部评估。评估表明,经过改进后,该模型仍处于 ASL 2 级水平。目前,Claude 3.5 Sonnet 可在 Claude 网页版和 iOS 应用上免费使用。
使用链接:
http://Claude.ai
Anthropic 首次推出 Artifacts,让用户可以查看、编辑和构建由 Claude 生成的内容
除了新模型,Anthropic 还推出了一项名为 Artifacts 的新功能。借助 Artifacts,用户将能够查看并与 Claude 请求的结果进行交互:如果用户要求模型设计某个东西,它现在可以向用户展示它的外观并让用户直接在应用程序中进行编辑。如果 Claude 给用户写了一封电子邮件,用户可以在 Claude 应用程序中编辑该电子邮件,而不必将其复制到文本编辑器中。这是一个很小的功能,但却很聪明——这些 AI 工具需要成为不仅仅是简单的聊天机器人,而像 Artifacts 这样的功能只是让应用程序有更多功能。
Artifacts 实际上似乎是 Claude 长期愿景的一个信号。Anthropic 长期以来一直表示,它主要关注企业(即使它聘请了Instagram 联合创始人 Mike Krieger等消费技术人才),并在宣布 Claude 3.5 Sonnet 的新闻稿中表示,它计划将 Claude 变成一种工具,供公司“安全地将他们的知识、文档和正在进行的工作集中在一个共享空间中”。这听起来更像是 Notion 或 Slack,而不是 ChatGPT,Anthropic 的模型是整个系统的核心。(The Verge)
国际计算机视觉顶会 CVPR 2024 最佳论文公布,皆与生成式 AI 相关
北京时间 6 月 20 日凌晨,在西雅图举办的国际计算机视觉顶会 CVPR 2024 正式公布了最佳论文等奖项。
CVPR 2024 共有 10 篇论文获奖,其中 2 篇最佳论文,2 篇最佳学生论文,另外还有 2 篇最佳论文提名和 4 篇最佳学生论文提名。据统计,今年共提交了 11532 份论文,2719 篇被接收,录用率为 23.6%。
根据佐治亚理工学院对 CVPR 2024 录用数据的统计分析,从研究主题来看,论文数量最多的是图像和视频合成与生成(Image and video synthesis and generation)主题,一共 329 篇。
最佳论文2篇:
论文 1:《生成图像动力学》(Generative Image Dynamics)
作者:Zhengqi Li、Richard Tucker、Noah Snavely、Aleksander Holynski
机构:谷歌研究院
论文地址:
https://arxiv.org/pdf/2309.07906
论文 2:《多样的人为反馈助力文本到图像的生成》(Rich Human Feedback for Text-to-Image Generation)
作者:Youwei Liang、Junfeng He、Gang Li、Peizhao Li、Arseniy Klimovskiy 等
机构:加利福尼亚大学圣迭戈分校、谷歌研究院、南加州大学、剑桥大学、布兰迪斯大学
论文地址:
https://arxiv.org/pdf/2312.10240
数据显示谷歌已降低 Reddit 对 AI 搜索结果的影响
在今年的谷歌 I/O 大会上,谷歌推出了基于 AI 的搜索(AI 摘要 / AI Overviews)。但在此功能上线后不久,不少用户反馈称 AI 会生成一些奇怪的结果,例如往披萨里加胶水防止配料掉落、每天吃几块小石头等等。据悉,部分奇怪回复是 AI 系统从 Reddit 帖子中提取信息而造成的,例如往披萨里加胶水就来自一个11年前的 Reddit 帖子。根据搜索引擎优化平台 SERanking 当地时间6月20日公布的数据显示,Reddit 已经不再是谷歌“AI 摘要”功能信息来源的前10名。该平台针对 10 万个关键词进行分析,发现排名前5的结果分别来自 Runners World、Healthline、LinkedIn、RunRepeat 和维基百科。至于 Reddit 排名第几位,目前尚不得而知,但该平台声称 Reddit 在“过去某段时间”确实位列前10。(SERanking)
消息称苹果 AI 正寻求与中国本土企业合作,已与百度、阿里、百川等接触
消息人士称,苹果已与百度、阿里巴巴、百川人工智能等公司进行谈判,以帮助在中国提供 Apple Intelligence,因为 ChatGPT 在中国尚未推出。
在中国市场,苹果的 AI 服务已落后于本土竞争对手。苹果曾考虑引入外国大语言模型,但尚未有实质性进展,目前加快与本土合作伙伴的谈判。苹果在中国市场的地位受到挑战,其市场份额被本土品牌超越。截至目前,百度、阿里巴巴、百川智能等公司尚未作出公开回应。(华尔街日报)
阿里 Qwen2-72B 登顶 HELM 榜单:性能超越 Llama3-70B
斯坦福大学的大模型测评榜单 HELM MMLU 近日发布了最新结果。阿里巴巴的通义千问 Qwen2-72B 模型在排名上超过了 Llama3-70B,成为表现最优的开源大模型。斯坦福大学基础模型研究中心,致力于创建一种透明、可复现的评估方法。HELM 框架对不同模型在 MMLU 上的评估结果进行标准化和透明化处理,解决了现有MMLU评估中存在的问题。例如,对所有参评模型使用相同的提示词,并在每项测试主题上为模型提供同样的5个示例进行情境学习。
消息称 PICO 研发多款 AI 穿戴设备,搭载豆包大模型
字节跳动旗下的 PICO 正在研发多个搭载 AI 的穿戴设备,公司管理层看好可穿戴设备向 AI 服务平台的转型潜力。字节跳动招聘 ID 设计师负责智能设备工业设计,并在 5 月收购耳机制造商 Oladance。官方表示豆包业务正在探索结合智能可穿戴设备,为用户提供更自然的交互体验,并已与多个硬件厂商合作,将豆包能力开放给硬件厂商。火山引擎 FORCE 原动力大会上展示了 3 款 AI 硬件合作产品。(Readhub)
英伟达挑战者 AI 芯片制造商 Cerebras 秘密申请 IPO