专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
目录
相关文章推荐
秦皇岛晚报  ·  【中国好手艺117】铁艺灯笼 ·  9 小时前  
秦皇岛晚报  ·  【中国好手艺117】铁艺灯笼 ·  9 小时前  
光明日报  ·  中国好手艺:铁艺灯笼 ·  11 小时前  
可爱多手工艺术  ·  旧牛仔裤零碎布头旧衣服都剪成了拼图,这么多妙 ... ·  3 天前  
51好读  ›  专栏  ›  学术头条

OpenAI估值将超1000亿美元;为什么大模型无法拼写“strawberry”|一周热门

学术头条  · 公众号  ·  · 2024-08-31 08:03

正文


大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分,带你快速跟进大模型行业热门动态。


01 企业动态


OpenAI 估值将超 1000 亿美元,英伟达、苹果和微软参投


8 月 30 日消息,据外媒援引知情人士消息,苹果、英伟达、微软已洽谈加入 OpenAI 的新一轮融资,融资额将达数十亿美元。这将使 OpenAI 的估值超过 1000 亿美元。本轮融资由风投公司 Thrive Capital 领投。Thrive Capital 将投资约 10 亿美元。


OpenAI:“草莓”项目将为“猎户座”大模型提供训练数据


根据 The Information 消息,OpenAI 已经向美国国家安全官员展示了“草莓”(Strawberry)项目,并保证在安全、合理的范围内开发和使用这一技术。同时,草莓生成的合成数据将用于支持猎户座(Orion)大模型的开发。



智谱推出新一代基座大模型 GLM-4-Plus


近日,智谱在 KDD 2024 现场重磅推出了新一代全自研基座大模型 GLM-4-Plus、图像/视频理解模型 GLM-4V-Plus 和文生图模型 CogView-3-Plus。其中,GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能;利用 PPO 有效有效提升模型推理(数学、代码算法题等)表现,更好地反映人类偏好。 (点击查看详情)


Anthropic 公开让 Claude “进步”的系统提示词


近日,Anthropic 公开发布了其 Claude 模型的系统提示词。这一罕见举动让用户得以一窥其大语言模型(LLM)的内部运作机制。 系统提示词通常被视为专有信息,对塑造 AI 的行为和能力至关重要。 这次发布包含了 Claude 3.5 Sonnet、Claude 3 Opus 和 Claude 3 Haiku 模型的详细指令。 这些提示词概述了模型行为的具体指南,包括禁止面部识别和访问链接,以及让模型以 Anthropic 认为客观的方式处理有争议的话题。

英伟达公布 Blackwell 更多细节:支持 10 万亿参数模型进行实时推理


据《科创板日报》报道,英伟达公布了下一代 GPU 架构 Blackwell 的更多细节信息,以及未来的产品路线图。英伟达 Blackwell 是通用计算全栈矩阵的终极解决方案,由多个英伟达芯片组成,包括 Blackwell GPU、Grace CPU、BlueField 数据处理单元、ConnectX 网络接口卡、NVLink 交换机、Spectrum 以太网交换机和 Quantum InfiniBand 交换机,可支持多达 10 万亿参数的模型进行训练和实时推理。


中国科学院地化所发布国际首个月球专业大模型


据《科创板日报》报道,在 2024 数博会上,中国科学院地球化学研究所与阿里云联合发布国际首个“月球科学多模态专业大模型”。该大模型以视觉、多模态及自然语言等通义系列模型为基模,结合 RAG 检索增强等技术,于阿里云百炼专属版进行微调及训练。目前在月球撞击坑年代和形态判别上,月球专业大模型的准确率已达到 80% 以上。




02 技术前瞻


智谱AI、清华团队发布 CogVLM2 技术报告


在这项工作中,来自智谱AI 和清华大学的研究团队提出了 CogVLM2 系列,这是用于图像和视频理解的新一代视觉语言模型,包括 CogVLM2、CogVLM2-Video 和 GLM-4V。图像理解模型 CogVLM2 继承了视觉专家架构,并在预训练和后训练阶段改进了训练方案,支持最大 1344×1344 像素的输入分辨率。视频理解模型 CogVLM2-Video 整合了带有时间戳的多帧输入,并提出了自动时间基础数据构建方法。CogVLM2 系列在 MMBench、MM-Vet、TextVQA、MVBench 和 VCGBench 等基准测试中取得了 SOTA。



谷歌:扩散模型是实时游戏引擎


在这项工作中,谷歌团队提出了首个完全由神经模型驱动的游戏引擎 GameNGen,其可以在长轨迹上与复杂环境进行高质量的实时交互。GameNGen 可以在单个 TPU 上以每秒 20 帧以上的速度交互模拟经典游戏 DOOM。下一帧预测的 PSNR 为 29.4,与有损 JPEG 压缩相当。在区分游戏短片和模拟短片方面,人类评分员的表现仅略高于随机概率。GameNGen 分两个阶段进行训练:(1) 一个强化学习(RL)agent 学习玩游戏,并记录训练过程;(2) 训练一个扩散模型,以过去的帧和动作序列为条件生成下一帧。条件增强可在长轨迹上实现稳定的自动回归生成。



通过下一个 token 预测进行上下文模仿学习


在这项工作中,来自加州大学伯克利分校的研究团队探讨了如何增强下一个 token 预测模型,以便在真实机器人上执行上下文模仿学习。他们提出的 In-Context Robot Transformer(ICRT)可对传感器运动轨迹进行自回归预测,而无需依赖任何语言数据或奖励函数。通过使用由图像观察、动作和状态元组组成的新任务的传感器运动轨迹(通过人类远程操作收集)来提示模型,这种方法可在测试时灵活、无需额外训练地执行新任务。



智谱AI、清华团队推出大模型规则理解新基准


在这项工作中,为评估大语言模型(LLM)的综合规则理解、执行和规划能力,来自智谱AI 和清华大学的研究团队推出了一种新基准 LogicGame。与传统基准不同,LogicGame 提供了包含一系列初始状态规则的多样化游戏,要求模型理解并应用预定义的规则来解决问题。从简单的规则应用到复杂的推理链,LogicGame 定义了不同难度的游戏场景,以便对模型在规则理解和多步骤执行方面的性能进行精确评估。利用 LogicGame,他们测试了各种 LLM,并发现了它们在基于规则的逻辑推理能力方面存在的明显不足。



Hugging Face:构建并更好地理解视觉语言模型


在这项工作中,来自 Hugging Face 的研究团队推出了一个构建视觉语言模型(VLMs)的教程。他们首先全面概述了当前的 SOTA 方法,强调了每种方法的优缺点,探讨了该领域的主要挑战,并为尚未充分开发的领域提出了有前途的研究方向。然后,他们介绍了构建 Idefics3-8B 的实际步骤,Idefics3-8B 是一个功能强大的 VLM,其性能优于其前身 Idefics2-8B,同时还能在开放数据集上进行高效训练,并使用简单直接的管道。此外,他们发布了该模型以及为训练该模型而创建的数据集。



浙大、腾讯团队推出定制化视频生成框架 CustomCrafter


在这项工作中,来自浙江大学和腾讯 AI Lab 的研究团队提出了定制化视频生成框架 CustomCrafter,其可以保留模型的动作生成和概念组合能力,无需额外的视频和微调来恢复。在保留概念组合能力方面,他们设计了一个即插即用模块,用于更新视频扩散模型(VDM)中的一些参数,从而增强模型捕捉外观细节的能力和对新对象进行概念组合的能力。在运动生成方面,他们发现 VDM 在去噪的早期阶段倾向于恢复视频的运动,而在后期阶段则侧重于恢复主体细节。因此,他们提出了动态加权视频采样策略。利用主体学习模块的可插拔性,他们在去噪的早期阶段减少了该模块对运动生成的影响,保留了 VDM 运动生成的能力。在随后的去噪阶段,他们恢复该模块以修复指定主体的外观细节,从而确保主体外观的保真度。实验结果表明,与之前的方法相比,该方法有着显著的改进。



降低 99.7% 计算成本,多模态大语言模型“视觉表征定律”


在这项工作中,来自斯坦福大学和加州大学伯克利分校的研究团队提出了多模态大语言模型(MLLM)“视觉表征定律”(Law of Vision Representation)。它揭示了跨模态对齐、视觉表征的对应性与 MLLM 性能之间的强相关性。他们使用跨模态对齐和对应得分(AC 分)来量化这两个因素。通过涉及 13 种不同视觉表征设置的大量实验和 8 个基准的评估,他们发现 AC 分数与模型性能呈线性相关。利用这种关系,他们能够只识别和训练最佳视觉表示法,而无需每次都对语言模型进行微调,从而降低 99.7% 的计算成本。



点击“阅读原文”,获取更多大模型论文



03 政策法规


加州人工智能法案获得立法机构通过


加州的 SB-1047 法案,即《前沿人工智能模型安全创新法案》,已经通过了州议会的投票,并提交给州长 Gavin Newsom 签署。这项法案旨在为大型 AI 系统的开发和部署制定安全标准,要求对可能用于网络攻击、发展大规模杀伤性武器或自动化犯罪的 AI 系统进行测试和监管。法案的支持者认为这将有助于确保公众安全,而反对者则认为这可能会抑制创新,尤其是在 AI 领域的快速发展阶段。


马斯克:支持加州的人工智能法案


马斯克日前表示,他支持加州一项拟议中的法案,该法案旨在对该州的人工智能进行监管,尽管一些政界和科技界的领导人对此表示反对。马斯克在社交平台 X(前身为Twitter)上表示:“这是一个艰难的决定,可能会引发一些人的不满,但综合考虑,我认为加州应通过 SB-1047人工智能安全法案。在过去 20 多年里,我一直支持对人工智能进行监管,就像我们监管任何可能对公众构成风险的产品或技术一样。”


美国人工智能安全研究所:将提前使用 OpenAI、Anthropic 最新模型


OpenAI、Anthropic 与美国国家标准技术研究所(NIST)下属的 AI 安全研究所签署了一份具有里程碑意义的合作协议。这份协议预示着AI模型安全性研究、测试与评估工作将迈入一个全新的阶段。


根据协议内容,AI安全研究所将在OpenAI和Anthropic的新AI模型公开发布前后获得独家访问权,以进行深入的安全评估。这一做法与英国AI安全研究所的测试机制相呼应,允许开发者在模型发布前进行严格的安全审查。


贵州:加快培育一批高水平行业大模型


据财联社报道,中共贵州省委书记、省人大常委会主任徐麟在 2024 中国国际大数据产业博览会开幕式上表示,贵州将着力构建算力协同发展机制,培育以人工智能为驱动的智算发展新模式。打造全国领先的智算集群,建立与粤港澳大湾区、长三角、成渝等枢纽节点联动机制,创新“东数西算”落地路径。促进智算与人工智能协同发展,加快引进一批通用大模型,推动通用大模型训练及推理与国产算力适配。依托华为云盘古通用大模型等,加快培育一批高水平行业大模型。以具体场景为切入口,推动行业大模型轻量化应用,支持中小企业开发应用垂直行业大模型。


上海市经信委:支持临港率先推动自动驾驶等领域垂类大模型落地应用


据财联社报道,上海市经济信息化委副主任张宏韬日前表示,上海市经济信息化委将一如既往地支持临港新片区加大力度,全面推进新型工业化、打造产业增长极,培育新质生产力。其中,上海市经信委将继续支持前沿产业高质量发展。支持临港率先推动自动驾驶、工业制造等领域垂类大模型落地应用,打造上海市智算高地。支持临港培育大飞机国家级先进制造业集群,建设世界级民用航空城。









请到「今天看啥」查看全文