专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
目录
相关文章推荐
鲁中晨报  ·  周鸿祎,公开道歉! ·  昨天  
山东省交通运输厅  ·  特斯拉到访山东高速 ... ·  2 天前  
鲁中晨报  ·  一票难求,涨价已超10倍!官方最新回应 ·  3 天前  
51好读  ›  专栏  ›  学术头条

比GPT-4强100倍,OpenAI有望年底发布GPT-Next;1个GPU,1分钟,16K图像|一周热门

学术头条  · 公众号  ·  · 2024-09-08 08:24

正文


大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分,带你快速跟进大模型行业热门动态。


01 企业动态


Ilya 新公司 SSI 官宣融资 10 亿美元


据路透社报道,由 OpenAI 联合创始人、前首席科学家 Ilya Sutskever 在 2 个多月前共同创立的安全超级智能(SSI)公司,完成融资 10 亿美元。这笔融资将用于帮助开发远超人类能力的安全人工智能(AI)系统。SSI 拒绝透露公司最新估值,但接近此事的消息人士称 SSI 的估值已经高达 50 亿美元。Ilya 表示,他将采用与 OpenAI 不同的方式继续践行 scaling law,但尚未透露任何细节。 (点击查看详情)


OpenAI 有望年底发布 GPT-Next,比 GPT-4 强 100 倍


据《科创板日报》报道,在最近举行的 KDDI 峰会上,OpenAI 日本子公司首席执行官 Tadao Nagasaki 透露,代号为“GPT-Next”的新一代模型性能预计将比现有的 GPT-4 模型强大 100 倍,并计划在今年晚些时候发布。GPT-Next 模型性能的提升归功于其优化的架构设计和学习效率的改进,而不是单纯依赖于庞大的计算资源。


智谱完成新一轮数十亿元融资


近日,智谱以 200 亿元的投前估值,完成了新一轮融资,金额达数十亿元。本轮领投方为中关村科学城公司,其为海淀区政府设立的市场化投资平台。


Anthropic 推出 Claude Enterprise 计划


Anthropic 为其人工智能(AI)聊天机器人 Claude 推出一个新的订阅计划——Claude Enterprise,主要面向希望获得更多管理控制和更高安全性的企业客户。Claude Enterprise 允许企业客户上传公司专有文件,帮助他们分析信息、回答相关问题、创建图形和简单的网页,或者充当专用的 AI 助手,其上下文窗口为 50 万 token,可以在一次提示中处理多达 20 万行代码、几十份 100 页的文档或两小时的音频转录。


马斯克:超级 AI 训练集群 Colossus 已上线


日前,马斯克在 X 上发帖表示,其人工智能(AI)初创公司 xAI 已经上线了庞大的 AI 训练系统 Colossus。Colossus 由 10 万张英伟达 H100 GPU 驱动。“Colossus 是世界上最强大的 AI 训练系统,”马斯克表示,“这一系统的规模将在几个月内翻一番,达到 20 万张 GPU(其中 5 万张为 H200)。”


无问芯穹完成近 5 亿元 A 轮融资


日前,无问芯穹宣布完成近 5 亿元 A 轮融资,本轮融资联合领投方为社保基金中关村自主创新专项基金、启明创投和洪泰基金,跟投方包括联想创投、小米、软通高科等。据了解,无问芯穹本次融资募集的资金将用于加强技术人才吸纳与技术研发,做 AI 模型算力的“超级放大器”。


腾讯发布新一代大模型“混元 Turbo”


据财联社报道,在 2024 腾讯全球数字生态大会上,腾讯发布了新一代大模型——腾讯混元 Turbo。该模型采用 MoE 架构,比上一代产品推理效率提升 100%,推理成本降低 50%。此外,腾讯混元 Turbo 的价格也比混元 Pro 降低50%,输出价格为0.05元/千tokens,输入价格为0.015元/千tokens。


面壁智能推出全新 MiniCPM3.0 基座模型


日前,国内大模型厂商面壁智能推出端侧模型面壁小刚炮系列升级版本 MiniCPM3.0 基座模型。据介绍,MiniCPM3.0 参数大小为 4B,性能超越 GPT-3.5,且量化后仅 2GB 内存,对端侧友好,具有无限长文本的特色。




02 技术前瞻


清华、智谱团队推出 LongCite:让 LLM 在长上下文问答中生成精细引用


尽管目前的长上下文大语言模型(LLM)在回答用户基于大量文本的问题时表现出了强大的能力,但由于其回答中缺乏引用(citation),使得用户很难验证,这导致了人们对其潜在幻觉的可信度的担忧。


在这项工作中,来自清华大学和智谱的研究团队旨在让长文本 LLM 生成具有细粒度句子级引用的回答,从而提高其忠实性和可验证性。他们首先介绍了 LongBench-Cite,这是一种自动基准,用于评估当前 LLM 在带引用的长上下文问答(LQAC)中的性能,显示出相当大的改进空间。


为此,他们提出了一种利用现成的 LLM 自动生成具有精确句子级引用的长上下文问答实例的新型管道 CoF(Coarse to Fine),并利用该管道构建了用于 LQAC 的大规模 SFT 数据集 LongCite-45k。最后,他们使用 LongCite-45k 数据集训练 LongCite-8B 和 LongCite-9B,成功使它们能够在单个输出中生成准确回复和细粒度句子级引用。


LongBench-Cite 上的评估结果表明,他们训练的模型在引用质量方面达到了 SOTA,超过了包括 GPT-4o 在内的先进专有模型。




首个混合 Mamba 和 Transformer 的多模态大语言模型


扩展多模态大语言模型(MLLM)的长上下文能力涉及一系列系统优化工作,包括模型架构、数据构建和训练策略。在这项工作中,来自香港中文大学、深圳大数据研究院的研究团队,将模型架构调整为 Mamba 和 Transformer 模块的混合体,并提出了首个混合 MLLM——LongLLaVA(Long-Context Large Language and Vision Assistant)。它不仅在各种基准测试中取得了具有竞争力的结果,还保持了高吞吐量和低内存消耗。特别是,它可以在单个 A100 80GB GPU 上处理近千张图像,为各种任务展示了广阔的应用前景。



100% 开放的混合专家语言模型


来自艾伦人工智能研究所、Contextual AI 的研究团队及其合作者,推出了一个完全开放的 SOTA 语言模型 OLMoE,它利用了稀疏混合专家(MoE)机制。OLMoE-1B-7B 拥有 70 亿参数,每个输入 token 仅使用 10 亿参数。他们在 5 万亿个 tokens 上对其进行预训练,并进一步创建了 OLMoE-1B-7B-Instruct。他们的模型在性能上超越了所有具有相似激活参数的现有模型,甚至超过了如 Llama2-13B-Chat 和 DeepSeekMoE-16B 等大模型。



LinFusion:1 个 GPU,1 分钟,16K 图像


新加坡国立大学团队提出了一种广义线性注意力范式,来作为广泛流行的线性 token 混合器的一种低秩近似。为了节省训练成本并更好地利用预训练模型,他们从预训练的 StableDiffusion。初始化该模型并提炼知识。


结果发现,经过相对较少的训练提炼出的模型,即 LinFusion,在性能上与原始 SD 持平甚至更优,同时显著降低了时间和内存复杂度。广泛实验表明,LinFusion 提供了满意的零样本跨分辨率生成性能,能够生成 16K 高分辨率图像。此外,它与预训练的 SD 组件高度兼容,如 ControlNet 和 IP-Adapter,无需进行适配。



MIT 团队提出上下文归因方法 ContextCite


语言模型在生成回答时是如何使用提供的上下文信息的?我们能否推断出一个特定生成的陈述实际上是基于上下文,还是一个误解,或者完全是编造的?为了帮助回答这些问题,麻省理工学院(MIT)团队提出了上下文归因问题:确定是上下文的哪些部分(如果有的话)导致模型生成了一个特定的陈述。然后,他们提出了一种简单且可扩展的上下文归因方法 ContextCite,其可以应用于任何现有的语言模型之上。



SciLitLLM:如何让 LLM 理解科学文献?


为了开发专门用于科学文献理解的大语言模型(LLM),来自深势科技、中国科学技术大学的研究团队提出了一种混合策略,将持续预训练(CPT)和监督微调(SFT)结合起来,从而同时注入科学领域知识并增强特定领域任务的指令遵循能力。应用这一策略,他们推出了 SciLitLLM,专门用于科学文献理解。



Mini-Omni:首个用于实时语音交互的完全端到端开源模型


在这项工作中,研究团队推出了一种基于音频的端到端对话模型 Mini-Omni,其能够进行实时语音交互。为了实现这一功能,他们提出了一种基于文本指令的语音生成方法,并在推理过程中采用 batch 并行策略,从而进一步提高性能。这一方法还有助于保留原始模型的语言能力,并将退化程度降到最低,从而使其他工作能够建立实时交互能力。



点击“阅读原文”,获取更多大模型论文



03 政策法规


浙江:鼓励开发适配人形机器人的通用多模态大模型


据财联社报道,浙江将鼓励大模型企业开发适配人形机器人的通用多模态大模型,加速“大脑”训练,强化语音交互、逻辑推理、任务规划等能力,鼓励人形机器人企业开发运动控制、平衡协调等专用模型,熟化“小脑”能力,聚焦视觉、听觉、触觉搭建多模态感知系统,提升多传感融合处理水平。


欧盟签署《人工智能框架公约》


日前,欧盟轮值主席国匈牙利在社交媒体上发文说,当天匈牙利代表欧盟在立陶宛首都维尔纽斯签署了《人工智能框架公约》。《人工智能框架公约》是由欧洲委员会牵头推进制定,经过多年筹备,由 50 多个国家历时两年起草,并于今年 5 月获得通过。




04 专家观点







请到「今天看啥」查看全文