专栏名称: 阿尔法公社
重度帮助创业者的天使投资基金
目录
相关文章推荐
漳视新闻  ·  漳州首个“AI中医”,正式上岗! ·  20 小时前  
楼主说楼市  ·  跳去字节,刚入职广州华为又开始心痒了 ·  2 天前  
楼主说楼市  ·  跳去字节,刚入职广州华为又开始心痒了 ·  2 天前  
财联社AI daily  ·  爆火出圈后,Manus与阿里通义千问达成合作! ·  2 天前  
财联社AI daily  ·  爆火出圈后,Manus与阿里通义千问达成合作! ·  2 天前  
无锡博报生活  ·  凉凉!全部下架! ·  3 天前  
无锡博报生活  ·  凉凉!全部下架! ·  3 天前  
51好读  ›  专栏  ›  阿尔法公社

AI创投周报|SakanaAI用开源模型“拼装”基础模型,Jamba用Mamba颠覆Transformer

阿尔法公社  · 公众号  ·  · 2024-04-04 16:51

正文



AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者(Alpha Founders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。

本图由“千象”(网址:www.hidreamai.com)生成

本周,我们观察到以下AI领域的新动向和新趋势:

1. Jamba Transformer和Mamba架构优 点结合 提高内存效率和处理速度, 达到三倍Transformer吞吐量。

2.Sakana AI通过进化算法有效地组合不同的开源模型来创建新的基础模型, 在多个基准测试中取得了SOTA。

3.DeepMind推出「SAFE」AI系统,解决AI的幻觉问题, 正确率超越人类。

如果您对人工智能的新浪潮有兴趣,有见解,有创业意愿,欢迎扫码添加“阿尔法小助理”,备注您的“姓名+职位”,与我们深度连接。

人工智能产品和技术的新突破

1.Attention isn’t all you need!Jamba用Mamba颠覆Transformer

自2017年开创性的研究论文《Attention is All You Need》问世以来,Transformer架构在生成式人工智能领域占据主导地位。尽管如此,Transformer架构面临内存占用大和随上下文长度增加导致推理速度变慢的问题,这限制了其在长上下文和大规模并行批处理任务中的应用。


针对这些挑战,AI21 Labs最近推出并开源了一种名为Jamba的新方法,它结合了Mamba模型( (SSM) )与Transformer架构的优点,提高内存效率和处理速度。

这一混合架构模型不仅是基于Mamba的第一个生产级模型,而且在长上下文处理上的吞吐量提高了三倍,能够处理高达256K的上下文窗口,并公开了模型权重。Jamba还是同等参数规模中唯一能够在单个GPU上容纳高达140K上下文的模型。

Jamba的架构采用块层(blocks-and-layers)方法,集成了注意力层和Mamba层,后跟多层感知器(MLP),形成了Transformer层。该模型通过利用MoE技术来增加模型参数总数,同时减少推理中使用的活跃参数数量,从而在不增加计算需求的情况下获得更高的模型容量。Jamba的MoE层允许在推理时仅利用可用的52B参数中的12B,其混合架构使这些活跃参数比同等大小的纯Transformer模型更有效。

2.Transformer作者创立的Sakana AI,连发3个模型

前谷歌研究人员David Ha和Llion Jones(Transformer论文共同作者)在日本东京成立了人工智能公司Sakana AI,专注于生成式AI模型的开发。

Sakana AI最近推出名为Evolutionary Model Merge的通用方法,通过进化算法有效地组合不同的开源模型来创建新的基础模型,并使这些模型具有用户指定的功能。这一方法的成功案例包括开发出了能进行数学推理的日语大语言模型和日语视觉语言模型,它们在多个基准测试中取得了SOTA。



该公司还利用Evolutionary Model Merge方法发展了三个强大的基础模型:一个大语言模型(EvoLLM-JP)、一个视觉语言模型(EvoVLM-JP)和一个图像生成模型(EvoSDXL-JP)。这些模型展示了进化算法在创建具有新兴组合功能的模型中的巨大潜力。

Evolutionary Model Merge方法的核心在于其能够通过进化来自动发现并结合不同模型的最优层次结构和权重组合,生成具有独特功能的新模型。例如,EvoLLM-JP是通过合并特定于数学的LLM和日语LLM演化得来的,能够用日语解决数学问题,而EvoVLM-JP是第一次尝试将VLM和LLM结合,展现了进化算法在模型合并中的关键作用。

3.马斯克突然发布Grok 1.5,上下文长度增至128k、HumanEval得分超GPT-4


近期,马斯克的下AI公司发布了更为强大的Grok 1.5大模型,他的升级主要表现在两个方面:一是上下文处理长度的大幅增长,由原来的8192提升到128k,二是在推理性能上的全面提升,尤其是数学解题能力增长了50%,并且在HumanEval数据集(编程能力)上的得分超过了GPT-4。


Grok 1.5在NIAH(大海捞针)测试中,能够在128K token的上下文中完美检索嵌入的文本。在MATH基准测试和GSM8K上,Grok 1.5分别取得了50.6%和90%的得分,在编程领域的HumanEval基准测试中,Grok 1.5以74.1%的得分超越了包括GPT-4的多个模型,仅次于Claude 3 Opus模型。

Grok 1.5采用了分布式训练架构,结合了Rust、JAX+Kubernetes技术,提高了训练的可靠性和维护的便捷性。此外,通过自定义训练协调器和优化的checkpointing、数据加载及训练重启流程,大大减少了故障停机时间,进一步提升了模型的训练效率和可用性。

4.Hinton、Bengio等联合中国专家达成AI安全共识:AI系统不应违反红线

为了预防人工智能技术飞速发展可能带来的灾难性后果,国内外研究者和专家展开了紧密合作。在最近召开的“北京AI国际安全对话”中,与会者就AI安全问题进行了深入讨论,并达成了《北京AI安全国际共识》。



该共识由多位国际知名专家共同签署,包括Yoshua Bengio、Geoffrey Hinton、Stuart Russell等,以及多位中国技术专家和学者:姚期智、傅莹、张宏江、张亚勤、张鹏、田溯宁等。


共识强调了在人工智能发展过程中,必须避免的安全红线,包括禁止AI系统在未经人类明确批准的情况下自我复制或改进、追求权力、协助不良行为者以及进行欺骗等行为。


共识提出了一系列治理措施,包括建立全面的治理机制、实施国家层面的AI模型和训练行为注册要求、防止危险技术扩散、建立多边机构和协议等。此外,还强调了测量与评估的重要性,提倡开发全面的方法和技术来具体化和防范安全红线被僭越的风险,并呼吁国际学术界加强技术合作,共同应对高级AI系统带来的挑战。


《北京AI安全国际共识》的签署,标志着国际社会在AI安全领域的合作迈出了重要一步。通过协同合作的技术研究与审慎的国际监管机制,可以有效缓解AI带来的风险,并实现其潜在价值的广泛分享。


5.OpenAI首次官宣语音项目,15秒样本克隆声音

OpenAI近日首次公开宣布其语音项目—Voice Engine, Voice Engine不仅能生成自然且真实的声音,还能在保持情感丰富和逼真度的同时,用于多种语言的转换,包括翻译视频和播客等内容。 它甚至能为有语言障碍的人合成类似的声音,帮助患有突发性或退化性言语病症的患者说话。

目前Voice Engine不支持音调、音高或节奏的调整,其定价为每一百万token/15美元,相较于市面上其他服务,这一价格更为亲民。

Voice Engine基于扩散模型与transformer结合的技术,不依赖于用户数据训练或微调。OpenAI的Jeff Harris表示,通过少量的音频样本和文本,Voice Engine能够生成与原始说话者相匹配的真实语音, 在考虑到行业竞争和成本因素的同时,OpenAI已经提前部署了包括对生成音频加水印和主动监控使用情况在内的一系列安全措施,以确保技术的安全使用和防止滥用,明确禁止未经授权模仿任何个人或组织的声音。

6.80M参数打平GPT-4!苹果发超强上下文理解模型

苹果公司最近发布了ReALM模型,通过仅80M的参数量,就展现与GPT-4相匹敌的上下文理解能力。ReALM的核心能力在于将各种形式的上下文,包括屏幕解析、多轮对话以及上下文中的引用,转换为文本来进行深入理解。这使得Siri能够更快、更智能地响应用户的需求,甚至在接收到模糊指令时也能做出准确判断。

苹果通过将所有内容转换为文本的方法简化了模型的处理流程,使得即便在处理复杂的上下文时,ReALM也能够像人类一样进行思考和工作。这种方法特别适合在终端设备上使用,符合苹果在智能设备上提供更高效、更智能服务的目标。

与传统依赖图像识别的模型不同,ReALM通过将图像转换为文本的方式节省了大量参数,从而实现了更小、更高效的模型设计。此外,苹果还通过各种技术手段,如限制解码、简化后处理等,有效避免了幻觉问题,提高了模型的可靠性。

7.谷歌DeepMind推出「SAFE」AI系统,解决AI的幻觉问题,正确率超越人类

谷歌DeepMind最近展示了一种名为“搜索增强事实性评估器”(SAFE)的AI系统,它利用AI进行同行评审,以解决大语言模型(LLM)生成内容时的幻觉问题。

研究结果表明,SAFE在与人类评审的比较中,在72.0%的单个事实上与人类评审结果一致。进一步的对比测试显示,SAFE在存在分歧的案例中正确率达到76%,而人工评注的正确率仅为19%。在成本方面,SAFE的整体评分成本大约为每个响应0.19美元,相比之下,人工标注的成本为每个响应4美元,明显显示出AI在成本效率上的优势。

该系统特别针对LLM在处理长文本回答时常见的误导性信息问题。通过生成长篇回答的基准测试集LongFact,涵盖38个主题,并使用SAFE对答案进行事实性评估,研究团队能够对LLM生成的长文本进行精确核验。SAFE不仅能够将每个句子拆分为单个事实并进行独立评分,还通过网络搜索来验证每个事实的准确性,提高了信息核实的效率和准确性。


人工智能初创公司的新融资

1.人工智能加速硬件与软件提供商Celestial AI获US Innovative Technology Fund领投,AMD Ventures等参投的1.75亿美元C轮融资

官方网站: www.celestial.ai

Celestial AI近日获得US Innovative Technology Fund领投,AMD Ventures、IAG Capital Partners、Koch Disruptive Technologies、M Ventures、Porsche Automobil Holding、Samsung Catalyst Fund、Smart Global Holdings、Xora Innovation等机构跟投的1.75亿美元C轮融资。Celestial AI从2020年起相继完成5轮融资,在5轮融资总共筹集了 3.38亿美元。

Celestial AI致力于解决随着AI模型规模爆炸性增长而带来的内存带宽和容量需求的指数级增长,同时延迟过高问题。为了应对这一挑战,Celestial AI与一些大型超级计算公司合作,深入研究计算、内存和网络系统基础设施的瓶颈。

Celestial AI的核心创新是Photonic Fabric,这是业界唯一能够打破“内存墙”并直接将数据传输到计算点的解决方案,同时支持当前的HBM3E以及下一代HBM4的带宽和延迟要求,且功耗极低,每比特传输的能耗仅为个位数皮焦耳(pJ/bit)。基于Photonic Fabric的计算织物能够在计算节点之间提供太比特级带宽,同时保持低延迟和低功耗。

为了加速客户对这种内存的采用,Celestial AI正在积极培育一个Photonic Fabric生态系统。这个生态系统包括一级合作伙伴,如定制硅/ASIC设计服务、系统集成商、HBM内存和封装供应商等。通过这种合作,Celestial AI旨在推动行业内的技术进步和创新,为客户提供高性能、高效率的AI解决方案。

创始人David Lazovsky是一位成就卓著的连续创业者和企业领导者,他在人工智能、光子学、能源存储和半导体技术等多个高科技领域的公司中担任过关键职务。自2020年4月起,他作为Celestial AI的创始人和首席执行官,推动了公司的快速发展。在此之前,他在POET Technologies 担任董事会成员,并在Khosla Ventures担任风险合伙人,投资于前沿技术企业。

2.在获得Founder's Fund领投2100万美元融资后,人工智能软件工程师 Devin的






请到「今天看啥」查看全文