专栏名称: 阿尔法公社
重度帮助创业者的天使投资基金
目录
相关文章推荐
人人都是产品经理  ·  为什么你招聘的产品助理最后都成了摆设 ·  22 小时前  
产品犬舍  ·  走入羊肠小道的深度图文还有舅妈? ·  昨天  
三节课  ·  一夜炒到10万!这个Manus凭啥比Deep ... ·  4 天前  
人人都是产品经理  ·  能力超过产品总监,你该怎么办? ·  2 天前  
人人都是产品经理  ·  做AI产品带来的思考:拥抱变革,理性前行 ·  2 天前  
51好读  ›  专栏  ›  阿尔法公社

AI创投周报|Claude 3能力超越GPT-4,企业级AI助手Glean获2亿美元融资

阿尔法公社  · 公众号  ·  · 2024-03-08 18:22

正文



AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者(Alpha Founders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。


本图由“千象”(网址:www.hidreamai.com)生成


本周, 我们观察到以下AI领域的新动向和新趋势:


1.Anthropic发布Claude 3全新模型家族, 其中能力最强的Claude 3 Opus在推理、数学、编码、多语言理解及视觉方面超越了GPT-4,重新定义了行业标准。


2.Inflection发布全新模型Inflection-2.5, 这个模型不仅在能力上媲美GPT-4,而且其训练所需计算量仅为后者的40%。相比普通大模型,Inflection-2.5还具有出色的情感处理能力和创意思维。


3.企业级AI助手公司Glean获2亿美元D轮融资, 估值超过22亿美元。它打造基于AI的企业搜索与知识管理平台。


如果您对人工智能的新浪潮有兴趣,有见解,有创业意愿,欢迎扫码添加“阿尔法小助理”,备注您的“姓名+职位”,与我们深度连接。


人工智能产品和技术的新突破


1.全球最强大模型一夜易主,GPT-4被 Claude 3 全面超越


Anthropic最新发布Claude 3模型家族, 它包含三个型号: 小杯Haiku、中杯Sonnet及大杯Opus, 其尺寸最大的 Claude 3 Opus 在推理、数学、编码、多语言理解及视觉方面全面超越了GPT-4,重新定义了行业标准。



Claude 3不仅在数学类评测中用0-shot超越了GPT-4的4-8 shot,还提供了高达200k的上下文窗口和接受超过100万token输入的能力。 此外,Anthropic还开放了Opus和Sonnet的API访问,让开发者可以立即利用这些模型的强大能力。


在响应时间上,Claude 3实现了大幅缩短,提供近乎实时的交互体验。不同型号的Claude 3分别针对不同的使用场景和需求进行了优化,从高速度低成本的小杯Haiku到高智能水平的大杯Opus,为用户提供了广泛的选择。


2.Claude 3:人工智能在科学研究中的新突破


近日,Claude 3引发了广泛关注,其在化学、物理学和语言学领域的表现尤为突出。化学博士发现,Claude 3仅用两小时便解决了一项原本需要一年实验的研究问题,并且提出的方案更为简洁、成本更低。


量子物理学博士也发现,Claude 3能够从零开始发明出其论文中的算法。此外,对于小众语言切尔克斯语的研究,Claude 3使用极少量的数据就能进行完美翻译并分析语法和形态结构。


Claude 3的这些表现不仅展现了其对复杂科学主题深入的理解能力,更令人震撼的是其成本效率极高,仅需5美分即可给出解决方案。在化学领域的实际案例中,Claude 3能够详细阐述界面聚合等技术的改进方案,甚至能够提出与专业论文相匹配甚至更优化的研究方法。量子物理学博士Kevin Fischer更是直言,Claude 3是全世界唯一能够理解其论文的存在。


除了科学研究,Claude 3在语言学方面的应用同样令人瞩目。它不仅能够破译罕见语言,还能处理复杂的语法结构,其翻译能力远超现有的语言模型。


Claude 3的表现预示着人工智能在科学研究领域的巨大潜力,同时也提出了对当前教育体系的挑战。 一方面,Claude 3的成功案例为科研工作提供了新的 工具和可能性,极大地降低了研究成本并加速了科学发现的过程; 另一方面,它也引发了对于人工智能将如何重塑教育和科研领域的深入思考。


3.Inflection-2.5模型以40%的训练成本达到媲美GPT-4的能力


Inflection最新发布的Inflection-2.5模型不仅在模型能力上媲美GPT-4,其训练所需计算量仅为后者的40%。



Inflection-2.5凭借出色的性能在多项基准测试中表现优异,尤其在STEM领域进步最为显著。在匈牙利数学和物理GRE考试中,其成绩达到了所有参考群体的95百分位水平,在BIG-Bench-Hard测试中也仅比GPT-4低0.9%。值得一提的是,该团队发现并修正了MT- Bench基准测试中近25%的错误问题,为模型评估提供更合理的数据集。


目前,Inflection拥有百万日活跃用户,用户粘性极高。用户不仅可以与Pi探讨时事、获取本地信息,还能备考、编程、商务写作等。有用户称赞Pi具有出色的情感处理能力和创意思维。


4.大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界


DeepMind、UC伯克利和MIT的研究人员提出,通过采用大语言模型的思路来构建大视频模型,可以解决语言模型不擅长的问题,进而更接近于真正理解我们所处的这个世界。这种大视频模型的概念,有望像世界模型一样,通过预测下一帧的方式来理解和模拟物理世界。



研究人员认为,视频作为一种统一的接口,能够吸收互联网上的知识并代表不同的任务。例如,经典的计算机视觉任务可以被重新定义为下一帧生成任务。通过生成操作视频来回答问题,例如“如何制作寿司”,可能提供比文本响应更直观的答案。此外,视频生成可以作为一个统一的视觉执行计划,为不同的机器人服务,也可以用作复杂游戏的真实模拟器,与基于模型的规划相结合,或用于创造游戏。


预测下一帧的能力不仅可以改变物理世界的决策制定方式,而且还具有挑战现有AI技术边界的潜力。视频生成的能力扩展到了优化科学和工程领域的控制输入,在这些领域可以收集大量视频数据,但底层物理动力学很难明确表达。


该研究表明,视频可以作为一个强大的媒介,不仅能够传达视觉和空间信息,还能描绘物理和动力学的细节以及行为和动作信息。与文本相比,视频提供了一种更加直观和详细的方式来表示这些信息,能够更全面地反映物理世界的复杂性。


5.Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节


Stable Diffusion 3(SD3)的技术报告近日发布,报告详细介绍了SD3采用的多模态Diffusion Transformer架构(MMDiT),这一架构能够分别对图像和文本使用两组独立的权重,从而实现在图像生成过程中对文本的高效理解和渲染。与先前版本相比,MMDiT架构显著提升了性能,使SD3在文本到图像的转换中,无论是视觉保真度还是文本对齐度都有所提高。



SD3的架构由两个独立的Transformer组成,一个处理图像,另一个处理文本,通过连接它们的序列来进行注意力操作,使得两种模式的信息能够在模型内自由流动,增强了模型对输入文本的理解和输出图像的质量。此外,报告还提到了SD3结合了Rectified Flow(RF)技术,这一技术通过优化生成路径,减少了生成过程所需的步骤数,同时保持了图像的高质量输出。


报告中还进行了规模化研究,通过不同大小和训练步数的模型来验证性能提升,结果显示,随着模型规模的增大和训练步数的增加,模型的验证损失逐渐减小,即模型的性能不断提升。


最后,技术报告还探讨了文本编码器的作用,尤其是T5编码器对生成带有文本图像的重要性,尽管移除T5编码器可以显著降低内存需求,但会导致性能的轻微下降,因此建议保留T5编码器以维持优秀的文字渲染能力。


6.单图0.5秒生成3D模型!Stability AI&华人团队出品


Stability AI与华人团队VAST合作推出的3D生成模型TripoSR,实现了通过单张图片在0.5秒内生成完整几何结构和清晰材质纹理的3D模型。



TripoSR的创新之处在于将图像到3D模型的生成过程视作一种跨维度的语言翻译任务,利用Transformer架构和三平面(triplane)技术,实现了二维图像到三维模型的高效转换。这一技术基于Adobe在2023年提出的LRM算法,通过在超过百万级别的公开三维数据集上训练,显示出对任意用户输入的广泛适应性和超高的运行效率。


尽管LRM未公开代码和模型且训练成本高昂,TripoSR却实现了高质量的开源实现,显著提升了从有限训练数据中泛化的能力并增强了3D重建的保真度。TripoSR不仅在学术界和工业界引起了热潮,也填补了开源界缺失的快速、强大泛化能力的3D生成模型和框架空白。此外,VAST AI Research作为Tripo AI背后的3D研究机构,已经开源了多个3D生成模型,显示了其在3D生成领域的实力和贡献。


7.DeepMind携Mamba华人作者推Transformer革命之作! 推理能效大幅碾压 Llama 2


谷歌DeepMind与Mamba的作者Albert Gu最近推出了两种新的架构,Hawk和Griffin,这两种架构在各项基准测试中超越了Transformer。这两种新架构结合了门控线性RNN与局部注意力,展示出了在高效训练和推理速度方面的显著优势,并成功扩展到14B规模。


Griffin模型,尤其值得关注,它在使用仅1/6的训练数据量情况下,就能与同等参数量的Llama 2相媲美,甚至在某些情况下超越。这表明线性RNN的外推能力可以远远超出它们训练的序列长度,同时保留了Transformer在合成任务上的许多功能,如从长上下文中复制和检索token。


DeepMind的这一突破不仅展示了RNN与局部注意力结合的巨大潜力,也可能对AI领域的未来发展方向产生深远影响。尽管Transformer目前仍然称霸AI领域,但DeepMind的这项创新展现了探索新架构的重要性,为未来AI技术的发展提供了新的可能性。






请到「今天看啥」查看全文