专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

Gemini API免费送；Transformer作者：很快进入AI的下一阶段 | AI头条

AI科技大本营 · 公众号 · · 2024-08-20 12:23

正文

整理 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

一分钟速览新闻点！

Gemini 向开发者赠出每日 15 亿 tokens API
Luma v1.5 版本革新登场，引领视频与图像生成新潮流
Transformer作者：很快进入AI的下一阶段
宇树科技发布 Unitree G1 通用人形机器人量产版
Gen-3 Alpha Turbo 支持尾帧生成
Qwen2-Math-72B模型发布多模态输入在线Demo，数学推理能力达到新高度
清华大学研究小组推出开源项目LongWriter，助力超长文本生成
AI 学术搜索引擎 Consensus 完成 1150 万美元 A 轮融资

国内外 AI 要闻

Gemini 向开发者赠出每日 15 亿 tokens API

Gemini API近日推出开发者激励计划，每天向开发者免费提供高达15亿个token，以促进技术创新和应用开发。Gemini 1.5 Flash免费套餐包括15 RPM的请求频率、每小时100万token的缓存存储以及每日1500个请求限额，同时提供免费的上下文缓存和微调服务。此外，Gemini 1.5 Pro免费套餐则提供更为适中的2 RPM请求频率和每日50个请求限额，展现其高智能模型的强大能力。

特别引人注目的是，Gemini的text-embedding-004模型，提供高达1500 RPM的请求频率，允许开发者全面嵌入各种文本数据。Gemini API的这一举措，旨在降低开发者入门的财务负担，使更多人能够轻松接触并利用这项前沿技术。同时，Google AI Studio也提供免费访问，包括Gemini 1.5 Pro的200万token上下文窗口等高级功能，进一步推动AI技术的普及和应用。

Luma v1.5 版本革新登场，引领视频与图像生成新潮流

Luma技术团队近日发布了备受期待的Luma v1.5版本，带来了一系列创新功能和显著的性能提升。新版本在文本和图片到视频的生成效果上实现了质的飞跃，不仅视频生成速度大幅提升，而且生成的视频质量也达到了前所未有的高度。

Luma v1.5的"增强运动效果"功能，通过技术优化，使得视频中的运动效果更加流畅自然，符合物理规律，为用户带来更加逼真的视觉体验。同时，文本理解能力的增强，让Luma能够更准确地捕捉和表达文本信息，生成更加精准的画面文字效果。

图像生成质量的大幅提升也是v1.5版本的一大亮点。通过模型和算法的改进与优化，Luma 现在能够生成更加精细、准确且高质量的图像内容，满足专业用户对图像细节的严苛要求。

Transformer作者：很快进入AI的下一阶段

Cohere 首席执行官 Aidan Gomez 近日接受采访，表示某些观点认为人工智能模型发展速度停滞或放缓是错误的，事实上，随着推理和规划的引入，我们将看到人工智能能力发生巨大变化，很快进入AI的下一阶段。

宇树科技发布 Unitree G1 通用人形机器人量产版

宇树科技最新发布了Unitree G1通用人形机器人的量产版，这款机器人以其超越常人的灵活性、模仿和强化学习驱动、力控灵巧手以及UnifoLM（Unitree机器人统一大模型）等特点而备受瞩目。Unitree G1的身高约为127厘米，体重约35公斤，具有23至43个关节电机，最大关节扭矩达到120N.m，能够执行高难度的动态动作，如动态站起、坐下折叠、舞棍等。

Unitree G1的零售价从9.9万元起，具备超大关节运动角度空间，结合力位混合控制，可以模拟人手实现对物体的精准操作。此外，它还配备了深度相机和3D激光雷达作为感知传感器，支持WiFi6和蓝牙5.2，智能电池快拆设计，续航时间约为2小时。

此外，宇树科技还为Unitree G1提供了巡检类落地方案，针对危险、紧急、重复性任务设计了一系列解决方案，为电力系统建设、运维等工作提供高效保障。

最新的量产版本在性能和外观上都有所升级，更加符合量产需求，让人印象深刻，甚至有人误以为是CG动画。

Gen-3 Alpha Turbo 支持尾帧生成

Runway 宣布其 Gen-3 Alpha Turbo 模型正式支持尾帧生成。尾帧生成是一个重要的功能更新，它允许用户将一张静态图片作为视频的尾帧，从而为视频创作提供了更多的灵活性和创意表达。尾帧生成通常用于视频的结尾，可以用于展示结束语、版权信息、联系方式或其他重要信息。

Qwen2-Math-72B模型发布多模态输入在线Demo，数学推理能力达到新高度

Qwen官方团队宣布，其最新研发的数学推理模型Qwen2-Math-72B已在多个数学基准数据集上达到前所未有的性能水平。该模型不仅在数学推理方面表现出色，更令人瞩目的是，它现在支持通过文本和图像两种方式输入问题，大大提升了用户体验和应用场景的多样性。

在线 Demo： https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo

清华大学研究小组推出开源项目LongWriter，助力超长文本生成

清华大学数据挖掘研究小组（THUDM）近日推出了一个名为LongWriter的开源项目，该项目专为解决大型语言模型（LLMs）在生成超长文本时遇到的上下文不连贯和信息重复问题。LongWriter通过一种创新的基于代理的“计划-写作”方法，将长文本生成任务分解为多个子任务，每个子任务负责生成一段文本，从而确保每段内容的连贯性和高质量。令人印象深刻的是，LongWriter能够在不到一分钟内生成超过10000字，甚至20000字的文本，且结构合理、逻辑清晰、条理分明。

Gemini API免费送；Transformer作者：很快进入AI的下一阶段 | AI头条

正文

请到「今天看啥」查看全文