我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow -- 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!
资讯
完全开源的代码大模型OpenCoder
墨尔本大学黄思明与复旦大学程天豪在 CoRL 2024 中合作开发了 OpenCoder,一个高质量、开源的代码大语言模型(CodeLLM),旨在缩小开源社区与工业界间的差距。OpenCoder 在 INF 团队主导、M-A-P 项目协助下开发,提供了全方位的开源数据、训练流程和模型权重,帮助研究者深入了解 CodeLLM 的构建细节。- 数据集构建:团队提出了 RefineCode 数据集,包含 9600 亿标记,覆盖 607 种编程语言,通过 GitHub 和网页数据源收集代码。数据清理流程包含去重、过滤与数据重配比等复杂处理,确保高数据质量和多样性。
- 训练策略:OpenCoder 采用 WSD 学习率调度策略,分为初期预热、稳定和退火阶段,结合高质量合成数据优化模型的代码理解能力。退火阶段增加算法相关语料和代码教科书数据,进一步增强模型的逻辑能力。
- 指令微调:采用两阶段训练策略,首先通过广泛用户指令数据进行通用编程任务微调,再在高质量代码特定数据上进行微调,提高模型的任务适应性。
- 消融分析:验证了 file-level 去重优于 repo-level 去重,合成数据对性能提升至关重要,同时发现 GitHub 星级作为数据筛选标准会降低数据多样性。两阶段 SFT 微调在 Benchmark 和真实应用的 Code Arena 测试中都表现出色。
- 模型性能:OpenCoder 在 HumanEval、MBPP 和多语言基准(如 MultiPL-E)上超越现有开源模型,展示了顶尖性能。在实际应用测试中,生成的代码准确实现了 prompt 指定的功能,表现出极高的生成质量。
MIT新研究:在测试时训练,模型推理能力最高升至5.8倍
MIT 的最新研究提出了一种创新推理方法,通过在测试阶段对大模型进行训练(Test-Time Training,TTT),显著提升了模型在复杂推理任务上的表现。在挑战高难度的 ARC 任务时,TTT 使模型准确率最高提升至原来的 5.83 倍,甚至超越了 GPT-4 和 Claude 等模型。TTT 通过在推理过程中利用测试样本自身的信息,对模型参数进行快速调整,打破了传统“训练-测试”分离的推理方式。TTT 包含三个关键阶段:数据生成、模型适应以及推理策略。首先,研究团队通过“留一法”生成训练数据:每个任务中将一个样本保留为测试,其余用于训练。通过多种几何变换和数据扩充,生成了结构一致但内容互补的数据集,极大扩展了训练数据量。训练时,研究人员使用参数高效的 LoRA(Low-Rank Adaptation)调节每一层模型参数,附加于基础模型以实现灵活适应性。此外,模型还会在多种长度的演示样本上计算损失,以便提取抽象规律,增强鲁棒性。在推理阶段,团队引入数据增强和分层投票策略。输入数据通过旋转、翻转等变换生成等价视角的输入变体,再利用 LoRA 调整的模型进行并行预测。预测结果经过分层投票融合:首先在每种变换内选出置信度最高的前 3 名预测,再在所有变换的前 3 名预测中选出最终的前 2 名输出。这一结构化的组合大幅提高了预测准确性。测试显示,TTT 对小模型(如 1B 参数的 GPT-3)提升尤其明显,使准确率接近调整前的 6 倍。此外,将 TTT 与表现出色的 BARC 方法结合使用后,研究团队在 ARC 任务上取得了 61.9% 的准确率,已超越人类平均水平。这一成果表明,大规模计算并非提升推理性能的唯一途径,为未来的模型优化提供了新的思路。清华大学获X-Embodiment最佳论文奖
清华大学高阳团队在 CoRL 2024 的 X-Embodiment Workshop 中凭借论文《Data Scaling Laws in Imitation Learning for Robotic Manipulation》荣获最佳论文奖,探讨了在机器人操作中的模仿学习如何通过数据规模来实现零样本泛化。他们使用手持夹持器收集了 40,000 次演示及 15,000 多次机器人测试,通过扩散策略对数据建模,探索策略泛化与训练环境数量、物体数量及演示数量的关系。研究发现,策略的泛化性能主要依赖于环境和对象的多样性而非单纯的演示数量。实验中,团队在倒水、鼠标移动、叠毛巾和拔掉充电器等任务上验证了策略在新环境和新对象中的泛化表现。结果表明,增加训练环境和物体数量显著提升了策略的泛化能力,其中,策略在未见过物体上的表现当训练物体数达到 32 时超过 0.9。此外,实验展示了策略符合幂律分布,当环境和物体数同时增加时,泛化效果尤佳。高效的数据收集方案是该研究的一大亮点,四名采集者仅用一下午便获得了足够数据,使策略在新环境中任务成功率达到 90%。高阳团队进一步测试了模型在野外环境中的适应性,包括火锅店、电梯、喷泉等场所,展现出超出预期的强泛化能力。https://mp.weixin.qq.com/s/Mwt-NuGPUcsLSNPxxapdAA
伯克利罗剑岚:机器人的范式革命,藏在真实世界中
HIL-SERL,是伯克利大学 Sergey Levine 团队近期推出的强化学习框架,通过结合人类的示范与纠正,在现实环境中实现机器人高效学习并完成复杂任务。与前代方法相比,HIL-SERL 显著提升了策略从错误中学习的能力,使得机器人能在短时间(1-2小时)内,完成如组装主板、插入 U 盘等操作,成功率高达100%,甚至在人为干扰下表现稳定。这标志着强化学习从实验室走向真实世界的巨大进步,解决了长期以来强化学习难以直接应用于真实物理环境的问题。
HIL-SERL 的核心在于通过人类纠正提升强化学习的样本效率和策略优化速度,而此前的 SERL 仅依赖示范。罗剑岚团队在 SERL 中率先实现了基于真实视觉信息的操作策略学习,仅用20分钟完成精密装配任务,成功率几乎完美。HIL-SERL 进一步扩展了该框架的能力,适用于更复杂的动态操作任务,并攻克双臂协调问题,展示了极高的鲁棒性和恢复能力。罗剑岚认为仿真训练虽便捷,但无法完全替代真实环境的数据,其局限性使得在复杂任务中的表现不如真实数据的支持。他提倡从现实环境中采集机器人训练数据,这种方法虽然初期数据稀缺,但一旦规模扩大,将产生长期优势。SERL 和 HIL-SERL 的研究展示了机器人真实强化学习的巨大潜力,有望推动机器人在工业领域中的灵活性和效率提升。推特
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
Qwen 2.5 coder模型推出上线Ollama,在代码生成、代码推理和代码修复方面进行了显著改进
Qwen 2.5 coder 模型在代码生成、代码推理和代码修复方面进行了显著改进。其中,32B 模型的性能可与 OpenAI 的 GPT-4o 相媲美。ollama run qwen2.5-coder:32bollama run qwen2.5-coder:14bollama run qwen2.5-coder:7bollama run qwen2.5-coder:3bollama run qwen2.5-coder:1.5bollama run qwen2.5-coder:0.5bhttps://ollama.com/library/qwen2.5-coderhttps://x.com/ollama/status/1856051733513797929Brodeur-Urbas分享创建由 Claude 驱动的收据机器人,自动检测任何包含发票的邮件
上个月,我在一次 15 分钟的演示电话中构建了一个由 Claude 驱动的收据机器人。客户反馈说,自那以来,它已经处理了他们业务中的 1200 份发票。• 重命名并将附件上传至 Google Drive• 分类并提取所有信息到 Google Sheetshttps://gumloop.com/pipeline?workbook_id=mQngPPBW9fFHR4MxFs9SH2https://x.com/fekdaoui/status/1855522108618748222
Zeroth-01 机器人:世界上最小的开源端到端仿人机器人,起售价仅为 $350
介绍 Zeroth-01 机器人:世界上最小的开源端到端仿人机器人,起售价仅为 $350!完全开源,包括硬件、SDK、模拟环境等。Zeroth-01 是迄今为止最具可玩性和可定制性的仿人机器人!
https://x.com/JingxiangMo/status/1856148967819751817
Davis分享:慢慢在制作一个基于几何节点的道路,只有一个面和一条曲线,含坡度
慢慢在制作一个基于几何节点的道路。只有一个面和一条曲线,还包含坡度!
https://x.com/EthDavis_/status/1855343270592737651Flora:最简单的途径来试用最强大的工具,同时体验 Runway、Luma、Hailuo 和 Kling
一张静态图片,四个令人惊叹的视频。从今天起,在 FLORA 中体验 Runway、Luma、Hailuo 和 Kling 的卓越清晰度、连续性和控制力。FLORA 提供最简单的途径来试用最强大的工具。立即使用我们全新的“图片转视频”节点免费尝试吧!
https://x.com/florafaunaai/status/1856047561536086293产品
Spiky
Spiky 是一个实时 AI 助手,专为客户团队设计,帮助他们在销售过程中提高效率。它提供通话动态洞察、实时沟通指标和销售手册执行反馈,可以加速交易、提升团队表现,并节省时间,让团队专注于创造收入的活动。Lamatic.ai
Lamatic 是一个低代码平台,可以帮助团队快速构建和部署高性能的生成式 AI 应用。它提供可视化构建工具、向量数据库和多种集成功能,促进开发者与非技术团队之间的协作,简化工作流程并加速应用开发。投融资
Cogna创始人筹集1500万美元,用于AI自动生成企业软件
前自动驾驶企业FiveAI的联合创始人Ben Peters成立了英国初创公司Cogna,专注于通过AI自动生成企业资源计划(ERP)软件。Cogna近日完成了1500万美元的A轮融资,由Notion Capital领投,Hoxton Ventures和Chalfen Ventures参投。今年早些时候,Cogna还获得了475万美元的种子轮融资,投资人包括FiveAI的联合创始人Stan Boland和Acorn Software的创始人Herman Hauser。投融资亮点:Cogna此轮融资主要用于开发基于生成式AI的定制化ERP解决方案,通过AI平台替代传统ERP系统,使企业能够更高效地完成供应链、库存管理、财务等流程。Cogna当前已吸引英国天然气分销公司Cadent Gas和公用事业服务提供商Network Plus成为客户。投资方Hoxton Ventures的联合创始人Hussein Kanji表示,Cogna的技术类似OpenAI支持的Anysphere等项目,展示了生成式AI在企业软件市场的巨大潜力。Cogna将进一步挑战Wipro、CapGemini等传统IT咨询公司,为企业提供自动生成、量身定制的ERP解决方案。这一创新模式不仅让企业在传统ERP的基础上拥有更个性化的工作流,同时降低了对SAP等传统系统的依赖。公司官网:https://www.cogna.co/https://techcrunch.com/2024/11/11/from-self-driving-cars-to-ai-that-writes-enterprise-software-cogna-founder-raises-15m/Ecosia与Qwant合作开发欧洲自主搜索引擎索引以减少对大科技依赖
法国隐私导向的搜索引擎Qwant和德国的非营利搜索引擎Ecosia宣布合作,共同开发一个欧洲自主的搜索引擎索引,旨在减少对微软(Bing)和谷歌等大科技公司的依赖,同时应对API成本上涨的压力。这一举措将帮助两家公司降低运营成本,并推动生成式人工智能等技术在其搜索引擎中的进一步创新应用。
该项目由Qwant与Ecosia共同出资设立的合资公司“European Search Perspective”(EUP)主导,双方持股比例为50:50。目前双方股东已表示支持,未来可能还会通过EUP引入外部投资来加速项目开发。Qwant的现有工程团队将整体转移至新公司,并由Qwant CEO Olivier Abecassis兼任新公司的首席执行官。EUP预计在2025年底前拓展至德国,并逐步覆盖其他欧洲国家。该索引系统未来还将提供API授权,开放给其他欧洲企业使用,以增强欧洲技术栈的自主性。https://techcrunch.com/2024/11/11/ecosia-and-qwant-two-european-search-engines-join-forces-on-building-an-index-to-shrink-reliance-on-big-tech/--- END ---