专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
51好读  ›  专栏  ›  3D视觉工坊

世界首个AI科学家连发10篇论文,横扫「顶会」!一篇仅需100元,自主科研效率完爆人类

3D视觉工坊  · 公众号  ·  · 2024-08-15 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:新智元 | 编辑:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

世界首个能写完整会议论文的「AI科学家」来了!不仅只需15美元就能写一篇论文,而且质量也已被「AI审稿人」判定为达到了机器学习顶会Weak Accept的水准。

世界首个「AI科学家」诞生了!
现在的大模型已经可以独立搞科研,甚至完全不需要人类插手。
这不,它刚刚一口气连肝了10篇论文。
从提出研究想法、实验、写代码,再到GPU上执行实验,收集结果,AI承包了整个机器学习研究的全过程。
更让人难以置信的是,从构思到成文,一篇论文的成本仅需15美金(107.61元)。
「AI科学家」是由Transformer八大金刚之一Llion Jones的创业公司——Sakana AI提出。
它是一个完全自动化,端到端论文生成的流程。
关键是,最后连审稿也由AI自己完成,而且近乎真人的表现。论文审查的成本,也不到0.5美元。
研究称,经AI审稿人评判,「AI科学家」完全具备在ML国际顶会,发表可以被接收论文的能力。
网友震惊道,这简直太疯狂了。
几十年来,每次AI取得重大进展后,AI研究员常开玩笑说,「只需要想办法让AI为我们写论文就行了」!
而现在,这个不切实际的玩笑,终于变成了现实。
他们认为,这将标志着科学发现新纪元的开始:将AI智能体的变革优势带入整个研究过程中,包括AI自身的研究。
想想看,从此我们的每个想法都能被实施,发展成一篇完整的论文,而且只要花15美金。
Sakana AI的研究者们预言,AI科学家让我们更接近这样一个世界:人类可以释放出无穷的、可负担的创造力,来解决世界上最具挑战性的问题!

AI科学家养成记


「AI科学家」如何自主完成一篇论文的创作?
在185页的论文中,来自Sakana实验室、牛津大学、哥伦比亚大学等机构研究人员将所有的设计框架做了出来。

论文地址:https://arxiv.org/pdf/2408.06292
而且,所有代码全部开源。

项目地址:https://github.com/SakanaAI/AI-Scientist
首先,需要给定一个初始的代码模板,并要求LLM提出新的研究方向。
比如,从GitHub上获取先前研究的开源代码库。
AI系统会使用Semantic Scholar来检查这些idea是否足够新颖,为其「有趣程度」和「新颖性」进行打分。
接下来,LLM需负责实现所有必需的代码级更改。
这里,就需要用到Paul Gauthier开发的辅助工具,以及各种不同的LLM后端,包括GPT-4o、Sonnet 3.5、DeepSeek Code和Llama 3.1 405B。
下面代码中,可以看到和初始代码的差异之处。
再然后,大模型便开始反复试验,获取统计数据和绘制曲线图。
最终,得到所有实验结果后,LLM会以LaTeX模板,撰写完整的论文,并以人类可理解方式呈现结果。

AI生成的论文「Adaptive Dual-Scale Denoising」
论文完成后,研究者让另一个AI智能体,对生成的论文进行自动审查。
通过模拟NeurIPS同行评审过程,AI做出反馈,包括缺点、优点、数值评分和最终的决定。
总的来说,「AI科学家」创作需要经历4个主要的阶段:
创意生成——实验迭代——撰写论文——自动审稿
1 创意生成
简单来说,第一步,就是要AI脑暴。
过来人都知道,这是决定论文成败,最重要的一步。
如上所述,先给定一个起始代码模板,AI科学家可以自由探索,构思写作方向。
模板中,可能包括一个LaTeX文件夹,里面有用于论文写作的样式文件和章节标题。让AI自主搜索Semantic Scholar,确保提出的想法是最新的。
2 实验迭代
到了第二阶段,AI科学家首先要执行实验,通过生成图表方式,给出可视化结果。
在这个过程中,它会记录实验过程,每个图表包含的内容、注释,为论文撰写材料做准备。
3 论文撰写
AI科学家使用机器学习顶会,标准的格式LaTeX撰写论文,生成一份简洁、信息丰富的报告。
关于论文引用方式,它会利用Semantic Scholar,自主找到相关内容去引用。
4 自动论文审查
作者开发的AI自动化审稿系统,声称已经达到了人类评审的准确度。
如下实验结果显示,在评估来自ICLR 2022 500篇论文时,GPT-4o在单个样本情况下,平均准确度与人类近似。
这相当于建立一个开放式的反馈循环,AI利用先前的想法和反馈,改进下一代想法,从而模拟人类科研的方式。
意义在于,自动审查系统让LLM实现「自我改进」。
只有与最先进的LLM相结合,AI科学家的论文能够被AI审稿员,评判为顶会中「弱接受」(Weak Accept)的论文。

4篇论文


Sakana AI的研究者们甩出的这些演示,显示出AI科学家在机器学习研究的不同子领域进行学术研究的能力,是多么游刃有余。
无论是扩散模型、Transformers还是Grokking,没有它不能发的paper。
1 Diffusion Modeling
比如下面这篇「自适应双尺度去噪」的论文,虽然存在一些缺陷(比如对方法成功原因的解释,不够令人信服),但论文提出了一个有趣的新方向。
这个方向,在AI科学家自己和同行评审的实验中,已经显示出了良好的实证结果。

论文地址:https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf
具体来说,本文介绍了一种自适应双尺度去噪方法,专为低维扩散模型设计,旨在解决生成样本时全球结构与局部细节之间的平衡挑战。
虽然扩散模型在高维空间中表现出色,但其在低维数据中的应用仍然对理解基本模型行为和解决具有内在低维数据的实际应用至关重要。
然而,在这些空间中,传统模型往往难以同时捕捉宏观模式和细粒度特征,导致样本质量不佳。
为此,AI提出了一种新颖的架构,包含两个并行分支:一个处理原始输入的全局分支和一个处理放大版本的局部分支,并通过一个可学习的、时间步长条件的加权机制动态平衡它们的贡献。
在四个不同的二维数据集上评估了自己方法:circle、dino、line和 moons。
结果显示,与基线模型相比,样本质量显著提高,KL散度最多减少 12.8%。
总之,这项工作不仅增强了低维扩散模型,还提供了可能用于改善高维领域的见解,为在各种应用中推进生成建模开辟了新途径。
2 Language Modeling
而在这篇文章中,AI发明了一种多风格适配器,这是一种增强字符级语言模型风格意识和一致性的新方法。

论文地址:https://sakana.ai/assets/ai-scientist/multi_style_adapter.pdf
这种多风格适配器通过引入可学习的风格嵌入和风格分类头,解决了风格一致性的问题。
它与StyleAdapter模块协同工作,以调节基于Transformer语言模型的隐藏状态。
3 Language Modeling
在这篇文章中,AI探讨了将强化学习应用于Transformer模型训练过程中动态调整学习率的方法,旨在通过根据训练进度自动调整学习率,来提高训练效率和模型性能。

论文地址:https://sakana.ai/assets/ai-scientist/rl_lr_adaptation.pdf
这项研究的挑战性非常大,因为训练过程并不平稳,但又需要一种稳健的方法,来平衡学习率调整中的探索与利用。
AI提出了一种基于Q-learning的方法,将验证损失和当前学习率作为状态,调整学习率以优化训练过程。
结果表明,这种基于RL的学习率调整能更快地收敛,并获得更好的最终性能。
4 Grokking

论文地址:https://sakana.ai/assets/ai-scientist/weight_initialization_grokking.pdf
最后这篇文章,研究了权重初始化策略对Transformer模型中顿悟现象的影响。
AI系统地比较了五种初始化方法(PyTorch默认、Xavier、He、正交和Kaiming正态)在有限域的四个算术任务中的表现。
结果显示,不同初始化策略在收敛速度和泛化能力上存在显著差异。
AI的发现,为理解顿悟现象的机制提供了见解,并为类似学习场景中的初始化提供了实用指导。

大胆设想:全学术研究都能自动化?


为什么会想要做写论文的AI呢?
根据介绍,今年,Sakana AI的研究者们开发了一套方法,能够自动合并多个LLM的知识。
在最近的工作中,他们又发现,LLM可以通过发现新的目标函数,来微调其他LLM。
前沿模型的创造力,一再让研究者惊讶。
由此,他们就有了更大胆的设想:是否可以使用基础模型,把整个学术研究的过程都自动化?
他们成功了。
以前,前沿模型早就被用来帮助人类科学家来集思广益,或者写代码,但他们仍需要大量的人工监督,或是受限于特定的任务。






请到「今天看啥」查看全文