点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:深蓝AI
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群
扫描下方二维码,加入
3D视觉知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门视频课程(星球成员免费学习)
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
ICML2024大会于上周日(7.21)在奥地利召开,并且于昨日(7.24)正式公开best paper与test of time奖项,多项工作为
AIGC
方向的成就,其中半数以上获奖一作来自Google AI。
DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition
作者:Jeffrey Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell
在AI的图像识别领域,我们需要教会计算机如何“看”图像。这通常涉及到从图像中提取有用的特征。这篇论文探讨了如何使用深度学习模型从图像中自动提取这些特征。作者们训练了一个大型的深度卷积神经网络(一种深度学习模型),让它在大量图像上学习如何识别不同的对象。然后,他们从这个网络中提取了一种特殊的特征,称为“DeCAF”。这些特征能够捕捉图像中的重要信息,帮助计算机更好地理解图像内容。
本工作中一个尤为关键的发现是,这些DeCAF特征不仅在训练网络时使用的数据集上表现良好,而且能够很好地泛化到新的、不同的视觉任务上,比如场景识别、领域适应和细粒度识别等。此外,论文还提到了一种学习方法,即在有少量标注数据的情况下,如何利用大量未标注数据来训练模型。这在现实世界中非常有用,因为在很多情况下获取大量标注数据是非常困难和昂贵的。
作者们还对DeCAF特征进行了可视化,展示了它们如何在不同的视觉任务中捕捉图像的语义内容,即使在模型没有直接训练过这些任务的情况下。
Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo
作者:Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse
机构:多伦多大学&Vector Institute(向量研究所)
在大型语言模型(LLMs)中,很多能力和安全技术可以看作是从给定的奖励或潜力函数定义的未归一化目标分布中进行采样。这篇论文使用顺序蒙特卡洛方法来解决这些概率推断问题。
本文研究者们提出了一种新颖的方法,利用学习到的“扭曲函数”来估计每个时间步的预期未来价值,这使得在生成语言模型时可以集中计算资源于有前景的部分序列。为了学习这些扭曲函数,作者提出了一种新的对比学习方法,这与软强化学习有着丰富的联系。
论文还提出了一种评估语言模型推断技术准确性的方法,通过新的双向SMC界限来估计归一化常数的对数,进而估计推断分布和目标分布之间的KL散度。
作者展示了扭曲SMC在从预训练模型中采样不良输出、生成不同情感的评论以及执行填充任务方面的有效性。
Genie: Generative Interactive Environments
作者:Jake Bruce, Michael Dennis, Ashley Edwards, et al.
这篇论文介绍了一个名为Genie的新型生成性人工智能系统,由DeepMind开发,它能够根据文本、合成图像、照片甚至手绘草图等提示生成各种互动式、可控制的虚拟环境。
Genie拥有11亿个参数,这使得它成为一个基础性的世界模型,能够处理复杂的空间和时间信息。Genie的训练不需要具体的行动标签或其他特定领域的要求,它通过观察互联网视频自动学习潜在的动作。用户可以在生成的环境中逐帧进行操作,即使在没有真实动作标签的情况下也能实现。Genie 使用了超过 200,000小时的互联网游戏视频进行训练,这使得它能够学习到丰富的动态和行为。大多数机器学习模型需要大量的标注数据来学习,但Genie能够无需这些标注就能理解视频内容,这大大降低了数据准备的成本和复杂性。Genie学习到的潜在动作空间有助于训练代理(智能体)模仿未见视频中的行为,为未来通用型代理的培训铺平了道路。
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
作者:Patrick Esser, Sumith Kulal, Andreas Blattmann, et al.
主要讨论了一种用于高分辨率图像合成的新型人工智能技术。本文提出了Rectified Flow(直方流),一种新的生成模型,它通过在数据和噪声之间建立一条直线连接来生成图像。相比于传统的弯曲路径,直线路径更简单,也更容易控制,减少了生成过程中的错误累积。此外,论文还提出了一种新的噪声采样方法,它通过偏向感知上相关的尺度来改善训练直方流模型的效率。
研究者们提出了一种基于Transformer的新型架构,用于文本到图像的生成。这种架构使用独立的权重处理图像和文本信息,并且允许图像和文本之间的双向信息流动,从而提高了对文本的理解能力,改善了排版和人类偏好评价。通过大规模的实验,研究者们证明了该方法在高分辨率文本到图像合成方面优于现有的扩散模型,本文的模型在各种评价指标和人类评估中表现更好。
这项技术可以用于多种应用场景,比如艺术创作、游戏设计、虚拟现实等,具有广泛的实际应用价值。
Debating with More Persuasive LLMs Leads to More Truthful Answers
作者:Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rocktaschel, Ethan Perez
机构:Google DeepMind&UCL DARK
这篇论文探讨了如何通过辩论来提高大型语言模型(LLMs)回答问题的真实性。论文提出使用辩论的方式来提高模型输出答案的质量。在这个机制中,两个专家模型(辩手)为不同答案提供论证,一个非专家模型(裁判)选择答案。
本文研究的核心问题是较弱的模型(非专家)是否能够评估更强的模型(专家)。这里的“弱”和“强”是指对信息的访问权限,而非模型的智能水平。在QuALITY阅读理解任务中,专家模型可以访问文本信息,而非专家模型则不能。专家使用引用工具提供文本中的直接证据,而非专家则基于辩论内容选择答案。
研究发现,辩论可以帮助非专家模型和人类裁判更准确地回答问题。在使用辩论的情况下,非专家模型和人类裁判的回答准确率分别达到了76%和88%,远高于没有使用辩论时的48%和60%。通过优化辩论者使其更具说服力,可以进一步提高非专家裁判识别辩论中真实答案的能力。研究中提出的“说服力”指标不需要真实标签,这意味着即使在没有标准答案的情况下,也可以通过辩论来提高模型的对齐度。人类裁判在辩论中的表现优于当前的LLMs,这表明人类在监督高级AI系统方面仍具有潜力。
Stealing part of a production language model
作者:Nicholas Carlini, Daniel Paleka, Krishnamurthy (Dj) Dvijotham, et al.
论文介绍了一种新的攻击方法,可以从未公开的黑盒语言模型(如OpenAI的ChatGPT或Google的PaLM-2)中提取出模型的嵌入投影层(embedding projection layer)。这相当于是模型的“大脑”的一部分。
研究者们展示了通过典型的API访问,花费不到20美元就可以提取出OpenAI的ada和babbage语言模型的整个投影矩阵。这表明这些模型的隐藏维度分别是1024和2048。论文中的方法不仅有效,而且效率很高,适用于那些API暴露了完整的logprobs(对数概率)或“logit bias”(对数偏差)的生产模型。研究者们通过向模型的API发送有针对性的查询,利用模型的输出来提取嵌入维度或最终权重矩阵。这种方法不同于以往的方法,它不是从输入层开始重建模型,而是自上而下直接提取模型的最后一层。
论文最后还讨论了可能的防御措施和缓解措施,并讨论了未来工作可能扩展这种攻击的影响。虽然这种攻击只恢复了整个模型的一小部分,但能够从生产模型中窃取任何参数这一事实本身就令人惊讶,研究者也提出了关于这种攻击可能扩展以恢复更多信息的担忧。
VideoPoet: A Large Language Model for Zero-Shot Video Generation
作者:Dan Kondratyuk, Lijun Yu, Xiuye Gue, et al.
本文介绍了一个名为VideoPoet的新型大型语言模型,它专门用于从多种信号(如图像、视频、文本和音频)合成高质量视频。VideoPoet能够同时处理和理解图像、视频、文本和音频,这就像是它能够“听懂”你的话,同时“看到”你的画面和“读”你的文字。
VideoPoet拥有零样本学习(Zero-Shot Learning)的能力,这意味着VideoPoet在没有经过特定任务训练的情况下,也能够生成视频。零样本学习的能力减少了对大量训练数据的依赖,使得模型更加灵活和通用。这类似于给一个从未烹饪过的人一些食材,他能够不看食谱就做出一道菜。VideoPoet还可以生成高保真度的动作和场景,它生成的视频十分流畅和逼真。
VideoPoet的训练分为两个阶段:预训练和任务特定适应。在预训练阶段,它学习处理多种生成任务;任务适应阶段,它可以根据特定任务进一步优化。VideoPoet不仅可以生成视频,还可以进行视频编辑和风格化,这就像是它不仅能画画,还能给画上色和添加特效。
Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
作者:Aaron Lou, Chenlin Meng, Stefano Ermon
本文提出了一种新的离散扩散模型(Score Entropy Discrete Diffusion,简称SEDD),它是为了改进自然语言等离散数据领域的生成模型而设计的。
传统的扩散模型在处理连续数据(如图像)上表现出色,但在处理离散数据(如自然语言)时效果不佳。论文提出了一种新的损失函数——得分熵,它能够自然地将得分匹配(score matching)扩展到离散空间,从而提高模型性能。利用得分熵,研究者构建了SEDD模型,这是一种逆向离散扩散过程的参数化模型,它可以直接学习数据分布的比率。在标准的语言建模任务上,SEDD模型在相同模型大小的情况下,比其他语言扩散模型有显著的性能提升(降低困惑度25-75%),并且与自回归模型(如GPT-2)竞争。SEDD生成的文本质量高,且在生成过程中不需要像温度调整这样的分布退火技术,同时它还支持可控的文本填充(infilling)。
Position: Measure Dataset Diversity, Don't Just Claim It
作者:Dora Zhao, Jerone T. A. Andrews, Orestis Papakyriakopoulos, Alice Xiang
本作提出一个观点:关于如何准确衡量机器学习(ML)数据集的多样性,而不仅仅是声称数据集具有多样性。论文指出,尽管机器学习数据集常常被视为客观中立的,但实际上它们包含了抽象和有争议的社会构建,如价值观、偏见和质量等。
数据集的创建者经常使用“多样性”、“偏见”和“质量”等价值导向的术语来描述数据集,但这些术语缺乏明确的定义和验证。论文强调需要更精确和明确的定义来确定数据集是否真正体现了所声称的多样性。作者通过借鉴社会科学中的测量理论,提出了一种框架,用于概念化、操作化和评估数据集中的多样性。这种方法有助于将抽象的社会构建转化为可测量的构造。论文强调在数据集创建过程中需要透明度,包括如何定义多样性、数据收集过程如何与定义一致,以及如何通过可靠性和有效性来评估多样性。作者通过对“Segment Anything”数据集的案例研究,展示了如何将他们的建议应用于实际的数据集收集过程。
本作的观点和方法不仅适用于数据集创建,还可能对机器学习和科学研究的透明度和可重复性产生更广泛的影响。本文提出了一种新的、系统的、基于理论的方法来衡量和验证机器学习数据集的多样性,这对于推动机器学习领域的公平性、透明度和科学性具有重要意义。
Information Complexity of Stochastic Convex Optimization: Applications to Generalization, Memorization, and Tracing
作者:Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel M. Roy
论文探讨了学习算法在训练数据上的记忆(即算法对训练数据的了解程度)如何影响其学习效果。理想中,学习算法应该只从训练数据中提取相关信息,避免记忆无关信息。通过条件互信息(Conditional Mutual Information, CMI)这一概念来量化学习算法在训练数据上的信息泄露程度。CMI衡量的是,给定某些额外信息的情况下,学习算法的输出对训练样本的依赖程度。
本项工作精确描述了学习算法的准确性和其CMI之间的权衡。研究发现,要达到较小的误差,学习算法必须有较大的CMI,这意味着它需要记忆更多的训练数据。通过设计一种对手(adversary),本作展示了在特定的SCO问题中,可以准确地识别出训练样本中相当一部分数据点,这表明记忆在这些学习问题中是必要的。此外,本文还讨论了在SCO问题中,不存在固定大小(与维度无关)的样本压缩方案,这意味着学习算法不能简单地通过压缩训练样本来提高效率。
这篇论文所提供的机器学习中泛化和记忆关系相关的理论分析,对理解复杂模型(如深度神经网络)的行为至关重要。本文挑战了传统观点,即学习算法应该避免记忆无关信息,而是展示了在某些情况下,记忆可能是获得良好泛化能力的必要条件。
Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining
作者:Florian Tram`er, Gautam Kamath, Nicholas Carlini
本作主要探讨了在大规模公共数据预训练的基础上进行差分隐私学习的问题。
论文首先指出:虽然利用大规模公共数据集对非隐私模型进行预训练可以显著提高差分隐私机器学习的性能,但这种做法可能会损害隐私。因为即便是从公共网络数据集中预训练的模型,也可能记住了一些敏感信息。论文提出,即使是公开可用的数据,也可能包含敏感信息。如果一个标榜为“隐私保护”的模型记住了这些数据,一旦泄露,仍然会侵犯数据主体的隐私。
接着,论文对现有的机器学习基准测试是否适合衡量预训练模型对敏感领域的泛化能力提出质疑,尤其是当这些领域在公共网络数据中代表性不足时。论文指出,目前要实现高性能的差分隐私学习,通常需要使用非常大的模型,这些模型往往只能在强大的计算平台上运行,这意味着用户需要将他们的私有数据外包给第三方,这本身可能就是一种隐私损失。
最后,研究者们讨论了差分隐私学习领域的潜在发展路径,包括更细致地考虑互联网数据的隐私问题、构建隐私友好的预训练模型、设计更好的基准测试来衡量隐私学习的进步,以及促进对机器学习隐私的全面考虑。
总的来说,这篇论文通过深入分析和批判性思考,为差分隐私学习领域提供了新的视角和研究方向。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群