专栏名称: AIWalker
关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营,原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。
目录
相关文章推荐
每日人物  ·  大降价的“酸奶刺客”,中产都不想买了 ·  21 小时前  
环球人物  ·  曾年入70亿的他,栽了 ·  昨天  
人物  ·  那些靠骑行「发疯」的年轻人 ·  2 天前  
51好读  ›  专栏  ›  AIWalker

FAIR十年之路:以开放研究促进人工智能前沿SOTA

AIWalker  · 公众号  ·  · 2023-12-10 22:00

正文

点击下方卡片,关注AIWalker公众号

底层视觉干货,即可获取

译文源自:https://ai.meta.com/blog/fair-10-year-anniversary-open-science-meta/ [如有侵权,请联系删文]

在过去的10年里,人工智能领域经历了深刻的变革,在这一切中,FAIR一直是许多人工智能研究突破的来源,也是以开放和负责任的方式进行研究的灯塔。


1过去十年

看看十年的进步是什么样子是很有趣的。例如,考虑一下在对象检测的世界中发生了什么。

  • 在10多年前,神经网络才能够通过AlexNet第一次识别图像中的数千个物体。
  • 2015年,Faster R-CNN为我们带来了实时目标检测
  • 2017年,使用Mask R-CNN实现了目标实例分割
  • 2019年,使用全景特征金字塔网络(FPN)实现了统一架构和语义分割。在短短七年的时间里,FAIR在人工智能最基本的问题之一上取得了巨大进展。
  • 在2023年,我们可以分割任何东西。这些时刻中的每一个都直接导致了我们在Meta的同事以及世界各地的人们创建的几个下游应用程序和产品的步骤变化。

我们在人工智能的许多其他问题上都看到了类似的轨迹。另一个很好的例子是过去五年我们在机器翻译方面的工作,我们是第一批无监督机器翻译技术的先驱之一,这使我们能够在不依赖英语的情况下引入跨100种语言的翻译模型。这直接导致了我们“不让语言落后”的突破,最近还将文本到语音和语音到文本技术扩展到1000多种语言。为了实现这些结果,我们在自己的研究团队、更广泛的研究社区(共享数据集、任务和竞赛)、跨Meta的产品团队之间培养了源源不断的想法,他们部署了技术来服务世界各地数十亿人,以及像维基百科这样的外部合作伙伴,他们可以从这项技术中受益,以增强他们自己的服务。

回顾过去,很容易找出那些通过时间考验的贡献。但在旅程的早期,总是有更多的不确定性。对于每一个突破,都有数百个想法被探索但没有成功。我上面描述的时间线被简化为几个快照,但现实是研究的进展要密集得多,也复杂得多。成功的研究需要拥抱这种不确定性,承担计算好的风险,并利用我们的经验和直觉来追求最有希望的假设。这需要远见、直觉、严谨、耐心、资源和扎实的团队合作!

2现在

就研究影响而言,今年是公平的非凡之年。今年我们发布了Llama,一个开放的预训练大型语言模型。随后又发布了几个其他版本,将最先进的技术推向了我们想象之外。

我们的工作和研究人员在多个会议上获得了最佳论文奖,包括ACL, ICRA, ICML和ICCV,涵盖了人工智能研究的大多数子领域。我们的工作被世界各地的新闻媒体报道,并在社交媒体平台上被转发了数百万次。所有的Meta都致力于我们发行《Llama 2》的开源策略。

在Connect上,我们发布了新的AI产品和体验,这些产品和体验现在已经掌握在数百万人的手中,这是早期研究工作的顶峰,然后被Meta的生成性AI和产品团队放大。

这一势头没有放缓的迹象。

今天,我们宣布了新的模型、数据集和更新,涵盖音频生成、翻译和多模态感知。作为Voicebox的继承者,Audiobox通过统一语音、音效和音景的生成和编辑功能,以及各种输入机制(包括自然语言提示),正在推进音频的生成AI。

在我们的SeamlessM4T工作的基础上,Seamless引入了一套人工智能语言翻译模型,可以保留表达并改进流。ego- exo4d用一个包含自我中心和外中心观点的基础数据集和基准套件扩展了我们在自我中心感知方面的工作。自我中心视角反映的是参与者的视角,而外中心视角反映的是周围的场景和情境。这两种视角共同为人工智能模型提供了了解复杂人类技能的新窗口。

Meta独特地准备好了解决人工智能的最大问题——没有多少公司有资源或能力进行我们在软件、硬件和基础设施方面的投资,将我们的研究成果编织成数十亿人可以受益的产品。FAIR是Meta成功的关键,也是世界上唯一具备实现真正突破的先决条件的组织之一:拥有行业中最聪明的头脑,开放的文化,以及最重要的:进行探索性研究的自由。这种自由帮助我们保持敏捷,并为构建未来的社会联系做出贡献。

3未来之路

虽然过去十年中人工智能的大部分进展是通过分而治之的方法实现的,将问题分解为单独的明确定义的任务,但在未来十年中,我们将越来越多地研究将拼图拼在一起的方法,以推进人工智能。基础模型的兴起只是一个开始:具有越来越多通用能力的大型模型,我们可以灵活地适应我们的特定需求和价值观。可用于推理和计划的世界模型将越来越普遍,使我们能够克服当前AI模型的局限性。我们预计,未来将出现跨平台部署的大量多样的ai,而不是单一的AGI,这将改变我们如何工作,如何玩耍,如何连接,如何创造,如何生活。

追求这条道路还需要我们深入了解如何从头到尾负责任地建立人工智能模型。我们仍然致力于安全负责地开展这项工作。我们对开放科学的承诺是其中的关键部分,并将继续成为FAIR的DNA的一部分。当我们的目标是公开分享我们的工作时,无论是我们的论文、代码、模型、演示还是负责任的使用指南,它都有助于我们设置质量和责任的最高标准,这是我们帮助社区构建更好的AI解决方案的最佳方式。这也直接帮助Meta构建更安全、更强大、更公平和透明的AI解决方案,并可以使世界各地使用我们产品的许多不同的人受益。

当我期待下一个十年的公平,从愿景与雄心出发去解决人工智能中最困难、最基本问题。我感谢Meta上的许多团队和人员,他们为我们的成功做出了贡献。如果我们继续推动解决人工智能,同时忠实于我们的责任、卓越和开放的文化,我期待看到未来会发生什么!


扫描下方二维码,或加微信:AICVerX2,添加「小二」微信,第一时间获取底层视觉与基础AI相关论文,请备注研究方向+学校/公司+昵称

扫码或加微信号: AICVerX2,获取最新底层视觉论文


▲点击上方卡片,关注AIWalker公众号

整理不易,请点赞和在看