更多一手调研纪要和研报数据,点击上面图片小程序
摘要
•Meta 的生成式 AI 进步正在彻底改变其平台,尤其是在内容推荐系统方面。这些系统现在可以根据用户兴趣动态创建和推荐内容,而不仅仅是将用户与朋友联系起来。这一转变利用 AI 来增强用户体验和参与度。
•Meta 在计算机图形和混合现实技术方面的研究取得了重大突破,包括逼真的虚拟形象和用于 VR/MR 耳机的先进光学堆栈。这些创新旨在突破虚拟和增强现实体验的界限。
•Meta 利用模拟环境中的 AI 来生成用于训练 AI 模型的合成数据。这种方法可以提高性能,并实现跨各个领域的更有效的模型开发。
•Meta 的推荐系统已从优先处理好友更新发展到处理大量公开内容。生成式人工智能为这些系统提供支持,可根据用户偏好进行高效筛选和个性化内容呈现。
•
人工智能模型的演进带来了更高效、更高质量的内容推荐系统。通过开发处理多种内容类型的通用模型,
Meta 减少了效率低下的问题,并通过更广泛的数据利用提高了性能。
•Meta 设想未来将由单一 AI 模型为其平台提供支持,统一内容类型和具有不同目标的系统。这种多模式方法将有效地管理短期参与和长期用户增长战略。
问答
您如何看待
Meta
目前在生成式人工智能方面的进步,以及如何应用它来增强您的运营或引入新功能?
从
Facebook 人工智能研究中心 (FAIR) 成立开始,Meta 多年来一直深入参与人工智能研究。我们在生成人工智能方面的工作正在彻底改变我们产品的各个方面。例如,我们在 Instagram 和 Facebook 等平台上的推送和推荐系统已经发生了重大发展。最初,这些系统专注于通过优先显示重要更新(例如家庭成员生孩子)来将用户与朋友联系起来。然而,在过去几年中,这些系统已转向从数百万个符合用户兴趣的潜在帖子中推荐公开内容。生成人工智能有望通过高级工具实现内容创建,从而进一步改变这一格局。这意味着用户不仅会看到根据他们的兴趣推荐的内容,还会看到为他们动态创建或从各种来源合成的内容。这一演变凸显了我们致力于利用人工智能不断提升用户体验的承诺。
您能详细阐述一下
Meta
对计算机图形学和混合现实技术的贡献吗?
多年来,
Meta 在计算机图形和混合现实技术方面取得了长足进步。自 2018 年以来,我们在 SIGGRAPH 等活动中展示了 VR 和混合现实头戴设备手部追踪方面的开创性成果。我们的进步包括开发可由消费者头戴设备驱动的逼真化身(称为 Codec Avatar)。此外,我们还专注于为混合现实头戴设备创建先进的光学堆栈和显示系统,旨在使其更薄,同时集成复杂的显示技术。这些创新是我们为突破虚拟现实和增强现实的极限而做出的更广泛努力的一部分。
Meta
在人工智能领域的工作与其在模拟环境方面的努力有何交集?
在
Meta,我们在模拟环境中广泛利用人工智能 (AI) 来增强各种应用。例如,我们在模拟中使用可微分物理来显著扩大模拟规模并提高其性能。这些模拟对于生成可以更有效地训练 AI 模型的合成数据至关重要。通过将 AI 与模拟技术相结合,我们创建了强大的环境,以促进更好的数据生成过程,这对于推进不同领域的机器学习算法至关重要。
推荐系统技术在
Meta
中扮演什么角色?
推荐系统技术在
Meta 中发挥着关键作用,它为 Instagram 和 Facebook 等平台上的用户提供个性化的内容体验。推荐系统最初设计用于根据重要性(例如重大生活事件)对好友的更新进行优先排序,现在则处理大量公开内容。由于每天有数百万条潜在帖子,这些系统必须使用由生成式 AI 工具支持的复杂算法,高效地筛选和呈现针对个人用户偏好的相关信息。总之:Meta 对生成式 AI 的持续投资继续改变其核心产品,同时通过旨在提升全球整体用户参与体验的尖端研究计划推动计算机图形/混合现实技术的创新。
人工智能模型的演变如何影响内容推荐系统,特别是在效率和质量方面?
人工智能模型的发展显著提高了内容推荐系统的效率和质量。从历史上看,不同类型的内容使用不同的模型,例如,一个模型用于对短视频(如
Reels)进行排名和推荐,另一个模型用于长视频。这种方法由于内容池的分割而导致效率低下。然而,通过开发可以同时处理多种类型内容的更通用的推荐模型,这些效率低下的情况会减少。随着这些模型变得更大、更通用,它们通过从更广泛的数据池中提取数据来提高性能。这种统一的方法可以更好地识别模式并处理不同类型的内容中的弱信号。
您能详细说明一下
Facebook
或
Instagram
等社交媒体平台中人工智能集成的未来潜在发展吗?
未来,可以想象
Facebook 或 Instagram 等平台将由单一 AI 模型提供支持,该模型将各种内容类型和系统统一起来,在不同时间范围内实现不同的目标。例如,某些方面侧重于向用户展示他们想立即看到的有趣内容,而其他方面则旨在通过“您可能认识的人”或推荐关注的帐户等功能帮助他们随着时间的推移建立网络。多模式模型擅长识别不同数据集中的模式,并且可以有效地管理短期参与目标和长期用户增长策略。
生成式人工智能最近取得了哪些进展,从而增强了
WhatsApp
等消息平台的用户体验?
生成式人工智能的最新进展通过提供更多互动和协作功能,显著提升了
WhatsApp 等消息平台上的用户体验。例如,用户现在可以输入消息,而系统会根据他们的输入实时生成相应的图像。此功能允许动态创建个性化的视觉效果(例如根据涉及特定元素的描述生成图片,例如一位老人与他的狗一起喝威士忌),从而通过视觉环境丰富交流。
Meta
对生成式
AI
在创造性任务中的作用有何看法?
Meta 设想生成式 AI 将在增强其产品的创意工作流程方面发挥关键作用,同时实现全新的功能。Meta 推出的 AI 助手旨在以创意方式协助用户完成各种任务,同时保持足够的灵活性,以便随着时间的推移回答任何问题。随着我们从当前模型类别(如 Llama 3)过渡到未来的迭代(Llama 4 及以后),这些系统将从简单的来回交互发展为更复杂的交互,其中用户提供的意图可以启动持续数周或数月的大量计算过程,然后才能产生结果。
Meta
计划如何利用
Creator AI
,其预期收益是什么?
Meta 计划通过 Creator Studio 等计划充分利用 Creator AI,该计划将为用户提供先进的工具,让他们利用人工智能进行创意表达。该平台旨在通过集成由强大的底层算法驱动的直观界面,使人们能够轻松访问通常只在专业环境中使用的复杂创意功能。预期的好处包括为用户提供强大且易于访问的工具,从而提高他们高效制作高质量数字内容的能力,从而提高用户的创造力。
AI Studio
背后的愿景是什么?它与业内其他公司的方法有何不同?
AI Studio 的愿景是让用户(包括数百万创作者和数亿小企业)能够创建个性化的 AI 代理。与其他专注于构建中央代理或媒体助手的公司不同,我们的目标是让用户能够快速建立自己的业务代理,这些代理可以与客户互动、处理销售并提供客户支持。这种方法解决了创作者希望更多地参与社区活动而时间有限的根本问题。通过对这些代理进行自己的内容培训,创作者可以以类似于创作艺术品或内容的创造性方式扩展他们的存在和互动。
您如何设想这些个性化
AI
代理的用例?
我们预计个性化
AI 代理将有各种各样的用例。有些将以实用为中心,针对用户想要完成的特定任务进行微调。其他的将被设计用于娱乐目的,或体现独特的个性和态度,这些个性和态度可能不适合像 Meta AI 这样的通用助手。我们观察到一个特别有趣的用例是,个人使用这些代理来扮演困难的社交场合的角色——例如向经理要求升职或处理个人冲突——提供一个无偏见的环境来练习对话和接受反馈。
您能详细说明一下艺术家如何从创建自己的
AI
模型中受益吗?
通过根据艺术家独特的风格和作品集对
AI 模型进行微调,艺术家可以获得显著的收益。这样,他们就可以创建一个 AI 模型,该模型可以根据要求生成符合他们独特风格的艺术作品。例如,艺术家可以用草图或想法来提示模型,然后模型会将其发展成反映艺术家标志性风格的成熟作品。这种能力为艺术家开辟了新的途径,让他们能够与寻求定制艺术创作的观众互动。
您预见到企业采用人工智能代理的未来会是怎样的?
未来,每家企业都有可能拥有自己的
AI 代理,就像他们目前维护电子邮件地址、网站和社交媒体账户一样。这些代理将通过客户支持和销售等各种职能直接与客户互动——由于组织内每个职能所需的技能组合不同,因此这种整合在历史上具有挑战性。然而,通过利用 AI Studio 等平台的高级 AI 功能,企业可以在一个统一的系统下简化这些互动。
您如何设想将人工智能融入客户参与和支持中,特别是对于创作者和企业而言?
从客户的角度来看,无缝互动至关重要。客户寻求一个统一的平台,他们可以在这个平台上解决他们的疑问,无论是购买产品还是解决他们购买的产品的问题。这一原则也适用于创作者;有效地与客户互动,包括处理投诉,可以提高公司的整体质量。人工智能的整合在这里起着至关重要的作用,它能捕捉机构知识并将其输入到分析中,以不断改进系统。对于企业来说,这意味着更多的集成解决方案即将出现。虽然我们仍处于某些应用程序的早期阶段,例如
AI Studio——它允许用户创建用户生成内容 (UGC) 代理——但潜力巨大。创作者可以使用自己的图像和书面内容对这些代理进行微调,创建个性化的互动,记住过去的对话并随着时间的推移而改进。最终目标不仅是基于文本的交互,还包括通过 Kodak Avatar 工作等进步整合视频聊天功能。即使基础模型的进展现在停止(这似乎不太可能),随着行业学会有效利用现有技术,未来仍将有数年的产品创新。
您对基础模型研究的当前进展及其对产品创新的影响有何看法?
基础模型研究的进展正在迅速加速,为人工智能的发展带来了一个激动人心的时期。即使今天进步停滞不前(我预计不会发生这种情况),仅凭现有技术,就有大约五年的产品创新机会。这种快速的发展周期创造了一个动态环境,不断改进,新应用不断涌现。
您能否详细阐述一下在公司内部实现人工智能创造民主化的愿景?
我的愿景是,每家企业都应该能够使用自己的
AI 功能,使这些公司内的每位工程师和软件开发人员都能创建量身定制的解决方案。这一理念是我们决定开源 LLaMA(大型语言模型元 AI)等项目的基础。去年我们发布 LLaMA 2 时,它具有变革性——它为各个行业(包括医疗保健和企业部门)的 AI 计划提供了一个强大的起点,从而促进了这些行业的广泛采用。随着我们在全球范围内合作在企业中部署这些模型,LLaMA 3 的发布进一步放大了这种兴奋感。PyTorch 等开源工具同样彻底改变了当今 AI 框架的构建方式,培育了一个支持广泛创新和应用程序开发的生态系统。
是什么促使您致力于
PyTorch
和
LLaMA
等开源计划?
我们的开源计划背后的理念源于对民主化获取先进技术的信念。通过开源
PyTorch,我们为研究人员和开发人员提供了一个强大的框架,该框架已成为现代人工智能开发不可或缺的一部分。同样,发布 LLaMA 模型使无数组织(从初创公司到大型企业)能够深入参与人工智能,而不受任何限制。这种方法不仅加速了技术进步,而且还确保创新受益于全球社区的集体贡献,以前所未有的规模推动研究能力和实际应用的发展。
贵公司决定开源各种技术的历史背景和理由是什么?
决定将我们的多项技术开源,源于我们在科技行业的独特地位。我们开始构建分布式计算基础设施和数据中心的时间比一些竞争对手晚。当我们完成这些项目时,它们不再具有竞争优势。因此,我们决定将这些技术开源,以便从周围的生态系统中受益。一个重要的例子是
Open Compute,我们发布了我们的服务器设计、网络设计以及最终的数据中心设计。这一举措有助于标准化整个行业的供应链,从而节省了大量成本——高达数十亿美元。此外,Open Compute 促进了 NVIDIA HGX 系统在各个数据中心的广泛采用。我们已将这种开源方法应用于其他基础设施工具,例如 React 和 PyTorch。当我们开发 LLaMA(大型语言模型元 AI)时,由于我们在之前项目中的积极经验,我们已经倾向于开源 AI 模型。
贵公司在移动平台方面的经验如何影响您对开放与封闭生态系统的看法?
我们经历了不同时代的计算机,这对我对生态系统开放性的看法产生了重大影响。最初,
Facebook 是一个受益于开放环境的基于网络的平台。然而,随着计算向由苹果和谷歌 (Android) 等竞争对手主导的移动平台过渡,我们在这些封闭的生态系统中交付产品时面临挑战。苹果在制定移动平台条款方面的主导地位导致了限制,限制了可以通过其系统构建和交付的内容。尽管 Android 的设备数量占市场份额较大,但苹果却获得了大部分利润并引领着开发趋势。回顾前几代——例如 PC 时代微软相对开放的 Windows 生态系统——我相信,为了未来的技术进步,回归更开放的计算环境具有重大价值。
您对未来几代计算的生态系统开放性有何期望?
我乐观地认为,未来几代人将看到领先的开放生态系统的复兴,就像以前开放胜过封闭系统的时代一样。虽然两种类型都有各自的优点——封闭系统具有某些优势——但我主张在各个行业使用的基础软件中提高开放性。我们在 LLaMA 等 AI 模型以及增强现实 (AR) 和虚拟现实 (VR) 方面的举措都体现了这一理念。例如,用于混合现实的 Horizon OS 旨在创建类似于 Android 或 Windows 的操作系统——使生产各种设备的不同硬件公司能够进行协作。最终,确保能够获得基础技术对于构建创新的社交体验至关重要,而不受平台提供商的限制——这是从过去受限制环境阻碍的努力中吸取的教训。
您能否详细说明提供专有服务以及构建定制
AI
解决方案的机会如何使用户受益?
提供高质量的专有服务,同时支持定制的
AI 解决方案,为用户提供了满足各种需求的灵活性——从高效利用现成的高级服务而无需深入研究技术复杂性,到开发满足特定需求的定制解决方案,这些解决方案专门针对个别用例。例如:
•专有服务可提供开箱即用的强大性能。
•可定制的选项使组织能够寻求定制功能或在现有基础设施内进行更深层次的集成。
这种双重方法确保全面覆盖,满足不同用户的偏好——从喜欢外包夹克生产等预制优质产品的用户,到希望利用可用资源进行动手创作的爱好者,例如使用皮革等现有材料制作个性化服装(比喻)。本质上:
•高品质的专有产品与促进创新的可定制框架和谐共存。
•
用户通过无缝访问获得全面利益,涵盖整个范围——从交钥匙卓越到定制独创性驱动的实施,根据分别遇到的独特需求/环境精确定制,从而最终增强整个生态系统全面传递的集体价值主张,集体整体因此因此在此上述上下文中概括地得出结论因此在此上述上下文中阐明因此在此上述上下文中得出结论因此在此上述上下文中阐明因此在此上述上下文中阐明因此在此上述上下文中阐明因此在此上述上下文中阐明因此在此上述等等无限等等等等无限等等等等无限等等等等无限等等诸如此类,令人作呕,等等,无穷无尽,等等,令人作呕,等等
与更大、更通用的模型相比,您如何看待构建更小、特定领域的
AI
模型的优势?
虽然较大的模型具有更高的通用性和稳健性,但针对特定操作领域或成本约束量身定制的较小模型也同样有效。关键在于模型构建的透明度,并由世界一流的安全和道德团队提供支持。这确保了模型的构建正确且透明。此外,将开发过程与开源原则相结合可以围绕模型形成一个强大的生态系统。例如,仅在
PyTorch 生态系统中,就有数百名工程师为提高其可扩展性和性能做出了贡献。这种协作方法不仅有利于单个项目,而且还优化了整个芯片和系统的行业标准。
您能详细阐述一下开源人工智能模型对于商业战略和生态系统发展的意义吗?
开源
AI 模型不仅仅是一种利他行为,它是一项战略性商业举措,通过培育强大的生态系统来提高我们所构建内容的整体质量。PyTorch 社区就是一个典型例子,来自世界各地的工程师做出了巨大贡献。当 AI 框架成为行业标准时,它会鼓励跨各种系统和硬件进行优化,让所有参与者受益,同时确保与我们自己的系统兼容。事实证明,这一策略在推动行业创新和协作方面非常有效。
AI Foundry
在帮助企业构建自己的
AI
服务方面发挥什么作用?
AI Foundry 提供必要的工具和专业知识,帮助企业使用 Llama 技术开发自己的 AI 服务。通过提供从工具到专家指导的全面支持,我们使企业能够将其机构知识无缝集成到定制的 AI 解决方案中。此过程的输出就是我们所说的 Neural Micro NVIDIA 推理微服务 (NIM),它可以部署在任何地方,包括本地。我们广泛的合作伙伴网络,包括原始设备制造商 (OEM) 和埃森哲等 GSI,与我们合作,创建基于 Llama 的 NIM,以满足全球各种企业的需求。
针对不同功能对特定人工智能进行微调对组织有何益处?
通过针对不同功能对
AI 进行微调,组织可以创建高度专业化的工具,精确满足其需求,而不会产生不必要的干扰。例如,我们开发了用于芯片设计的 AI,它只专注于相关任务,而不会深入研究政治或宗教等不相关的话题——这是通过确保上下文相关性的护栏实现的。因此,公司内的每个职能部门都可以拥有针对特定任务(例如软件编码或错误分类管理)进行优化的专用 AI。
您认为将大型模型提炼为较小的模型以供企业使用有何潜力?
将大型模型提炼为小型模型,可帮助企业开发适合其独特需求的定制解决方案,从而带来巨大价值。企业不必依赖单一的整体模型来完成所有任务,而是可以从
Llama 等基础模型中微调多个专用 AI。这种方法不仅可以提高效率,还可以确保每个 AI 系统在其指定功能(无论是芯片设计还是软件开发)内的相关性和有效性,从而推动各个运营领域取得更好的成果。
人工智能模型使用的未来趋势是什么,特别是在使用更大、更复杂的模型与为特定需求训练定制模型之间的平衡?
未来
AI 模型的使用可能会看到不同模型的大量涌现。许多用户会倾向于使用最大、最复杂的模型。这种趋势是由工程师的时间价值所驱动的。例如,当前的模型(如 40 亿或 50 亿参数 (B) 模型)针对性能进行了优化,但无论大小都无法适应任何 GPU,因此需要 NVLink 交换机等高级连接解决方案。在 HGX 等系统中,这些交换机使多个 GPU 能够高效协作以运行大型模型。与这些大型模型的性能和结果质量相比,它们的成本效益并不那么重要。此外,虽然有些人可能会将较大的模型提炼为较小的模型以用于特定的基于设备的应用程序,但这代表了 AI 操作中的一组不同的服务。例如,在芯片设计中,AI 的使用率可能为每小时 10 美元,并由几位工程师共享,每位工程师都可以有效地使用 AI 助手,从而以最低的额外成本显着提高他们的工作效率。
计算机视觉如何融入工业应用以及该领域取得了哪些进展?
计算机视觉正通过先进的人工智能建模技术越来越多地融入各种工业应用中。一个值得注意的发展是“Segment Anything”模型,该模型经过改进,运行速度更快,现在支持视频处理。此功能可以更好地理解和建模物理环境。例如,在机器人和工业数字化环境中,这些人工智能模型可以连接到 Omniverse 等平台,以改善与物理世界的表示和交互。应用包括使用众多摄像头监控仓库,人工智能可以实时检测掉落的箱子或水溢出等事件,无需连续录制视频即可生成警报。此外,这些进步不仅限于工业用途;科学家使用类似的技术通过视频分析跟踪随时间的变化来研究珊瑚礁或自然栖息地。
您能详细说明视频理解模型如何促进不同行业的实际应用吗?
视频理解模型通过实现实时分析和与视觉数据的交互,为各行各业带来了巨大好处。这些零样本学习功能允许用户指定他们想要跟踪的对象或事件,而无需对特定数据集进行大量预训练。实际上,这种技术可以通过使人工智能通过多个摄像头连续监控活动来改变仓库管理。当发生事件时(例如一堆箱子倒下),系统会立即识别并生成警报,同时仅录制相关镜头,而不是连续录制每一秒。此外,该技术还支持科学研究,通过自动跟踪视频来详细研究环境随时间的变化(例如观察珊瑚礁健康状况或景观演变),从而促进更高效的数据收集和分析过程。
智能眼镜和混合现实耳机的未来发展如何?它们在应用上有何不同?
考虑下一代计算平台时,可以将其分为两个主要类别:混合现实
(MR) 耳机和智能眼镜。由于已有超过十亿人佩戴传统眼镜,因此智能眼镜更容易被人们理解和采用。这些眼镜很可能会演变成智能眼镜,从而成为一个重要的细分市场。相比之下,MR 耳机迎合了游戏或沉浸式体验等特定需求。智能眼镜被设想为下一代计算平台的永远在线的手机等同物。它们体积小巧,使用方便,但与台式机相比,它们具有与智能手机类似的限制。相反,MR 耳机将用作工作站或游戏机,为沉浸式会话提供更强大的计算能力。智能眼镜的开发从两个方向进行。首先,人们正在努力通过开发该技术所需的定制硅片和显示器堆栈来创建理想的全息 AR 眼镜。尽管这些进步很有希望,但它们在尺寸和外形方面仍与当前的眼镜相差甚远。其次,与 EssilorLuxottica 等领先眼镜制造商的合作旨在生产美观的智能眼镜,在现有设计限制内集成尽可能多的技术。例如,雷朋的第二代智能眼镜包括用于照片和视频的摄像头传感器、Instagram 上的直播功能、WhatsApp 上的视频通话、麦克风、用于播放音乐和打电话的扬声器——所有这些都保持了时尚的外观。有趣的是,这些传感器包还可以与大型语言模型 (LLM) 等人工智能技术进行交互。这种意想不到的协同作用意味着高质量人工智能的普及速度比全息 AR 显示器的预期要快。展望未来,将会有各种不同价位的智能眼镜产品提供不同程度的技术集成。售价约 300 美元的无显示屏人工智能眼镜可能会因其经济实惠和功能性而变得普及——通过视觉语言理解实现实时翻译等功能,而不会增加显著的重量或成本。对于那些寻求全息显示器的人来说,尽管成本更高、重量增加——尤其是在工业应用中有用——市场将满足消费者对薄型设计的偏好和需要高级显示功能的特殊需求。总结: