科学家创造出能模仿大脑“观看”视频的人工智能

人工智能学家 · 公众号 · AI · 2024-12-11 15:17

正文

想象一下，一个人工智能 (AI) 模型能够以人脑的微妙方式观看和理解移动图像。现在，斯克里普斯研究所的科学家们通过创建 MovieNet 将这一想法变成了现实：这是一种创新的人工智能，它处理视频的方式与我们的大脑随着时间的推移解读现实场景的方式非常相似。

这种受大脑启发的人工智能模型在 2024 年 11 月 19 日发表在《美国国家科学院院刊》上的一项研究中进行了详细介绍，它可以通过模拟神经元（或脑细胞）如何实时感知世界来感知移动场景。传统人工智能擅长识别静止图像，但 MovieNet 引入了一种机器学习模型来识别复杂、变化的场景的方法——这一突破可能会改变从医疗诊断到自动驾驶等领域，在这些领域中，辨别随时间推移的细微变化至关重要。MovieNet 也比传统人工智能更准确、更环保。

“大脑不仅仅看到静止的画面；它创造了一个持续的视觉叙事，”资深作者、多里斯神经科学中心主任、斯克里普斯研究中心哈恩神经科学教授 Hollis Cline 博士说。“静态图像识别已经取得了长足的进步，但大脑处理流动场景的能力——比如看电影——需要一种更为复杂的模式识别形式。通过研究神经元如何捕捉这些序列，我们已经能够将类似的原理应用于人工智能。”

为了创建 MovieNet，克莱恩和第一作者、斯克里普斯研究所的研究员 Masaki Hiramoto 研究了大脑如何将现实世界场景处理为短片段，类似于电影片段。具体来说，研究人员研究了蝌蚪神经元如何对视觉刺激作出反应。

“蝌蚪有非常好的视觉系统，而且我们知道它们可以有效地检测移动刺激并做出反应，”平本解释道。

他和克莱恩发现了一些神经元，它们对电影般的特征（如亮度变化和图像旋转）作出反应，并能识别移动和变化的物体。这些神经元位于大脑的视觉处理区域，即视顶盖，它们将移动图像的各个部分组合成一个连贯的序列。

这个过程类似于透镜拼图：每个碎片单独看可能没有意义，但它们组合在一起形成一幅完整的运动图像。不同的神经元处理现实生活中运动图像的各种“拼图碎片”，然后大脑将它们整合成一个连续的场景。

研究人员还发现，蝌蚪的视顶神经元能够分辨出视觉刺激随时间发生的细微变化，捕捉大约 100 到 600 毫秒的动态片段而非静态帧中的信息。这些神经元对光和影的模式高度敏感，每个神经元对视野特定部分的反应有助于构建场景的详细地图，形成“电影片段”。

Cline 和 Hiramoto 训练 MovieNet 模拟这种类似大脑的处理过程，将视频片段编码为一系列细小、可识别的视觉线索。这使得 AI 模型能够区分动态场景之间的细微差别。

为了测试 MovieNet，研究人员向它展示了在不同条件下蝌蚪游泳的视频片段。MovieNet 不仅在区分正常和异常游泳行为方面达到了 82.3% 的准确率，而且比受过训练的人类观察者的能力高出约 18%。它甚至比现有的人工智能模型（如谷歌的 GoogLeNet）表现更好——尽管后者拥有大量的训练和处理资源，但准确率仅为 72%。

克莱恩指出：“这就是我们看到的真正潜力。”

该团队发现，MovieNet 不仅在理解不断变化的场景方面比目前的 AI 模型更胜一筹，而且它使用的数据和处理时间更少。MovieNet 能够在不牺牲准确性的情况下简化数据，这也使其有别于传统 AI。通过将视觉信息分解为基本序列，MovieNet 可以有效地压缩数据，就像保留关键细节的压缩文件一样。

除了高精度之外，MovieNet 还是一种环保的 AI 模型。传统的 AI 处理需要大量能源，对环境造成严重影响。MovieNet 的数据要求较低，提供了一种更环保的替代方案，既能节约能源，又能达到高标准。

“通过模仿大脑，我们成功地让人工智能的要求大大降低，为不仅功能强大而且可持续的模型铺平了道路，”克莱恩说。“这种效率也为在传统方法成本高昂的领域扩大人工智能的规模打开了大门。”

此外，MovieNet 还具有重塑医学的潜力。随着技术的进步，它可能会成为识别早期疾病细微变化的宝贵工具，例如检测心律不齐或发现帕金森病等神经退行性疾病的最初迹象。例如，与帕金森病相关的细微运动变化通常很难被人眼辨别，但人工智能可以及早标记出来，为临床医生提供宝贵的干预时间。

此外，MovieNet 能够感知蝌蚪接触化学物质时游动模式的变化，这可以带来更精确的药物筛选技术，因为科学家可以研究动态细胞反应，而不是依赖静态快照。

Hiramoto 表示：“目前的方法会错过关键变化，因为它们只能分析间歇拍摄的图像。随着时间的推移观察细胞意味着 MovieNet 可以追踪药物测试过程中最细微的变化。”

展望未来，Cline 和平本计划继续完善 MovieNet 适应不同环境的能力，增强其多功能性和潜在应用。

“从生物学中汲取灵感将继续成为推动人工智能发展的沃土，”克莱恩说。“通过设计像生物体一样思考的模型，我们可以达到传统方法无法实现的效率水平。”

这项名为“识别电影编码神经元使电影识别人工智能成为可能”的研究得到了美国国立卫生研究院（RO1EY011261、RO1EY027437 和 RO1EY031597）、哈恩家族基金会和哈罗德 L. 多里斯神经科学中心捐赠基金的资助。

阅读报告全文，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

Air Street Capital《2024 年人工智能现状报告》
未来今日研究所：2024 技术趋势报告 - 广义计算篇
科睿唯安中国科学院 2024 研究前沿热度指数报告
文本到图像合成：十年回顾
《以人为中心的大型语言模型（LLM）研究综述》
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告
理解世界还是预测未来？世界模型的综合综述
Google Cloud CSA2024 AI 与安全状况调研报告
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
国际可再生能源署 IRENA2024 年全球气候行动报告
Cell: 物理学和化学、人工智能知识领域的融合
智次方 2025 中国 5G 产业全景图谱报告
未来今日研究所：2024 技术趋势报告 - 移动性，机器人与无人机篇
Deepmind：AI 加速科学创新发现的黄金时代报告
PitchBookNVCA2024 年第三季度全球风险投资监测报告
德科 2024 年未来全球劳动力报告
高工咨询 2024 年协作机器人产业发展蓝皮书
国际能源署 IEA2024 年全球能源效率报告
基因慧基因行业蓝皮书 2024 - 2025
普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战
中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书
中移智库 2024 先进感知新技术及新应用白皮书
智次方研究院 2025 中国 AIoT 产业全景图谱报告
未来今日研究所：2024 技术趋势报告 - 人工智能篇
国际电联：迈向衡量数字经济的通用框架的路线图
联合国粮食与农业组织：2024 年世界粮食安全和营养状况
大语言模型综述
李飞飞等，AI 智能体：探索多模式交互的前景综述
哈尔滨工业大学 - ChatGPT 调研报告
2024《美国核部署战略报告》最新文件
清华大学：AIGC 发展研究 3.0 发布版 b 版
OpenAI：2024 年 OpenAI o1 大模型技术报告
Verizon2024 年世界支付安全报告
皇家学会哲学学报从复杂系统角度评估人工智能风险
复旦大学大模型 AI 代理的兴起和潜力：综述
经合组织 OECD2024 年气候行动监测报告
Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态
2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch
《全球金融稳定报告》把舵定航不确定性、人工智能与金融稳定
瑞士洛桑联邦理工学院《人工智能中的 - 创造力：进展与挑战》
《你所需要知道的理 - 论：人工智能、人类认知与决策》牛津大学最新 53 页报告
世界经济论坛新兴技术时代的网络弹性导航：应对复杂挑战的协作解决方案 2024
ADL 理特咨询 2024 汽车出行未来展望报告
2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道
科学时代的大语言模型中的人工智能
Gartner2025 年重要战略技术趋势报告
CBInsights2024 年第三季度全球人工智能投融资状况报告
TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻
天津大学 2024 大模型轻量化技术研究报告
欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版
美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告
国际原子能机构 2024 年世界聚变展望报告
复旦大学 2024 大语言模型的能力边界与发展思考报告
安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图
YouGov2024 美国公众对人工智能 AI 的态度调研报告
麦肯锡中国报告：《中国与世界》完整版
麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域
Project Sid，一个旨在模拟多智能体交互以研究 AI 文明的项目
德国研究与创新专家委员会德国研究创新与科技成果报告
2024 年欧洲关键产业的科技重塑研究报告
智能体专题报告之二 - 智能体时代来临具身智能有望成为最佳载体
ActivateConsulting 2025 年顶级技术和媒体发展趋势报告
兰德全球灾难风险评估
斯坦福李飞飞《AI agent 综述》Agent AI 开启多模态交互新纪元

科学家创造出能模仿大脑“观看”视频的人工智能

正文

请到「今天看啥」查看全文