不用看就能懂，快速理解海量视频内容_阿里开发者的专栏文章_微信文章

阿里妹导读

想要快速理解海量视频内容？借助视频视觉理解技术，您可以轻松实现视频内容的自动化分析和信息提取。这项AI技术不仅大幅提升了工作效率，还为开发者提供了更多创意和应用的可能性。

视频太长，没时间看完？想要快速获取文字摘要以提高信息获取效率？
“生肉”视频没有字幕，难以理解？希望更好地掌握视频内容？
视频太多，难以管理？想要快速分类并加上精准标签？
想根据游戏视频实时分析玩家行为，实现精准解析？

现在，这一切都迎刃而解！借助视频视觉理解技术，您可以轻松实现视频内容的自动化分析和信息提取。这项AI技术不仅大幅提升了工作效率，还为开发者提供了更多创意和应用的可能性。

通过下图展示的1928年阿姆斯特丹奥运会的实际案例，您可以直观感受到AI在处理视频内容方面的高效与精准。无论是自动摘要、字幕生成、内容分类还是行为分析，视频视觉理解都能为您带来前所未有的便利和创新体验。

‍

一、技术架构

本文介绍的视频内容提取主要使用了以下三种基础设施和云服务，函数计算 FC 函数、对象存储 OSS Bucket和百炼模型服务。其中函数计算 FC 函数用于提取视频关键帧和调用百炼模型服务 API，进行视频信息提取。对象存储 OSS Bucket用于存储视频关键帧图片。百炼模型服务用于调用API使用视觉模型和文本模型最终实现视频理解与内容提取。

在视频理解与内容提取的流程中，会先使用计算资源（本方案使用的函数计算）构建的 Web 服务来接收用户的请求，在函数计算内部将视频关键帧图片上传到对象存储 OSS 中，然后将关键帧图片地址和提示词发送至百炼模型服务，由视觉模型处理后，再次调用文本模型处理，最终将结果呈现出来。

下图展示了完整的技术架构，视频上传后即可一键获得精炼版文字内容。