专栏名称: 阿里开发者
阿里巴巴官方技术号,关于阿里的技术创新均将呈现于此
目录
相关文章推荐
滴滴招聘  ·  今天,听一听 {她} 们 D 声音 ·  2 天前  
海外独角兽  ·  Lovable:3 个月 ARR 破 ... ·  4 天前  
51好读  ›  专栏  ›  阿里开发者

AI练习场|如何从多模态文件中自动提取有效信息?

阿里开发者  · 公众号  · 科技公司  · 2024-12-11 08:30

主要观点总结

本文是一篇关于多模态文件信息抽取的实战教程,介绍了利用AI技术从多种类型数据中自动提取有用信息的技术。文章内容包括引言、实操教程两部分。

关键观点总结

关键观点1: 多模态文件信息抽取的重要性

随着信息技术的快速发展,数据的获取与处理变得尤为重要。多模态文件信息抽取能力能够显著提高信息处理的效率和准确性,大幅提升数据处理效率。

关键观点2: 实战教程的内容

教程以提取文档文件信息为例,介绍了资源部署、创建并部署默认环境、使用官方示例进行信息提取等步骤。同时提供了下载源码进行二次开发的链接。

关键观点3: 信息提取的两种方式

信息提取时,可以使用默认填写的关键词,模型会根据关键词提取出对应的信息。另外,如果不使用关键词,模型会自动分析理解,但可能会出现每次返回的差异性。


正文

一、引言

随着信息技术的快速发展,数据的获取与处理变得尤为重要。多模态文件信息抽取能力是指从包含多种 类型数据(如文本、图像、音频、视频等)的文件中自动提取有用信息的技术。这种技术在多个领域都有广泛的应用,能够显著提高信息处理的效率和准确性。


通过传统人工方式来处理数据并提取信息,难免有失偏颇。因此通过先进的人工智能技术,识别和解析各种格式的文件,从而提取出有价值的信息,大幅提升数据处理效率成为大势所趋。


本文是一篇使用AI技术进行多模态文件信息抽取的实战教程。无论是需要从大量文档和数据中提取关键信息从而提高数据处理效率和准确性、要对大量图片进行分类、标注、搜索优化还是对音视频信息进一步提取和处理,都可以通过该教程学有所获。


在阿里云开发者社区参与该教程体验,还有惊喜礼物赠送(文末点击阅读原文参与)。


二、实操教程

该教程以提取文档文件信息为例,准备好要进行信息提取的文件和提示词,就可以开始我们的信息提取之旅啦。


资源部署

在文档信息提取的流程中,需要使用计算资源构建的 Web 服务来接收请求,再将文档和提示词发送至百炼模型服务,由百炼调用qwen-long文本模型处理后,最终返回处理结果。


  1. 创建阿里云百炼应用 前往百炼控制台,开通百炼的模型服务,开通服务可以使用免费额度

  2. 创建并部署默认环境 :部署函数计算应用模板,参数配置可参考下表

项目

说明

示例值

部署类型

选择部署类型。

直接部署

应用名称

自动生成。

默认

角色名称

模板所需的角色(如果需要授权,请按照控制台提示进行授权)。

默认

地域

FC部署地域。

默认 华东1(杭州)

百炼 API-KEY

百炼 API-KEY。

部署资源中获取的百炼 API-KEY


访问示例应用


  1. 上述应用部署完成后,就可以在环境详情的环境信息中找到示例网站的访问域名,如下图所示:

  2. 点击访问域名,即可打开示例应用。参考下图:



使用官方示例,进行信息提取







请到「今天看啥」查看全文