专栏名称: Python中文社区

致力于成为国内最好的Python开发者学习交流平台，这里有关于Python的国内外最新消息，每日推送有趣有料的技术干货和社区动态。官方网站：www.python-cn.com

用通义 Qwen 构建 ChatPDF 应用（附代码）

Python中文社区 · 公众号 · · 2024-06-09 22:49

主要观点总结

本文介绍了如何使用通义千问Qwen大模型构建本地的ChatPDF AI助手。该助手允许用户上传PDF文件，并根据文件内容进行对话。文章涵盖了项目的实现过程，包括导入必要的库和模块、加载环境变量、初始化客户端和tiktoken编码器、定义页面和对话消息函数、上传PDF文件、选择语言模型、获取AI回答、计算对话费用等关键步骤。同时，文章还提到了阿里云618活动的相关信息。

关键观点总结

关键观点1: 项目背景与目标

介绍使用通义千问Qwen大模型构建ChatPDF AI助手的背景和目标。

关键观点2: 所需技术与工具

列出项目所需的技术和工具，如openai、streamlit和tiktoken等。

关键观点3: 项目实现步骤

详细介绍项目的实现过程，包括各个步骤的具体操作和代码示例。

关键观点4: AI助手功能特点

阐述ChatPDF AI助手的功能特点，如支持多种文档格式、保护隐私等。

关键观点5: 阿里云618活动相关信息

提供关于阿里云618活动的信息，包括免费额度领取和优惠信息。

正文

欢迎将 「AIGC开发者」 设为星标

大家好！今天我要和大家分享的是如何使用通义千问 Qwen 大模型来构建一个本地的 ChatPDF AI助手。这个助手可以让你上传 PDF 文件，然后基于文件内容和它进行对话，非常方便和有趣，我们不用担心文档数据泄露，个人隐私也可以得到保护。通过部署到云服务器，我们也可以构建一个网站应用。演示如下：

接下来，我会一步一步地带你了解这个项目的实现过程，希望大家能喜欢。因篇幅有限，文中仅展示部分代码，文末 提供完整代码和文档下载方式 。

我们需要通过阿里云百炼平台获取大模型 API，因为我要构建一个文档对话应用，所以这里我选用的是Qwen-Long这个大模型，Qwen-Long是在通义千问针对超长上下文处理场景的大语言模型，支持最长1000万tokens(约1500万字或1.5万页文档)的超长上下文对话。配合同步上线的文档服务，可支持word、pdf、markdown、epub、mobi等多种文档格式的解析和对话。

正好阿里云也在搞618活动， 现在扫码注册还可以领取400万tokens的免费额度和云服务器 优惠券 ，正好用来低成本开发部署一个AI应用，错过再等一年！

首先，我们需要导入一些必要的库和模块。我们主要会用到


     
      openai

、


     
      streamlit

和


     
      tiktoken

。其中，


     
      tiktoken

是用来处理 token 编码的，这样可以帮我们计算对话的费用。

接下来，我们需要加载环境变量。通过


     
      dotenv

模块，我们可以从


     
      .env

文件中加载配置。只要把


     
      .env

文件放在项目的根目录中就可以了。

然后，我们需要初始化客户端。只需获取通义千问大模型的 API 密钥，并用它创建一个客户端实例。如果密钥没有设置好，程序会提醒你。