专栏名称: 机器学习算法与Python实战

长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态，分享Python、机器学习等技术文章。回复机器学习有惊喜资料。

【RAG实战】基于TextIn打造上市公司财务报表智能问答系统

机器学习算法与Python实战 · 公众号 · · 2024-11-08 08:38

正文

今天介绍一个项目案例，利用大语言模型打造上市公司财务报表智能问答系统。

在当今竞争激烈的市场环境中，企业和投资者对财务信息的获取与分析要求越来越高。上市公司财务报表作为评估公司财务健康和未来发展的重要依据，提供了大量关键信息。

然而，传统的财务报表分析技术不成熟、依赖很多人工解读，费时且容易出现误差，痛点如下。

随着大数据技术和人工智能的快速发展，如何高效、准确地从这些海量数据中提取有价值的信息成为了一个亟待解决的问题。

智能问答系统为解决这一问题提供了创新解决方案。通过先进的自然语言处理技术，智能问答系统可以快速解读财务报表，自动回答涉及财务、市场趋势和投资策略的问题，如下图所示。

构建一个上市公司财务报表智能问答系统，需要通过如下核心步骤：

数据收集 ：利用爬虫技术从财经网站上抓取上市公司的季度、半年、年度财报，这些财报通常以PDF格式存储。
数据处理 ：将非结构化的PDF内容转换为结构化数据。这通常是一个难点，后面会详细展开处理和分析。
RAG系统搭建 ：构建基于RAG（检索增强生成）的智能问答系统。首先，将处理后的数据导入向量数据库中，并利用双编码器模型进行向量化处理。然后，集成大语言模型（如GPT-4）与检索系统，通过提示工程和重排序技术优化模型的输出，以提高对财报内容的理解和回答质量。

问答系统，基于RAG实现，其流程如下图所示。

下面，就通过具体代码案例来搭建上市公司财务报表智能问答系统。

一、数据收集

通过使用爬虫技术，用selenium库来做模拟批量下载公司的财报，具体过程如下：

第一步：引入相关的包。

#包含控制浏览器的类和方法from selenium import webdriver#用于执行复杂鼠标和键盘操作的类from selenium.webdriver.common.action_chains import ActionChains#用于添加延时或暂停import time#用于等待特定条件发生后再继续执行from selenium.webdriver.support.ui import WebDriverWait#定义用于等待的条件from selenium.webdriver.support import expected_conditions as EC#定义一组用于选择元素的方法from selenium.webdriver.common.by import By

第二步：写了一个用于判断可供选择的链接是年报还是年报摘要的函数。因为研究中需要的是年报，就把后文调用函数用到的关键词定为了“摘要 ”。

#定义一个check_world函数def check_word(sentence, word):    if word in sentence:  #如果关键词word在文本中，返回true，否则返回false        return True    else:        return False

第三步：接下来就是用于自动化测试的函数啦！在这里，定义了一个download_report函数，当调用函数时，输入股票代码code，函数将会执行自动测试操作并下载网页。

def download_report(code):     # 启动Edge浏览器并加载选项    browser = webdriver.Edge()    url = 'http://www.cninfo.com.cn/new/commonUrl?url=disclosure/list/notice#sse'    browser.get(url)    browser.maximize_window()        #输入时间    #注：这段有没有都无所谓（）因为我发现就算写了他也不会给我执行这段操作，但是因为网站的自动检索年报的范围就是我需要的范围，所以没差（）    browser.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div[1]/div[2]/form/div[1]/div/div/input[1]').send_keys('2022-12-31')    browser.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div[1]/div[2]/form/div[1]/div/div/input[2]').send_keys('2022-06-15')    #browser.find_element_by_xpath("//body").click()    #browser.find_element_by_xpath("//body").click()        #输入年报，将检索范围锁定在年报中    #第一段用于点击分类按钮    browser.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div[1]/div[2]/form/div[2]/div[3]/div/div/span/button').click()    #第二段用于点击年报选项    browser.find_element_by_xpath('/html/body/div[6]/div[1]/label[1]/span[1]/span').click()        #输入代码    #第一段用于点击输入框    browser.find_element_by_xpath('/html/body/div[2]/div/div[2]/div[1]/div[2]/div[1]/div[2]/form/div[2]/div[1]/div/div/div/div/input').send_keys(code)        #这一段用于暂停页面操作，等待等待元素加载完成后继续执行操作（我设置的是三秒）    time.sleep(3)        #这一段用于点击搜索按钮，使用了更为稳健的模拟鼠标操作    button_element = browser.find_element_by_xpath('/html/body/div[2]/div/div[2]/div[1]/div[2]/div[1]/div[2]/div[1]/button')    actions = ActionChains(browser)    actions.move_to_element(button_element).click().perform()        # 等待页面元素加载完成    time.sleep(3)         #进入公告    #写了一个try，因为有时候可能对应的代码没有公司    try:        #调用check_word函数，判断要进入具体页面的报告是摘要还是年报        word = "摘要"        #获取页面中第二个xpath对应的text内容（如600000号股票就会返回“上海浦东发展银行股份有限公司2022年年度报告（全文）”）        browser_text = browser.find_element_by_xpath('/html/body/div[2]/div/div[2]/div[1]/div[1]/div[2]/div/div[3]/table/tbody/tr[2]/td[3]/div/span/a').text          #如果是摘要，返回true，执行第一个xpath        #注：有的页面可能有三个按钮，但是前两个按钮中一个有一个是年报或者年报修订版（确信）                if check_word(browser_text, word):            browser.find_element_by_xpath('/html/body/div[2]/div/div[2]/div[1]/div[1]/div[2]/div/div[3]/table/tbody/tr[1]/td[3]/div/span/a').click()             #上一步操作后会打开一个新的页面，我们要获取新页面的url用于下载，将browser变更为新页面            window_handles = browser.window_handles            latest_window_handle = window_handles[-1]            browser.switch_to.window(latest_window_handle)         #当不含有摘要，返回false，点击第二个xpath        else:            browser.find_element_by_xpath('/html/body/div[2]/div/div[2]/div[1]/div[1]/div[2]/div/div[3]/table/tbody/tr[2]/td[3]/div/span/a').click()            window_handles = browser.window_handles            latest_window_handle = window_handles[-1]            browser.switch_to.window(latest_window_handle)                 #获取网页url        browser_url = browser.current_url     #当所属公司code无法搜索出年报，那么这家公司可能是退市了，输出没有找到年报    except Exception as e:        print("没有找到",code,"的对应年报")        browser.quit()                #跳出方法        return            #这一段用于检测code有没有对应的公司，如果没有公司，那么点击搜索按钮只会停留在原来的页面上。这时执行上文获取的url就会下载错误的年报。    #这里我用了暴力的解决方法，直接查看原有页面的前两个xpath具体页面的url内容，然后ban掉他们！这里在使用的时候一定要记得检查当日的前两位url    if browser_url == "http://www.cninfo.com.cn/new/disclosure/detail?stockCode=688669&announcementId=1217087254&orgId=gfbj0833817&announcementTime=2023-06-17" or browser_url == "http://www.cninfo.com.cn/new/disclosure/detail?stockCode=603825&announcementId=1217085098&orgId=9900024448&announcementTime=2023-06-17":        print("没有",code,"对应的公司")        browser.quit()    else:         browser2 = webdriver.Edge()        browser2.get(browser_url)                #进入url的页面，点击下载按钮，下载年报。其中，如果网不好+文件大的情况，就需要将time.sleep（10）的参数调大，不然下不完，网站就关了        browser2.find_element_by_xpath('/html/body/div[1]/div/div[1]/div[3]/div[1]/button').click()        time.sleep(10)        print("已成功下载",code,"公司的年报")         #关闭网站，防止资源浪费        browser.quit()        browser2.quit()

第四步：调用download_report方法开始下载。

# 贵州茅台code = "600519"download_report(code)

二、数据处理

数据处理的目的是将PDF文件解析成结构化的数据，以便为后续的RAG系统做好准备。此过程包括提取和整理文本中的关键信息，如财务数据、表格和图表，从而确保数据的结构化格式能够支持高效的检索和生成操作。

一、文档解析的准确性对RAG系统的影响

在RAG的预处理阶段，文档解析的准确性至关重要，因为任何解析上的误差都会直接影响后续的检索和生成结果，进而影响整个系统的性能。以下是文档解析不准确可能带来的具体问题及其影响：

信息丢失 ：如果解析不准确，财务报表中的关键信息可能会丢失或被误解，这会导致模型无法正确回答用户的查询。
数据错误 ：解析错误可能会导致财务数据的错位或误读，从而影响生成的回答的准确性和可靠性。
检索效率降低 ：结构化数据的准确性直接影响到检索的效果。如果数据结构不一致或不准确，将会增加检索难度，降低检索效率。
模型性能下降 ：文档解析的不准确性可能导致模型在训练和推理阶段的性能下降，使得生成的答案不够精准或有偏差。

因此，对于面向消费者的文档问答RAG系统应用产品，精准的文档解析显得尤为重要。这不仅保证了数据的完整性和准确性，还能显著提高系统的整体性能和用户体验。精准解析确保了关键信息的正确提取和结构化，进而提升了检索的效率和生成的回答的质量。

二、PDF文档解析的技术路线

对于简单的文档解析，Python提供了很多PDF解析工具，如PDFplumber、pyPDF2或简单的开源的ocr工具（如：Paddleocr）等能够对多种文件类型进行解析。下图是一个标准的文档解析流程。

然而，对于更复杂的文档解析，尤其是涉及大量图表、复杂表格或非标准格式的财务报表时，单一的开源工具可能难以满足需求。

这种情况下，选择商用的高性能工具就显得尤为重要。这些工具通常具备更强的功能、更高的准确性和更好的技术支持，能够有效处理复杂的文档结构和数据格式。

在我们的项目中，使用了一款商业文档解析服务TextIn，工作台如下图所示，上传了一份贵州茅台2023年的年报。

TextIn 解析PDF，具有以下优势：

高级图像处理能力 ：对文档进行区域划分，通过使用边界框bounding box定位其中的关键区域，如文字、标题、表格、图片等。这样能够准确识别和提取图表中的数。

复杂表格解析 ：支持对复杂、多层级的表格进行精确解析。

定制化支持 ：提供对特定格式或行业文档的定制化处理。

技术支持和维护 ：提供专业的技术支持和持续的维护服务，确保系统的稳定性和性能。

下图是我们通过测试得到的性能指标。通过对比发现，整体的速度、召回率、正确率都比较高，非常适合我们的业务场景。

此外，在批量解析PDF的场景中，TextIn还提供了各种编程语言的API接口，如下图所示。

在使用API调用接口的时候，需要先获取对应的app_id 和 secret_code，获取方式，在账号管理-开发者信息中，如下图所示。

这样就可以调用TextIn的API服务将PDF的年报解析成结构化的数据。

这里我提供一个Python的调用示例，帮助你快速调用。

import requests
class CommonOcr(object):    def __init__(self, img_path):        # 请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-app-id 和 x-ti-secret-code        self._app_id = '0c88509xxxx'        self._secret_code = '3017d8ccxxxx'        self._img_path = img_path
    def get_file_content(self):        with open(self._img_path, 'rb') as fp:            return fp.read()
    def recognize(self):        # 通用文档解析        url = 'https://api.textin.com/ai/service/v1/pdf_to_markdown'

【RAG实战】基于TextIn打造上市公司财务报表智能问答系统

正文

请到「今天看啥」查看全文