专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
爱可可-爱生活  ·  【ShellAgent:功能强大、开放且模块 ... ·  昨天  
人工智能那点事  ·  彻底凉凉!百万粉丝网红直播时,和亲妈一起被抓 ·  2 天前  
量化投资与机器学习  ·  看这些够了!『量化交易』书籍清单(附下载) ·  4 天前  
机器之心  ·  刚刚,OpenAI震撼发布o1大模型!强化学 ... ·  6 天前  
黄建同学  ·  是的//@时蝇喜箭:有个开源的 ... ·  6 天前  
51好读  ›  专栏  ›  宝玉xp

问:想问一个基础的问题,我想让chatgpt读一篇十几页或者几十-20240910054834

宝玉xp  · 微博  · AI  · 2024-09-10 05:48

正文

2024-09-10 05:48

问:想问一个基础的问题,我想让chatgpt读一篇十几页或者几十页的报告,然后针对其中的一部分,按照模板进行总结或者appraisal(有过往的报告参考),最好的方法是直接把pdf上传,然后再把模板上传,这样直接让他生成吗? 感谢宝玉老师!

答:

如果这个任务只有几页,那么对于 LLM 来说是很简单的任务,因为现在的 LLM,上下文窗口长度都比较大,GPT-4o(ChatGPT)有 32 K(2.3 万英文单词),Claude 3.5 Sonnet 有 200K(14万英文单词),Gemini 1.5 Pro 有 1M(70万英文单词)

所以如果只有几页,那么把报告内容+模板都提供给 LLM,让其按照模板总结就好。

如果几十页,那恐怕有点困难,可以先试试 Gemini 1.5 Pro,应该够用。

如果超出上下文长度,有几个办法:
1. 手动精简内容,把不必要的信息清理掉
2. 分块总结,将几十页拆成几页几页的小块,再选一种分块总结方案:
- 每块独立总结,然后将所有总结合并,可能会损失上下文
- 一块块总结,将前一块总结的结果合并到下一块一起总结,速度慢一些,但是上下文损失小一些

当然还有其他一些办法,根本就是保证输入长度不要超过 LLM 的最大上下文长度(最好不要超过最高上限的2/3,因为输出内容也占用长度)。

另外 PDF 中内容的格式对于结果也会有影响,比如图表的总结效果可能并不会好。如果能把这些信息变成文本会更好。