大家好,我是章北海
Jina AI 开源了 RAG 数据处理中的关键组件:“网页数据爬取” ——Reader,目前 3300+ Star⭐️
项目地址:https://github.com/jina-ai/reader
Jina AI Reader 特征:
-
-
-
-
-
-
能够处理 PDF 如 arXiv,但是不是一个通用的 PDF 抽取器
-
-
-
说它是爬取其实有点“过”了,因为这个工具主要服务于将任何 url 转化为 LLM 友好的格式(比如 markdown),然后可以再针对这些内容集成不同的模型。
用法很简单:在 https://r.jina.ai
中填入任何 Url 即可获取到 LLM 友好的 Parsed Content( Markdown)
比如我公众号这篇文章
网址复制进去:
https://r.jina.ai/https://mp.weixin.qq.com/s/z0H_5eEF3hGSIayYLEMO1A
它可以免费使用,提供 Stream 模式可流式读内容(简单内容2s内可获取)
curl -H "Accept: text/event-stream" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page
也可以访问
https://jina.ai/reader/
,尝试在线 Demo。
填入链接,点击 FETCH CONTENT 即可获取到内容,甚至提供了基于获取的内容直接提问,结合 Jina AI 的 Embedding 召回 + LLM 组合输出。
如你所见,arxiv的论文也能获取到
Jina AI Reader 原理是通过 puppeteer 抓取网页内容,然后解析再保存成 markdown,这样的方法对于抓取静态的网页内容还可以,如果抓取更复杂的页面就无能为力,还是需要更专业的爬虫解析工具。
其实抓取url,将正文转换为良好的markdown格式的工具还有很多,比如:
-
https://markdowndown.vercel.app
-
web-scraper(open source): https://github.com/zzzgydi/webscraper
-
code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown (偏向于更好地处理代码块)