专栏名称: 机器学习算法与Python实战

长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态，分享Python、机器学习等技术文章。回复机器学习有惊喜资料。

如此“爬虫”？代码全省了

机器学习算法与Python实战 · 公众号 · · 2024-04-27 10:40

正文

大家好，我是章北海

Jina AI 开源了 RAG 数据处理中的关键组件：“网页数据爬取” ——Reader，目前 3300+ Star⭐️

项目地址：https://github.com/jina-ai/reader

Jina AI Reader 特征：

说它是爬取其实有点“过”了，因为这个工具主要服务于将任何 url 转化为 LLM 友好的格式（比如 markdown），然后可以再针对这些内容集成不同的模型。

用法很简单：在 https://r.jina.ai 中填入任何 Url 即可获取到 LLM 友好的 Parsed Content（ Markdown）比如我公众号这篇文章

网址复制进去： https://r.jina.ai/https://mp.weixin.qq.com/s/z0H_5eEF3hGSIayYLEMO1A

它可以免费使用，提供 Stream 模式可流式读内容（简单内容2s内可获取）

curl -H "Accept: text/event-stream" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page

也可以访问 https://jina.ai/reader/ ，尝试在线 Demo。

填入链接，点击 FETCH CONTENT 即可获取到内容，甚至提供了基于获取的内容直接提问，结合 Jina AI 的 Embedding 召回 + LLM 组合输出。

如你所见，arxiv的论文也能获取到

Jina AI Reader 原理是通过 puppeteer 抓取网页内容，然后解析再保存成 markdown，这样的方法对于抓取静态的网页内容还可以，如果抓取更复杂的页面就无能为力，还是需要更专业的爬虫解析工具。

其实抓取url，将正文转换为良好的markdown格式的工具还有很多，比如：

https://markdowndown.vercel.app
web-scraper(open source): https://github.com/zzzgydi/webscraper
code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown （偏向于更好地处理代码块）

    
       ChatGPT 系列研究报告（50个PDF），建了一个资料分享微信群

    
      搭建完美的技术写作环境，第1-8章

推荐文章

爱否科技 · 摩托罗拉 Razr 60 通过 3C 认证，或支持 33W 有线充电功能

22 小时前

爱否科技 · REDMI 小屏旗舰平板再迎爆料，预计搭载天玑 9400 芯片，暂定三季度发布

4 天前

CINNO · 布局显示光刻胶关键核心材料！杭华股份拟收购浙江迪克60%股权

2 天前

CINNO · 千亿市场爆发：MLED如何驱动显示芯片的技术进步与生态重构

4 天前

CINNO · 获华为哈勃入股的这家先进材料企业IPO梦碎：巨额债务、股权纷争与内控漏洞是三大主因

6 天前

电子狗 · 洪荒之力是如何“偷”走你车牌的？

8 年前

时尚COSMO · 时髦办 | 她是两个孩子的妈，被评为最受欢迎的超模，你还说实至名归

8 年前

广电独家 · 电视台招聘流行新套路，岗位变了，风险也大了！

7 年前

再见地球 · 老七打工见闻

7 年前

三文娱 · 鼎成品牌，6275万粉丝的卷卷公主，面向全年龄段女性消费群｜三文娱新星计划

7 年前