MediaCrawler，轻松爬取抖音小红书评论数据！

大数据文摘 · 公众号 · · 2024-05-06 14:00

正文

大数据文摘受权转载自法纳斯特

今天给大家介绍一个 Python爬虫实战的项目 ，MediaCrawler。

可以实现小红书爬虫，抖音爬虫，快手爬虫， B站爬虫，微博爬虫。

目前能抓取小红书、抖音、快手、B站、微博的视频、图片、评论、点赞、转发等信息。

项目地址：

https://github.com/NanmiCoder/MediaCrawler

原理：利用playwright搭桥，保留登录成功后的上下文浏览器环境，通过执行JS表达式获取一些加密参数通过使用此方式，免去了复现核心加密JS代码，逆向难度大大降低。

下面小F就来介绍下如何使用~

首先使用conda创建虚拟环境，Python版本3.9。

激活环境后，安装相关的依赖。

# 创建conda环境
conda create --name MediaCrawler python=3.9

# 激活环境
conda activate MediaCrawler

# 安装相关依赖
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装playwright浏览器驱动
playwright install

其中Playwright是微软推出来的一款自动化测试工具，是专门为满足端到端测试需求而创建的。

最后还需要安装nodejs，版本为v16.20.2，要不然运行会报错。

数据保存有三种方式，数据库、CSV、JSON。

数据库地址可以在db_config.py文件里配置。

支持redis、mysql、sqlite3。

整个项目代码开源，项目代码结构如下。

一些常见的问题，大家可以看看。

环境搭建好以后，就可以执行代码啦~

# 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论
python main.py --platform xhs --lt qrcode --type search

# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
python main.py --platform xhs --lt qrcode --type detail

# 其他平台爬虫使用示例, 执行下面的命令查看
python main.py --help

具体的配置可以去base_config.py文件里修改。