专栏名称: Dance with GenAI

关于生成式人工智能AIGC的一切

AI网络爬虫：kimi批量爬取《庆余年》分集剧情

Dance with GenAI · 公众号 · · 2024-05-24 06:09

正文

电视猫上面有《庆余年》分集剧情，如何批量爬取下来呢？

先找到每集的链接地址，都在这个class="epipage clear"的div标签里面的li标签下面的a标签里面：

这个链接是相对地址，前面加上 https://www. tvmao.com ，才是完整的URL地址；

每集的标题在p标签里面：

第7集：范闲赴诗会作绝句惊艳京城

在kimi中输入提示词：

你是一个Python编程专家，要完成以下任务的Python脚本的编写：

打开网页： https://www. tvmao.com/drama/Yy0wHDA =/episode

在源代码中定位class="epipage clear"的div标签；

提取div标签里面所有a标签的href值，前面加上” https://www. tvmao.com ”,构成网页下载URL；

解析URL，定位class="epi_t"的p标签，提取其文本内容，作为txt文档文件名；提取class="clear epi_c"的article标签里面的文本内容，保存为txt文档到D盘下的qyn文件夹；

注意：

每下载一个网页，随机暂停1-10秒；

网页文件名要进行处理，去除不符合window系统文件命名规范的特殊字符，处理文件名时要确保文件名中不包含任何特殊字符或不可见字符，可以通过使用strip()方法来去除字符串两端的空白字符，包括换行符和空格；

每一步都要输出信息到屏幕

要有应对反爬虫的措施，设置请求头；

生成的源代码如下：

import requests

from bs4 import BeautifulSoup

import random

import time

import os

# 目标网页URL

url = ' https://www. tvmao.com/drama/Yy0wHDA =/episode '

# 设置请求头，模拟浏览器访问

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'

}

# 发送HTTP请求

response = requests.get(url, headers=headers)

response.raise_for_status() # 如果请求失败，将抛出异常

# 解析HTML

soup = BeautifulSoup(response.text, 'html.parser')

# 定位class="epipage clear"的div标签

div_epipage = soup.find('div', class_='epipage clear')

# 提取所有a标签的href值，并构成完整的网页下载URL

episode_links = []

for a_tag in div_epipage.find_all('a', href=True):

episode_url = ' https://www. tvmao.com ' + a_tag['href']

episode_links.append(episode_url)

# 创建文件夹

d盘_qyn文件夹路径 = 'D:\\qyn'

if not os.path.exists(d盘_qyn文件夹路径):

os.makedirs(d盘_qyn文件夹路径)

# 下载并保存每个剧集的文本内容

for episode_url in episode_links:

print(f'正在下载：{episode_url}')

请到「今天看啥」查看全文

推荐文章

LCA · 一棵树，让我觉得安静

20 小时前

最爱大北京 · 2月22日 | 京城事儿全知道

2 天前

最爱大北京 · 北京：马松莉被查

2 天前

康石石 · 拿到藤校奖学金的作品集长什么样？

3 天前

北京本地宝 · 北京户籍灵活就业人员是否可以自己缴纳公积金？

5 天前

iWeekly周末画报 · 厨房也摩登，美食界的暗战一触即发你准备好了吗？

8 年前

手游那点事 · 上线不足一年用户已破千万，TapTap如何在渠道洗牌中逆流而上？

8 年前

程序猿 · 在 AI 称王前，你是否先被软件奴役了

7 年前

唐唐频道 · 姐妹花这种事，一开始我是不信的.....

7 年前

InfoQ · Q新闻丨grpc-java 1.7.0 发布；GitHub发布2017年度数据报告；阿里云发布多款产品，降价高达53%

7 年前