专栏名称: Dance with GenAI

关于生成式人工智能AIGC的一切

AI网络爬虫：无限下拉滚动页面的另类爬取方法

Dance with GenAI · 公众号 · · 2024-05-30 07:11

正文

现在很多网页都是无限下拉滚动的。可以拉动到底部，然后保存网页为mhtml格式文件。

接着，在ChatGPT中输入提示词：

你是一个Python编程高手，要完成一个关于爬取网页内容的Python脚本的任务，下面是具体步骤：

在f盘新建一个Excel文件：poe热门bot.xlsx；

用Pyppeteer库的无界面模式模拟用户打开本地的网页文件："F:\AI自媒体内容\AI行业数据分析\探索 - Poe.mhtml"；

解析源代码；

定位 class="InfiniteScroll_container__PHsd4 ExploreBotsPagedList_infiniteScroll__000mi"的div标签；

定位div标签里面的所有a标签，提取其href属性值，这是bot的URL地址，写入Excel文件的第4列；

定位a标签里面class="BotListItem_botName__IYKgR"的div标签，这是bot名称，写入Excel文件的第1列；

定位a标签里面class="BotListItem_botDescription__9V_Sc"的div标签，这是bot简介，写入Excel文件的第2列；

定位a标签里面class="BotListItem_activeUserCount__m8cHa"的div标签，这是bot的用户数量，写入Excel文件的第3列；

注意：每一步都要输出相关信息到屏幕

一步一步的思考，但是所有的代码要整合在一起，不要分成一段一段的；

网页的文件编码是utf-8；

如果a标签里面没有一些div元素，就跳过；

chrome的路径为：D:\Program Files\chrome-win126\chrome.exe

chromedriver路径为：D:\Program Files\chromedriver126\chromedriver.exe

Chatgpt生成Python源代码：

import asyncio

import os

from bs4 import BeautifulSoup

from openpyxl import Workbook

from pyppeteer import launch

async def main():

# 步骤1：在F盘新建一个Excel文件

file_path = r'F:\poe热门bot.xlsx'

wb = Workbook()

ws = wb.active

ws.title = "Bots Info"

ws.append(["Bot Name", "Bot Description", "Active Users", "Bot URL"])

wb.save(file_path)

print(f"Excel文件已创建: {file_path}")

# 步骤2：用Pyppeteer库的无界面模式模拟用户打开本地的网页文件

local_file_path = r'F:\AI自媒体内容\AI行业数据分析\探索 - Poe.mhtml'

browser = await launch(executablePath=r'D:\Program Files\chrome-win126\chrome.exe', headless=True, args=['--no-sandbox'])

page = await browser.newPage()

await page.goto(f'file://{local_file_path}')

# 步骤3：解析源代码

page_content = await page.content()

soup = BeautifulSoup(page_content, 'html.parser')

# 步骤4：定位 class="InfiniteScroll_container__PHsd4 ExploreBotsPagedList_infiniteScroll__000mi"的div标签

container_div = soup.find('div', class_='InfiniteScroll_container__PHsd4 ExploreBotsPagedList_infiniteScroll__000mi')

if container_div:

print("找到目标div标签")

else:

print("未找到目标div标签")

await browser.close()

return

# 步骤5：定位div标签里面的所有a标签，提取其href属性值，写入Excel文件的第4列

a_tags = container_div.find_all('a')

print(f"找到{len(a_tags)}个a标签")

# 步骤6：处理每个a标签，提取信息并写入Excel文件

for a_tag in a_tags:

bot_url = a_tag.get('href', 'N/A')

请到「今天看啥」查看全文

推荐文章

银行家杂志 · 重磅会议部署！金融机构有新任务

2 天前

九章算法 · 一年被裁两次，一个底层码农的大落大起

2 天前

九章算法 · Meta学神刷题奥义！《LeetCode通关大法.pdf》，极限上岸！

4 天前

九章算法 · 效仿谷歌裁员3万人！美国即将沦为富豪“韭菜地”！

3 天前

中国人民银行 · 中国人民银行、国家外汇局召开2025年全面从严治党暨纪检监察工作会议

2 天前

解放军报 · 春运开启，请帮中国军人捎份思念回家

8 年前

射手座网 · 射手座你还嫌弃自己吗？

8 年前

摄影笔记 · 荐号 | 手机这样充电严重泄露隐私 1秒操控你的银行账户！

7 年前

正商参略 · 刚刚传来大消息！“真加息”可能真要来了（以房子为中心的时代结束？）

7 年前

刘晓博说楼市 · 周四，股市将这样走！（利好不断，明天将继续打爆空头？）

7 年前