专栏名称: Dance with GenAI

关于生成式人工智能AIGC的一切

AI网络爬虫：对网页指定区域批量截图

Dance with GenAI · 公众号 · · 2024-06-04 07:08

正文

对网页指定区域批量截图，可以在deepseek的代码助手中输入提示词：

你是一个Python编程专家，一步一步的思考，完成一个对网页指定区域截图的python脚本的任务，具体步骤如下：

设置User-Agent:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36

找到Excel文件："F:\AI自媒体内容\课程列表.xlsx"

读取Excel文件的第1列，作为图片标题{pictitle};

读取Excel文件的第2列，这是URL，用Undetected-chromedriver加载网页进行渲染，让窗口最大化，等待20秒；

对打开的网页进行截图，截图的区域是屏幕左上角：（X: 0,y:80），屏幕右下角：（X:1495,y:987）；

截图保存为png图片格式，用{pictitle}作为图片文件名，保存到文件夹：“F:\AI自媒体内容\”；

截图完成后等待30秒；

注意：

每一步都要输出相关信息到屏幕；

在用{pictitle}命名文件名之前，先检查{pictitle}中是否有不符合window系统文件命名规格的特殊符号，如果有则删除掉其中的特殊符号；

源代码：

import pandas as pd

import undetected_chromedriver as uc

from PIL import Image

import re

import os

import time

# 设置User-Agent

user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"

# 读取Excel文件

excel_path = "F:\AI自媒体内容\课程列表.xlsx"

df = pd.read_excel(excel_path)

# 设置截图保存的文件夹

save_folder = "F:\AI自媒体内容\\"

# 初始化undetected_chromedriver

options = uc.ChromeOptions()

options.add_argument(f'user-agent={user_agent}')

driver = uc.Chrome(options=options)

driver.maximize_window()

# 遍历Excel文件的每一行

for index, row in df.iterrows():

pictitle = row[0]

url = row[1]

# 检查pictitle是否有不符合window系统文件命名规格的特殊符号

pictitle = re.sub(r'[\\/:*?"<>|]', '', pictitle)

print(f"正在打开网页: {url}")

driver.get(url)

# 等待20秒

driver.implicitly_wait(20)

# 截图

print(f"正在截图: {pictitle}")

driver.save_screenshot('temp.png')

# 使用PIL库截取屏幕区域

请到「今天看啥」查看全文

推荐文章

军武次位面 · 苻坚仁义宽容、用人不疑，信重的下属为何却屡屡背叛他？

13 小时前

军武次位面 · 俄美谈判解决“俄乌战争”！乌克兰和欧洲，却上不了桌？

3 天前

中国兵器工业集团 · 物资集团北方云景接入DeepSeek 进一步提升供应链数智化服务水平

4 天前

台海一线 · 澳大利亚收到通知，解放军在澳东海岸实弹射击，民航客机已开始绕行！

2 天前

理想国imaginist · 直播预告｜任剑涛教授空降，现场亲签

3 天前

理想国imaginist · 直播预告｜任剑涛教授空降，现场亲签

3 天前

气质女人 · 一伊丨男人想分手的时候，会找什么样的理由？

8 年前

天池大数据科研平台 · Eugenio Culurciello的神经网络结构解析(Part 2)

8 年前

鲁中晨报 · 看手机眼花？一招教你恢复视力，玩微信的都看看吧

8 年前

老高电商圈子 · 不刷单如何做好淘宝天猫！

7 年前

乐游上海 · 夏日炎炎，就到这些新潮室内运动场所挥洒汗水吧

7 年前