专栏名称: Dance with GenAI

关于生成式人工智能AIGC的一切

AI批量下载播客转录的文本

Dance with GenAI · 公众号 · · 2025-01-19 06:59

正文

有些播客会在官网上放出已经转录好的文本，比如MIT Technology Review：

https://www. technologyreview.com/su pertopic/in-machines-we-trust/

怎么批量下载这些播客文本呢？

在deepseek中输入提示词：

你是一个Python编程专家，要完成一个批量爬取网页的任务，具体步骤如下：

打开网页： https://www. technologyreview.com/su pertopic/in-machines-we-trust/

定位所有class="postGrid__wrapper--a743d3c2e1bf8f32f117f0bf0cdde374"的div标签；

在div标签中定位第1个a标签，提取其href属性值，这个一个网页URL；

打开这个网页，保存到文件夹F:\in-machines-we-trust，网页格式为html；

注意：每一步都要输出信息到屏幕上

标题：class="contentArticleHeader__title--4ba85d49e1a4385c0496cbbb5900641b"

源代码：

import requests

from bs4 import BeautifulSoup

import os

# 定义目标网页的URL

url = " https://www. technologyreview.com/su pertopic/in-machines-we-trust/ "

# 定义保存文件的文件夹路径

save_folder = "F:\\in-machines-we-trust"

# 确保保存文件的文件夹存在

if not os.path.exists(save_folder):

os.makedirs(save_folder)

print(f"Created folder: {save_folder}")

# 第一步：打开网页

print(f"Opening webpage: {url}")

response = requests.get(url)

response.raise_for_status() # 检查请求是否成功

# 第二步：解析HTML

print("Parsing HTML...")

soup = BeautifulSoup(response.text, 'html.parser')

# 第三步：定位所有class="postGrid__wrapper--a743d3c2e1bf8f32f117f0bf0cdde374"的div标签

divs = soup.find_all('div', class_="postGrid__wrapper--a743d3c2e1bf8f32f117f0bf0cdde374")

print(f"Found {len(divs)} divs with the specified class.")

# 第四步：在每个div标签中定位第1个a标签，提取其href属性值

for i, div in enumerate(divs):

a_tag = div.find('a')

if a_tag:

href = a_tag.get('href')

print(f"Extracted URL {i+1}: {href}")

# 第五步：打开这个网页，保存到文件夹

article_response = requests.get(href)

article_response.raise_for_status()

# 生成保存文件的文件名

filename = os.path.join(save_folder, f"article_{i+1}.html")

# 保存网页内容到文件

with open(filename, 'wb') as file:

file.write(article_response.content)

请到「今天看啥」查看全文

推荐文章

大白聊IT · 不建议给年轻人太多建议的雷军，罕见建议年轻人少刷手机，多出门走走，见见朋友，看看风景；结果雷总一天刷手机6小时抖音、微博和微信

17 小时前

柠檬工会 · 起猛了，百度接入DeepSeek R1满血版了！

18 小时前

一口老井 · 董小姐的棋局，是妙招还是险棋？

22 小时前

一口老井 · 董小姐的棋局，是妙招还是险棋？

22 小时前

仙桃电视台 · “比价神器”来了！仙桃人买药必看

昨天

仙桃电视台 · “比价神器”来了！仙桃人买药必看

昨天

常州日报 · 来了！陶喆演唱会常州站！

3 天前

常州日报 · 来了！陶喆演唱会常州站！

3 天前

东七门 · 别看了，我们都是“讨厌的网友”

8 年前

毒药 · 19年过去了，这部基片一直是我心中的NO.1丨毒药推荐

8 年前

硅谷密探 · 小李子代言比亚迪？其实他做了好多事儿，这只是冰山一角!

8 年前

大家-腾讯新闻 · 叶克飞：荷兰大选，一桩被时评人刻意夸大的事件

7 年前

创业投资最前线 · 乐天大规模退出中国市场！已关闭9成门店

7 年前