专栏名称: Dance with GenAI

关于生成式人工智能AIGC的一切

AI网络爬虫：批量下载微信公众号文章中的音频

Dance with GenAI · 公众号 · · 2024-06-03 07:20

正文

任务：微信公众号文章中多个音频文件批量下载

以这个微信公众号文章示例：

https:// mp.weixin.qq.com/s/Xcrr sq2AUBFlKWabhQjNag

按下F12键，点击网络——媒体，就可以看到音频文件的地址：

查看几个音频文件地址的规律：

https:// res.wx.qq.com/voice/get voice?mediaid=MzI2ODc4NDc2NF8yMjQ3NTMzNjg1

https:// res.wx.qq.com/voice/get voice?mediaid=MzI2ODc4NDc2NF8yMjQ3NTMzNjg3

https:// res.wx.qq.com/voice/get voice?mediaid=MzI2ODc4NDc2NF8yMjQ3NTMzNjkx

只有最后一串字符不一样，查找这串字符：

可以看到在这个标签中出现：

在deepseek中输入提示词：

你是一个Python编程专家，要完成一个批量下载网页中音频的Python脚本，具体步骤如下：

用户输入一个网页URL，接受URL；

解析这个URL；

定位其中所有class="js_editor_audio res_iframe js_uneditable custom_select_card" 的mp-common-mpaudio标签，提取其name属性值，去掉其中的空格，作为音频文件名；

提取其voice_encode_fileid的属性值，前面加上“ https:// res.wx.qq.com/voice/get voice?mediaid= ”，构成音频下载的URL；

下载音频文件，保存在E盘的weixinaudio文件夹中，音频文件格式为mp3格式；

注意：每一步都要输出信息到屏幕上

Deepseek生成的源代码：

import requests

from bs4 import BeautifulSoup

import os

# 用户输入网页URL

url = input("请输入网页URL: ")

print(f"用户输入的URL是: {url}")

# 发送请求并获取网页内容

response = requests.get(url)

print("网页请求成功，正在解析...")

# 解析网页内容

soup = BeautifulSoup(response.text, 'html.parser')

# 定位所有音频标签并提取信息

audio_tags = soup.find_all('mp-common-mpaudio', class_='js_editor_audio res_iframe js_uneditable custom_select_card')

if audio_tags:

for audio_tag in audio_tags:

name = audio_tag['name'].replace(' ', '')

voice_id = audio_tag['voice_encode_fileid']

audio_url = f" https:// res.wx.qq.com/voice/get voice?mediaid=

请到「今天看啥」查看全文

推荐文章

人人都是产品经理 · 客户总是“听不懂”？产品经理汇报中的致命误区

2 天前

知识产权那点事 · 《哪吒2》票房破百亿，仅是一个开始：超级IP打造与知识产权保护

3 天前

知产宝 · 专利案例 | 涉案专利被宣告无效，二审撤销一审300万赔偿

3 天前

三节课 · DeepSeek直播实操课，限量300人免费报名！

5 天前

上海知识产权 · 【动态】奉贤区知识产权局召开2025年度知识产权条线工作交流会

3 天前

BestDesign · 辉光钟是什么你还不知道？抬起你的手腕就行｜这个设计了不起

7 年前

懂懂日记 · 天使来过

7 年前

新街派生活报 · 惊险！空姐竟从飞机上掉下来…监控拍下恐怖一幕

7 年前

信贷风险管理 · 信贷机构防范抵押登记风险的6大绝招！

7 年前

投资者报 · 新金融 | 99%现金贷死期将至？叫停网络小贷牌照开启整治第一步

7 年前