专栏名称: AI科技大本营
迎来到AI科技大本营。这里汇集了优秀的AI学习者,技术大咖和产业领袖;提供接地气的实战课程。在这里和优秀的人一起成长。
目录
相关文章推荐
爱可可-爱生活  ·  【[712星]Keyball:一款带有100 ... ·  18 小时前  
爱可可-爱生活  ·  【Visual-Thinker:让大语言模型 ... ·  昨天  
逆行的狗  ·  搭建属于你自己的AI知识库 ·  昨天  
逆行的狗  ·  搭建属于你自己的AI知识库 ·  昨天  
爱可可-爱生活  ·  大模型还是小模型?AI部署的困境与突破 ... ·  2 天前  
机器之心  ·  踹了OpenAI后,Figure光速发布具身 ... ·  3 天前  
51好读  ›  专栏  ›  AI科技大本营

如何用Python快速抓取Google搜索?

AI科技大本营  · 公众号  · AI  · 2020-01-08 13:28

正文

「免费学习 60+ 节公开课: 投票页面,点击讲师头像」

作者 | linksc
译者 | 弯月 ,编辑 | 郭芮
来源 | CSDN(ID:CSDNnews)

自从2011年 Google Web Search API 被弃用以来,我一直在寻找其他的方法来抓取Google。我需要一种方法,让我的 Python 脚本从 Google 搜索中获取链接。于是,我自己想出了一种方法,而本文正是通过 requests 和 Beautiful Soup 抓取 Google 搜索的快速指南。
首先,让我们来安装一些依赖项。请将以下内容保存成文本文件 requirements.txt:
requests
bs4

接下来,运行 pip install -r requirements.txt 命令来安装依赖项。然后将其导入到你的脚本中。

import urllib
import requests
from bs4 import BeautifulSoup

为了执行搜索,你需要在URL中为 Google 提供查询参数。此外,所有空格都必须用+代替。为了构建URL,我们需要设置正确的查询格式,并其放入q参数中。

query = "hackernoon How To Scrape Google With Python"
query = query.replace(' ''+')
URL = f"https://google.com/search?q={query}"

Google 会针对移动设备和台式机返回不同的搜索结果。因此,我们需要指定适当的用户代理。

# desktop user-agent
USER_AGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:65.0) Gecko/20100101 Firefox/65.0"
# mobile user-agent
MOBILE_USER_AGENT = "Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36"

发送请求很简单。但是,requests需要将 user-agent 放在请求的头部。为了设置正确的头部,我们必须传给headers一个字典。

headers = {"user-agent" : MOBILE_USER_AGENT}
resp = requests.get(URL, headers=headers)

接下来,我们需要检查请求是否成功。最简单的方法是检查状态码。如果返回200,则表示成功。然后,我们需要将其放入 Beautiful Soup 中以解析内容。

if resp.status_code == 200:
    soup = BeautifulSoup(resp.content, "html.parser")

接下来是解析数据,并从页面提取所有的链接。我们可以利用 Beautiful Soup 简单地完成这项工作。在便利每个链接时,我们需要将结果存储到一个列表中。
results = []
for g in soup.find_all('div', class_='r'):
    anchors = g.find_all('a')
    if anchors:
        link = anchors[0]['href']
        title = g.find('h3').text
        item = {
            "title": title,
            "link"link
        }
        results.append(item)
print(results)

这样就可以了。这个脚本非常简单,而且容易出错。但至少它能带你入门,从此你就可以编写自己的 Google 爬虫了。你可以从 GitHub上下载整个脚本,地址是:
https://github.com/getlinksc/scrape_google
原文链接:
https://hackernoon.com/how-to-scrape-google-with-python-bo7d2tal
(*本文为AI科技大本营转载文章,转载请联系作者)


精彩推荐









请到「今天看啥」查看全文