专栏名称: AirPython
分享 Python 自动化及爬虫、数据分析实战干货,欢迎关注。
目录
相关文章推荐
51好读  ›  专栏  ›  AirPython

Python 教你快速构建一个情报搜集爬虫

AirPython  · 公众号  ·  · 2020-01-18 14:06

正文

Photon 是一个由 s0md3v 开源的情报搜集 爬虫,其主要功能有:

1、爬取链接(内链、外链)
2、爬取带参数的链接,如:pythondict.com/test?id=2
3、文件( pdf、png、 xml 等)
4、密钥(在前端代码中不小心被释放出来的)
5、JS 文件和 Endpoint( Spring 中比较重要的监视器)
6、匹配自定义正则表达式的字符串
7、子域名和 DNS 相关数据。

你可以用它来干很多事,比如爬图片、找漏洞、找子域名、爬数据等等。 而且提取出来的数据格式非常整洁:

不仅如此,它甚至支持 JSON 格式 ,仅需要在输入命令的时候加上 JSON 参数:

python photon.py -u "http://example.com" --export=json

为什么能用来做情报搜集呢? 耐心往后看哦。

1、下载安装

你可以上 photon 的 github 下载完整项目:
https://github.com/s0md3v/Photon

安装完 Python 后,打开 CMD(windows)/Terminal(macOS),下面简称为终端,进入你刚解压的文件夹,然后输入以下命令安装 Photon 的依赖:

pip install -r requirements.txt

如图所示:


2、简单使用

注意,使用的时候要在 Photon 文件夹下。 比如我们随便提取一个网站的 URL 试一下,在终端输入以下命令:

python photon.py -u https://bk.tencent.com/

结果如下:


它会在当前目录下产生一个你测试的域名的文件夹,比如在我这里是:bk.tencent.com:


嘻嘻,让我们看看里面有什么东西,有没有程序员留下的小彩蛋,打开 external.txt,这是该网站的外链的存放位置。可以看到,这里不仅仅是只有网站页面,连 CDN 文件地址都会放在这里,所以 external 可能是个藏宝 库哦。



还能一下找出该网站上链接的全部开源项目:

3、扩展

这个项目的价值,不仅在于能够快速拉取你想要得到的数据,还在于能够构建一个牛逼轰轰的 情报系统 (如果你技术够强的话) 因为它是能不断延伸下去的,比如从外链出发,你能找到很多和这个网站相关的讯息:







请到「今天看啥」查看全文