下载量过亿的 15 个 Python 库

Python编程 · 公众号 · · 2024-05-14 11:26
正文

来自公众号：数据STUDIO
今天给大家分享最近一年内PyPI上下载量最高的Python包。现在我们来看看这些包的作用，他们之间的关系，以及为什么如此流行。
1. Urllib3：8.93亿次下载
Urllib3 是 Python 的 HTTP 客户端，它提供了许多 Python 标准库没有的功能。
线程安全
连接池
客户端 SSL/TLS 验证
使用 multipart 编码进行文件上传
用于重传请求并处理 HTTP 重定向的辅助功能
支持 gzip 和 deflate 编码
支持 HTTP 和 SOCKS 代理
尽管名字叫做 Urllib3，但它并不是 Python 自带的 urllib2 的后继版本。如果你想尽可能使用 Python 的核心功能（比如由于某些限制导致不能安装），那么可以看看 urllib.request。
对于最终用户，我强烈推荐 requests 包（参考列表中的第六项）。Urllib3 之所以排名第一是因为几乎 1200 个软件包都依赖它，许多这些软件包也都在列表中名列前茅。
2. Six：7.32亿次下载
Six 是 Python 2 和 Python 3 兼容性工具。该项目的目的是让代码能够同时在 Python 2 和 Python 3 上运行。
它提供了许多函数，掩盖了 Python 2 和 Python 3 之间的语法差异。最容易理解的例子就是six.print_()。在 Python 3 中，输出时需要使用 print() 函数，而 Python 2 中是使用不带括号的 print。因此，使用 six.print_() 可以同时支持两种语言。
重点：
包的名字 six 来自于2 x 3 = 6
类似的库还有 future
如果想将代码转换成 Python 3（同时不再支持 Python 2），可以看看 2to3
尽管我理解该包如此流行，但还是希望人们尽快抛弃 Python 2，特别是从2020年1月1日起官方已经不再支持 Python 2了。
3. botocore, boto3, s3transfer, awscli
这几个项目放在一起说：
botocore：第3名，6.6亿次下载
s3transfer：第7名，5.84亿次下载
awscli：第17名，3.94亿次下载
boto3：第22名，3.29亿次下载
Botocore 是 AWS 的底层接口。botocore 是 boto3（第22名）库的基础，后者可以让你访问亚马逊的S3、EC2等服务。
Botocore 也是 AWS-CLI 的基础，后者是 AWS 的命令行界面。
s3transfer（第七名）是用于管理S3传输的 Python 库。该库仍在开发中，它的主页依然不建议使用，或者使用时至少要固定版本，因为即使在小版本号之间它的API也可能会发生变化。
boto3、AWS-CLI 和许多其他项目都依赖于 s3transfer。
AWS 相关的库的排名如此高，正说明了 AWS 的服务是多么流行。
4. Pip：6.27亿2次下载
我猜许多人都知道并且喜爱 pip（Python的包安装工具）。使用 pip 从 Python Package Index和其他仓库（如本地镜像或包含私有软件的自定义仓库等）安装软件包不费吹灰之力。
关于 pip 的趣事
Pip 的名字是个递归定义：Pip Installs Packages
Pip 非常容易使用。安装一个软件包只需要执行 pip install <软件包名>。删除只需要执行 pip uninstall <软件包名>。
Pip 最大的好处就是它可以安装一系列包，通常会放在 requirements.txt 文件中。该文件还可以指定每个包的详细版本号。绝大多数 Python 项目都会包含这个文件。
与 virtualenv（第57名）结合使用 pip，可以创建可预测的、独立的环境，而不会与系统本身的环境互相影响。
5. python-dateutil：6.17亿次下载
Python-dateutil 模块为标准的 datetime 模块提供了强大的功能扩展。普通的 Python datetime 无法做到的事情都可以使用 python-dateutil 完成。
用这个库可以完成许多非常酷的功能。我只举一个非常有用的例子：从日志文件中模糊解析日期字符串：
from dateutil.parser import parse

logline =  INFO 2020-01-01T00:00:01 Happy new year, human.
timestamp = parse(log_line, fuzzy=True)
print(timestamp)
# 2020-01-01 00:00:01
6. requests:6.11亿次下载
Requests 基于下载量第一的库 urllib3。有了它，发送请求变得极其简单。许多人对 requests 的喜爱超过了 urllib3，因此 requets 的最终用户可能比 urllib3 还要多。后者更底层，通常作为其他项目的依赖出现。
下面的例子演示了 requests 有多么容易使用：
import requests

r = requests.get( https://api.github.com/user , auth=( user ,  pass ))
r.status_code
# 200
r.headers[ content-type ]
#  application/json; charset=utf8
r.encoding
#  utf-8
r.text
# u {"type":"User"...
r.json()
# {u disk_usage : 368627, u private_gists : 484, ...}
7. s3transfer
第3、7、17和22名互相关联，所以请参见第3名的介绍。
8. Certifi：5.52亿次下载
近年来，几乎所有网站都开始使用SSL，这一点可以从地址栏中的锁图标看出来，该图标的意思是网站是安全的、加密的，可以避免窃听。加密基于SSL证书，SSL证书由可信的公司或非营利组织负责签发，如 LetsEncrypt。这些组织会对利用它们的证书对签发的证书进行数字签名。
利用这些证书的公开部分，浏览器就可以验证网站的签名，从而证明你访问的是真正的网站，而且别人没有在窃听数据。
Python 也可以做到同样的功能，这就需要用到 certifi。它和 Chrome、Firefox 和 Edge 等Web浏览器中包含的根证书集合没有什么区别。
Certifi 是一个根证书集合，这样 Python 代码就可以验证SSL证书的可信度。
许多项目都信赖并依赖 certifi，可以在这里看到这些项目。这也是为何该项目排名如此高的原因。
9. Idna：5.27亿次下载
根据 PyPI 的页面，idna提供“对于RFC5891中定义的IDNA协议（Internationalised Domain Names in Applications）的支持”。
我们来看看 idna 是什么意思：
IDNA 是处理包含非 ASCII 字符的域名的规则。但原始的域名不是已经支持非 ASCII 字符了吗？那么问题何在？
问题是许多应用程序（如Email客户端和Web浏览器等）并不支持非 ASCII 字符。或者更具体地说，Email 和 HTTP 协议并不支持这些字符。
在许多国家这并不是问题，但像中国、俄罗斯、德国、印尼等国家就很不方便。因此，这些国家的一些聪明人联合起来提出了 IDNA，也并非完全偶然。
IDNA 的核心是两个函数：ToASCII 和 ToUnicode。ToASCCI 会将国际化的 Unicode 域名转换成 ASCII 字符串，而 ToUnicode 会做相反的处理。在 IDNA 包中，这两个函数叫做 idna.encode() 和 idna.decode()，参见下面的例子：
import idna
下载量过亿的 15 个 Python 库

正文

1. Urllib3：8.93亿次下载

2. Six：7.32亿次下载

3. botocore, boto3, s3transfer, awscli

4. Pip：6.27亿2次下载

5. python-dateutil：6.17亿次下载

6. requests:6.11亿次下载

7. s3transfer

8. Certifi：5.52亿次下载

9. Idna：5.27亿次下载

请到「今天看啥」查看全文