专栏名称: 大数据实验室
宽客俱乐部旗下美国大数据实验室,大数据研究应用。
目录
相关文章推荐
大数据文摘  ·  风投式思维:哪吒2和DeepSeek背后的共 ... ·  4 天前  
CDA数据分析师  ·  Deepseek爆火,CDA持证人如何确保不 ... ·  3 天前  
CDA数据分析师  ·  Deepseek来袭,数据分析师会失业吗? ·  2 天前  
天池大数据科研平台  ·  DeepSeek R1 最新全面综述:R1 ... ·  2 天前  
数据派THU  ·  LLM模型的通病:模型坍塌 ·  4 天前  
51好读  ›  专栏  ›  大数据实验室

为什么你应该学 Python ?

大数据实验室  · 公众号  · 大数据  · 2018-01-07 08:30

正文

引言


第一次接触 Python 是在一节编程入门课上。其实,在此之前了解过它,所以在上课之前我对它的语法已经很熟悉了,但在上课之前我没有用它做过真正的项目。尽管对它没有太大兴趣,但我认为把它介绍给人们去学习编程还是很好的。我对它不是不喜欢,而是一种“无所谓”的态度。原因很简单:它里面有太多“魔法”。 C 和 Java 这些语言,对底层的行为描述的很清晰,Python 则完全相反。


另外,Python 结构松散:写大型复杂程序时,遇到规则严谨的程序结构体(比如每个文件一个公共类),比其他语言(比如 Java )要费些力气。但是,在这些方面 Python 给了你很大的自由。


另一件事是严格的编码风格和调试:因为Python 是解释型语言,查找问题不太容易:如果C 语言有语法错误,编译器会直接停止编译,但在解释型语言中,直到执行到问题行,问题才会被发现。试着在需要整数的时候传一个字符串?cc 会马上提醒你,Python 解释器却对此一点都不介意(虽然有工具可以发现这个问题,比如 mypy,但我讨论的是通用的Python)。我提到的这些问题是解释型语言的通病,并非 Python 独有,但这些是我不喜欢它的主要原因。


还有一个烦人的问题是强制缩进。我们老师(很优秀)认为这是好事情,因为“它强制我们形成简洁的代码风格”。确实如此,但还是有点烦,当代码没有按预期执行时,你分析代码想要找出 bug,它却无影无踪,过了很长时间之后你发现 if 语句那一行有一个多余的空格。


我曾经和同事聊过 Python,告诉他为什么我之前对这个语言不感冒,他笑着问我“问什么不喜欢Python呢?因为它读起来很像英语?”。是的。因为这个语言做了很多底层的工作,有时候会不清楚发生了什么。举个读文件的例子,假设你想一行一行读取文件内容并打印出来。C 会这么做:


#include

int main ( void ) {

FILE * fp ;

char buff [ 256 ]; // assuming a line won't contain more than 256 chars

fp = fopen ( "hello.txt" , "r" );

while ( fgets ( buff , 256 , fp )) {

printf ( "%s" , buff );

}

fclose ( fp );

return 0 ;

}


python 这么做:


with open ( 'hello.txt' ) as f :

for line in f :

print ( line )


现在,很多人会认为这是 python 的优势,然而,第一个例子中,干了什么一目了然:


  • 获取一个文件指针

  • 从文件读取每一行数据到缓存中,打印缓存中的内容

  • 关闭文件流


python 的例子中看不到这些,它是一种 “魔法般的”过程。现在,有人认为这是好事,因为将程序员与底层实现细节隔离(我同意这个说法),但我想知道到底发生了什么。


有趣的是,我以上提到的缺点,我现在认为都是优点。为了公平起见,我强调,Python 里边没有魔法,如果你多了解一点,你会发现真的没有,有的只是语言解释代码的方式,从这点来看,我发现它挺有意思的。如果你也这么觉得,我建议你深入了解它的工作机制,如果有东西像魔法,就找出来到底发生了什么,事情就会变得清晰,魔法就变成了便利。


我的认识发生很大的变化,尤其是我决定使用 Python 后,事实上我现在是 Python 的死忠!现在你也许会想我将会在哪里说服你学 Python 是个好主意,不要担心,马上就到。作为引言的结尾,我想说明,这只是我对这个语言的个人感受,只是个人偏好。我没有试图以“如果你用 Python,你就不是真正的程序员(实际上,我不这么认为)”的理由劝说人们学 C。当有人问我他们的入门语言应该选哪个,我通常建议他们选 Python,基于我上边提到的“缺点”的原因。我的感觉来源于我的兴趣,我曾经在做一些很底层的东西,你能想到,Python 并不适用。


Python 语言精粹


在借用了JavaScript 畅销书 《JavaScript 语言精粹》作为本节标题后,我们开始讨论本文的主题:为什么你(没错,就是你!)应该学 Python。


1、通用脚本语言


这是我使用 Python 的主要原因。我曾经和很多人做过很多项目,不同的人用不同的系统。就我而言,我经常在windows系统和linux系统之间切换。举一个实际的例子,有一个项目,我写了项目的自动测试脚本,结果发现只有我能用,因为是用 PowerShell 写的,而我是项目中唯一使用 Windows 的。当时同事们自然认为 bash 是最好的,我还向他们解释 PowerShell 遵循一种不同的模式并且有它的强项(例如,它提供了 .NET 框架接口),它是面向对象的脚本语言,和 bash 完全不一样。现在我不想讨论哪个更好,因为这不是本文的重点。


那么这个问题怎么解决呢?嗯…现在,是否有一种脚本语言可以在所有主流平台上运行呢?你猜对了,它就是 Python。除了可以在主流平台上运行,它还是开箱即用的脚本语言。标准库包含不少实用程序,提供了独立于系统的常用接口。举一个简洁明了的例子,假设你想获取文件夹下所有文件的文件名,然后对其进行处理,在 UNIX下,你要这么做:


for f in *; do echo "Processing $f file..."; done


用 PowerShell 做类似的事情:

2018世界顶尖交易员量化投资巡讲·深圳站

全球唯一的四次夺得

“罗宾斯杯”世界交易锦标赛冠军的殿堂级大师

意大利人安德烈·昂格尔来华首次工作坊式演讲

零距离体验到一个真正获得业界高度认可的

顶级程序化交易员的交易艺术

2018年 1月20-21日 中国·深圳

咨询电话/微信:18516600808

Get - ChildItem "." |

Foreach - Object {

$ name = $ _ . Name

Write - Output "Processing $($name) file..."

}


An equivalent functionality in Python can be achieved with:


python 这么做:


from os import listdir

for f in listdir ( '.' ) :

print ( 'Processing {} file...' . format ( f ))


现在我认为,Python 除了可以跑在 Linux,MacOSX 和 Windows 上,它也很易读。上边例子中的脚本很简单,在复杂的例子中不同语言的易读性差异会更明显。


就像我之前提到的,Python 自带了许多强大的库用来取代 shell 脚本,你会发现,最有用的是:


  • os – 提供系统无关功能,比如文件目录和文件读写。

  • subprocess – 产生新进程、与输入输出流和返回代码交互。可以用它来启动系统已安装的程序,但请记住如果你担心脚本的可移植性,这不是最好的选择。

  • shutil – 提供对文件和文件集合的高级操作。

  • argparse – 解析命令行参数,构建命令行接口。


好了,假设你 get 到了重点,跨平台和易读性听起来挺不错的,但是你真的喜欢类 UNIX shell 类似的语法怎么办?告诉你个好消息,鱼和熊掌可以兼得!看看 Plumbum,它是一个 Python 模块,它的座右铭是“ 再也不写 shell 脚本”。它模仿了 shell 语法,同时保持了跨平台。




不要完全抛弃 shell 脚本


即使 Python 可以完全取代 shell 脚本,但也不是必须这么做,因为 Python 脚本天生适合 Unix 命令行理念,你要做的就是让它们从 sys.stdin (标准输入)读数据,向 sys.stdout(标准输出)写数据。举个例子,假设你有一个文件,每行有一个单词,你想知道每个单词在文中出现的次数。这种情况就没必要全部是用Python,我们可以使用 cat 命令和我们的脚本,称它为 namecount.py 一起来完成这个任务。


假设有一个文件,名为 names.txt ,内容如下:


cat

dog

mouse

bird

cat

cat

dog


现在使用我们的脚本:


$> cat names.txt | namecount.py


Powershell:


$> Get-Content names.txt | python namecount.py


期望的输出如下(顺序可能会变化):


bird 1

mouse 1

cat 3

dog 2


namecount.py 源码:


#!/usr/bin/env python3

import sys

def count_names () :

names = {}

for name in sys . stdin . readlines () :

name = name . strip ()

if name in names :

names [ name ] += 1

else :

names [ name ] = 1

for name , count in names . items () :

sys . stdout . write ( "{0}\t{1}\n" . format ( name , count ))

if __name__ == "__main__" :

count_names ()


无序的信息可读性差,你可能想按单词出现的次数对其排序,让我们试试。我们要用管道输出文件内容供内建命令处理。按数字降序排序,我们要做的就是 $> cat names.txt | namecount.py | sort -rn 。如果使用PowerShell 应该这样:$> Get-Content names.txt | python namecount.py | Sort-Object { [int]$_.split()[-1] } -Descending (你可能听到了 Unixer 的吐槽声了,PowerShell 怎么这么繁琐)。


这回我们的输出是确定的,如下所示:


cat 3

dog 2

bird 1

mouse 1


(旁注:如果你用 PowerShell,cat 是 Get-Content 的别名,sort 是 Sort_object 的别名,所以以上命令可以写成:$> cat names.txt | python namecount.py 和 $> cat names.txt | python namecount.py | sort { [int]$_.split()[-1] } -Descending )


但愿我成功说服你 python 是你某些脚本的替代品,你不必完全抛弃 shell 脚本,因为你可以将 Python 融合到你现有的工作流和工具箱中,还可以从它跨平台,更好的可读性,还有丰富的库中获益(后面会讲)。


2、大量优秀的库


Python 有非常丰富的库。我的意思是,几乎任何事都有库(有趣的是:如果你在你的Python 解释器中输入 import antigravity,在浏览器中打开 xkdc 漫画的页面,是不是很酷?)。我不是很推崇堆叠模块式的编程,但你不必这样。因为有太多的库,不表示你都要使用。我也不喜欢堆叠模块(它有点像 CBSE),我在了解它们之后才使用。


例如,我决定研究马尔科夫链,我想了一个项目:抓取一个艺术家的所有歌词,建立一个马尔科夫链,然后从其中生成歌曲。这个项目的目的是生成的歌曲应该能反映出艺术家的风格。所以我到处找相关的东西,搞出了 lyricst 项目(这只是个样品,还不成熟,只是一个测试项目,如我所言,我只是随便搞了一下,没想深入。如果你想玩的话,它包含有命令行界面和示例的说明文档)。我认为,最好的找歌词的地方是 RAPGenius,因为它很活跃,经常更新。


为了获取艺术家所有的歌词,我必须从网站上爬,然后处理 HTML。幸运的是,Python 很适合做网络爬虫,它有强大的库像 BeautifulSoup 可以处理 HTML。所以我是这么做的,先使用 BeautifulSoup 从网页中抽取我需要的信息(就是歌词)然后用这些信息构建马尔科夫链。当然我曾经想用正则表达式构建自己的 HTML 解析器,但是这个库的存在让我更关注项目的最终目的:把玩马尔科夫链,让它更有趣,比方说,从文件中读取些内容出来。


3、用来做渗透测试很强大


如果你在作渗透测试或仅仅是喜欢玩玩,Python 是你的好帮手!由于Python 在所有 LInux 和 MAC OS 机器上都有安装,还有丰富的库,完善的语法,还是一门脚本语言,让它很适合干这个。


另一个我为什么决定使用 Python 的原因(除了我之前提到的)是我对安全很感兴趣,Python 是用来做渗透测试的完美选择。我在第一次进入领域是通过 Scapy(或 Scapy3k ,python3),我印象很深。Scapy 能够创建、监听、解析数据包。它的 API 很简单,文档也很完善。你可以很容易的创建不同层的数据(我指的是 OSI 模型)或者捕获它们对其进行分析或修改。你甚至可以导出 pcap 文件用 Wireshark 打开。虽然除了抓包还能做很多事情,还有很多其他的库也可以,但我在这里不会涉及,因为这不是本文的重点而且要展开讲的话需要一篇文章。


有人可能会说,“哦,太棒了,但我感兴趣的是 Windows 设备,里边不会自带 Python”。别当心,你可以用 py2exe 把你的脚本编译成 .exe 文件。文件可能会有点大(取决于你是用的库的数量),但这不是重点。


如果你很好奇,请参考 list of Python pentesting tools。 文末我还推荐了几本书。


4、黑客的语言


Python 是可塑性很强的语言。你可以用各种方法改造它。可参见《 altering the way imports work》和《messing with classes before they are created》这两篇文章。这只是一些例子。也让它成为强大的脚本语言(在第一节有说)适合做渗透测试(第三节),因为它给了你很大的自由。


我不想讲太多,但我会讲述它让我惊讶的地方。当时,我在做一个网络爬虫( Python 很适合干这个!),我用的其中一个工具是 BeautifulSoup。 这是我用来学习 Python 的项目之一。Beautifulsoup 处理 HTML 的语法清晰直观,原因是在自定义行为方面,Python 给了你很大的自由。了解一番 API 后,发现有 “魔法”。和这种情况类似:


from bs4 import BeautifulSoup

soup = BeautifulSoup ( '

Hello

' , 'html.parser' )

soup . p


上面的代码利用第一个字符串参数创建了一个 BeautifulsSoup 实例,第二个参数表示我想使用 Python 自带的 HTML 解析器(BeautifulSoup 可以搭配多种解析器)。soup.p 返回一个 Tag(bs4.element.Tag) 对象,表示将作为第一个参数。


以上代码的输出是:


Hello


现在你可能会想,你说的魔法在哪?马上就来。魔法在于上面的代码可以被修改为任何标签,甚至可以是自定义的。它意味着下面的代码也可以正常运行:


from bs4 import BeautifulSoup

soup = BeautifulSoup ( ' Hello ' , 'html.parser' )

soup . foobarfoo


The output is the following:


输出如下:


Hello


当我发现这样也能运行,我的反应是“怎么回事?”。因为,第一个例子很容易实现,我的意思是最直接的方法是为每一个 HTML 标签定义一个属性(实例变量),在解析过程中如果找到了,就赋值给它们。但是这对第二种情况不适用,不可能对所有的字符串定义属性。我想知道它是怎么实现的,所以我打开 BeautifulSoups 源代码开始寻找。 我没有发现任何命名为 p 的属性,这一点也不奇怪,解析函数没有对其赋值。谷歌一番后,我找到了答案:魔法方法。什么是魔法方法,为什么要叫这个名字?事实上,魔法方法是给你的类赋予魔法的方法。这种方法通常前后有两条下划线(例如 __init__()),在Python文档的 DataModel model section 有对它的说明。


真正让 BeautifulSoup 拥有这个功能的魔法方法是__getattr__(self, name)(self 在python 中指向实例,和 Java 中的this 类似)。如果去查看文档,你会发现第一段如下:


如果在属性常见地方找不到属性时,比如既不是实例属性,又没有在 self 类树中找到,则调用该方法(object.__getattr__(self, name))。参数 name 就是属性名这个方法应当返回(计算过的)属性值或抛出 AttributeError 异常。


当你尝试访问一个不存在的属性,对象的 __getattr__(self,name) 方法会被调用,将返回一个以name 作为名字的属性的字符串。


举个例子。假设你有一个 Person 类,拥有 first_name 属性。我们给使用者访问和 name 相同属性的内容的能力。下面是代码:


class Person ( object ) :

def __init__ ( self , first_name ) :

self . first_name = first_name

def __getattr__ ( self , name ) :

if ( name == 'name' ) :

return self . first_name

raise AttributeError ( 'Person object has no attribute \'{}\'' . format ( name ))


我们在终端运行代码:


person = Person ( 'Jason' )

>>> person . first _ name

'Jason'

>>> person . name

'Jason'

>>> person . abc

Traceback ( most recent call last ) :

File " " , line 1 , in < module >

File " " , line 7 , in __getattr__

AttributeError : Person object has no attribute 'abc'


这意味着我们能凭空构造实例属性,是不是很棒?所以你可以偷偷的让你的 Dog 除了汪汪叫之外,还会喵喵叫:


class Dog ( object ) :

def bark ( self ) :

print ( 'Ruff, ruff!' )

def __getattr__ ( self , name ) :

if ( name == 'meow' ) :

return lambda : print ( 'Meeeeeeow' )

raise AttributeError ( 'I don\'t know what you\'re talking about...' )


>>> snoop = Dog ()

>>> snoop . bark







请到「今天看啥」查看全文