专栏名称: 懒人在思考
以黑客那种邪气看待世界。而你,务必保持自己的独立思维。 By 余弦。
目录
相关文章推荐
51好读  ›  专栏  ›  懒人在思考

爬虫 Tip 相关与不相关的几点补充

懒人在思考  · 公众号  · 黑客  · 2016-10-08 19:29

正文

今天抽空统一回复了前几条消息里提到的爬虫 Tip。对,我的邮箱就是 [email protected],数百封邮件里我看到了许多脑洞解密思路,谢谢参与,你们的邮件我都特别看了看,并加了特别的标签,虽然给你们的回复基本是统一的。


这里还得统一补充几点:


1.

那个 Tip 本质是漏洞,这东西确实不方便传播,当我们的爬虫融入点漏洞技巧,得到的东西确实非比寻常。至于漏洞如何找,这就不是个简单的话题了,对于想入门的同学可以去知乎找我2年前的回答“ 零基础如何学习 Web 安全 ”(不打算更新,修行靠个人)。


相信我,对付这类网站,找到合适的漏洞或缺陷,不难。


特别声明下吧:我不是鼓励做坏事,守正出奇罢了,凡事有个度。


2.

加解密的技巧是进入黑客领域必备的能力,你需要掌握的点至少如:


进制转换:2/8/10/16 是常见的进制;

字符集或字符集编码的转换:UTF-7/8/16/32 等、拉丁、ASCII、中日韩那些宽字符集,如中的GBK/GB2312/GB18030/Big5 等、等等等;

Base64 及类 Base64;

其他各种乱七八糟的对称加密算法;

不可逆且唯一性的哈希算法:MD5、SHA 等;

非对称加密算法:RSA 等;

其他乱七八糟且神经病的加解密技巧,不展开;


早年,上古时代,对抗网马与木马的过程中,就已经修炼了许许多多实用性好的加解密技巧,直到现在这些技巧还是会时不时看到,门类太多,技巧太多,如果谁能沉淀出一本书,那也算是造福后人了。然而真需要内功足够深厚,而且需要至少2个作者合力才能出此书,因为领域的跨度会太大,一个人就能搞定,成为后人膜拜经典,恐怕难。再说了,现在谁还写书(作为过来人,写书虽然是一件很有成就感的事,但是机会成本可能太高,而且真的很痛苦,除非你本身就是个写作爱好者)。


3.

爬虫,因地制宜,这不是什么高级玩意(相对地说,如果你非得拿 Google 这类庞大的爬虫体系来对比,来来来,把头伸过来,砖头准备好了),因为前人已经帮你铺好了许多许多路,比如我之前提到的 Scrapy,还有像 PhantomJS 这类动态解析引擎。以前的以前,我们没这个福气,真的是从零踏坑。


坑要不要频繁踏,你年轻,当然可以,你任务不紧急,当然也可以。但如果你是如我这样,既不年轻,时间还很紧迫的人,实战派,不废话,那么就应该学会“ 善假于物也 ”。


优秀的东西一定有优秀的官方文档,这是你入门最好的东西,而不是不假思索就盲目提问。


4.

前面说的那些和我邮件有沟通这次小测试的人,你们的邮件我做了特别标记,如果未来想和我进一步交流,可以直接回复你我已经对话的邮件(因为这样我能更好对上号,而不至于忘记,邮件实在太多,只能这样,你会理解)。







请到「今天看啥」查看全文