今天抽空统一回复了前几条消息里提到的爬虫 Tip。对,我的邮箱就是 [email protected],数百封邮件里我看到了许多脑洞解密思路,谢谢参与,你们的邮件我都特别看了看,并加了特别的标签,虽然给你们的回复基本是统一的。
这里还得统一补充几点:
1.
那个 Tip 本质是漏洞,这东西确实不方便传播,当我们的爬虫融入点漏洞技巧,得到的东西确实非比寻常。至于漏洞如何找,这就不是个简单的话题了,对于想入门的同学可以去知乎找我2年前的回答“
零基础如何学习 Web 安全
”(不打算更新,修行靠个人)。
相信我,对付这类网站,找到合适的漏洞或缺陷,不难。
特别声明下吧:我不是鼓励做坏事,守正出奇罢了,凡事有个度。
2.
加解密的技巧是进入黑客领域必备的能力,你需要掌握的点至少如:
进制转换:2/8/10/16 是常见的进制;
字符集或字符集编码的转换:UTF-7/8/16/32 等、拉丁、ASCII、中日韩那些宽字符集,如中的GBK/GB2312/GB18030/Big5 等、等等等;
Base64 及类 Base64;
其他各种乱七八糟的对称加密算法;
不可逆且唯一性的哈希算法:MD5、SHA 等;
非对称加密算法:RSA 等;
其他乱七八糟且神经病的加解密技巧,不展开;
早年,上古时代,对抗网马与木马的过程中,就已经修炼了许许多多实用性好的加解密技巧,直到现在这些技巧还是会时不时看到,门类太多,技巧太多,如果谁能沉淀出一本书,那也算是造福后人了。然而真需要内功足够深厚,而且需要至少2个作者合力才能出此书,因为领域的跨度会太大,一个人就能搞定,成为后人膜拜经典,恐怕难。再说了,现在谁还写书(作为过来人,写书虽然是一件很有成就感的事,但是机会成本可能太高,而且真的很痛苦,除非你本身就是个写作爱好者)。
3.
爬虫,因地制宜,这不是什么高级玩意(相对地说,如果你非得拿 Google 这类庞大的爬虫体系来对比,来来来,把头伸过来,砖头准备好了),因为前人已经帮你铺好了许多许多路,比如我之前提到的 Scrapy,还有像 PhantomJS 这类动态解析引擎。以前的以前,我们没这个福气,真的是从零踏坑。
坑要不要频繁踏,你年轻,当然可以,你任务不紧急,当然也可以。但如果你是如我这样,既不年轻,时间还很紧迫的人,实战派,不废话,那么就应该学会“
善假于物也
”。
优秀的东西一定有优秀的官方文档,这是你入门最好的东西,而不是不假思索就盲目提问。
4.
前面说的那些和我邮件有沟通这次小测试的人,你们的邮件我做了特别标记,如果未来想和我进一步交流,可以直接回复你我已经对话的邮件(因为这样我能更好对上号,而不至于忘记,邮件实在太多,只能这样,你会理解)。