专栏名称: Python学习交流
每天更新,更新python相关的知识。希望诸君有所收获!
目录
相关文章推荐
Python爱好者社区  ·  史上最强!PINN杀疯了 ·  昨天  
Python爱好者社区  ·  英伟达憾失DeepSeek关键人才?美国放走 ... ·  昨天  
Python爱好者社区  ·  1885页的Python完全版电子书 ·  3 天前  
Python开发者  ·  o3-mini 碾压 DeepSeek ... ·  6 天前  
Python开发者  ·  请立即拿下软考证书(政策风口) ·  4 天前  
51好读  ›  专栏  ›  Python学习交流

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

Python学习交流  · 公众号  · Python  · 2018-05-12 21:06

正文

百度风云榜一共有50个关键词,我们先任选其中一个打开看看。

一、实验目的

我们的目的是通过百度风云榜,获取相关关键词的新闻内容。(后面会有一篇文章会讲到用咱们今天获取的数据做文本聚类)

运行,结果keyword全部为乱码,没有一点中文的痕迹。

这就是我们今天要克服的问题-html编码问题。

遇到这种问题问题,我们可能会先在html标签中查找charset字符集。一般charset值有utf-8、gbk、gb2312、ascii等。

再次运行,汉字正常显示。

2.2 定位搜索页面新闻链接

上面我们获取到了关键词及其链接,浏览器点击“46年吃3万个汉堡”对应的链接,跳转到 百度搜索页,如下图。

我们想获取新闻内容,而要获取新闻内容,我们就要知道新闻对应的链接。首先我们要定位,如下图。这里我们使用另外一种方式定位链接-正则表达式。







请到「今天看啥」查看全文