Python爬虫自学系列六

文章来源：一氧化碳中毒发布时间:2021-10-6 13:00:07 点击数：次

　　前言

这就到了第六篇啦，很快啊。懂得都懂啦，这一篇相对会比较轻松一些。（事实真的是这样的吗？不知道哦！！！）毕竟这一篇是要讲验证码登录的嘛。

方法一：cookie登录

这是一种比较简单粗暴的方式啊，首先如果没有验证码的需求的话，碧如我之前爬CSDN抓到自己的个人信息那次。这种方式就很好了。

因为cookie和session的特性，在cookie的有效期内是可以上的去的。

之所以这么说呢，那自然是因为成功过了嘛（爬了哪些网站就不好说了嘛，理解一下）。不过由于测试次数较少，所以也不敢百分百保证能成功。反正就是，登录之后尽快拿到cookie，尽快拿去登录。

这里我要说一句：在进行“高端操作”之前，不妨先拿个二十分钟来试试这个方法，万一就成了呢？我曾经还想用selenium来手动登录，这种方法经测验可以登录的上去，但是爬取数据就没那么简单了（可能是我用selenium只会点点点，不会抓数据吧）。

方法二：光学字符识别

==注：这个方法看不懂就不要看了，不出意外我这辈子不会用这个方法，更不会去用pytesseract==

听这名字，牛逼吧。其实就是OCR啦。

下载验证码图片

首先要找个目标网址嘛，先找那种简单的验证码，黑白文字的。captcha图像样本链接[1]，这里面有六十张灰度验证码图，够用啦。

先把图扒拉下来，可以看到这张图是内嵌在页面中的。像这样的图片要怎么办呢？不难办啊这个，图片也是文件嘛，只要是文件，就肯定存在网站的文件夹下。内嵌的图片，不过是以一种相对路径的方式来写的罢了。

用网站的根目录，加上图片的地址在试试看：

下一篇文章：没有了

自助服务

热点文章

最近更新