Python爬虫自学系列六

文章来源:一氧化碳中毒   发布时间:2021-10-6 13:00:07   点击数:
  前言

这就到了第六篇啦,很快啊。懂得都懂啦,这一篇相对会比较轻松一些。(事实真的是这样的吗?不知道哦!!!)毕竟这一篇是要讲验证码登录的嘛。

方法一:cookie登录

这是一种比较简单粗暴的方式啊,首先如果没有验证码的需求的话,碧如我之前爬CSDN抓到自己的个人信息那次。这种方式就很好了。

因为cookie和session的特性,在cookie的有效期内是可以上的去的。

之所以这么说呢,那自然是因为成功过了嘛(爬了哪些网站就不好说了嘛,理解一下)。不过由于测试次数较少,所以也不敢百分百保证能成功。反正就是,登录之后尽快拿到cookie,尽快拿去登录。

这里我要说一句:在进行“高端操作”之前,不妨先拿个二十分钟来试试这个方法,万一就成了呢?我曾经还想用selenium来手动登录,这种方法经测验可以登录的上去,但是爬取数据就没那么简单了(可能是我用selenium只会点点点,不会抓数据吧)。

方法二:光学字符识别

==注:这个方法看不懂就不要看了,不出意外我这辈子不会用这个方法,更不会去用pytesseract==

听这名字,牛逼吧。其实就是OCR啦。

下载验证码图片

首先要找个目标网址嘛,先找那种简单的验证码,黑白文字的。captcha图像样本链接[1],这里面有六十张灰度验证码图,够用啦。

先把图扒拉下来,可以看到这张图是内嵌在页面中的。像这样的图片要怎么办呢?不难办啊这个,图片也是文件嘛,只要是文件,就肯定存在网站的文件夹下。内嵌的图片,不过是以一种相对路径的方式来写的罢了。

用网站的根目录,加上图片的地址在试试看:

转载请注明:http://www.lwblm.com/zztx/12508.html
  • 上一篇文章:
  • 下一篇文章: 没有了