这就到了第六篇啦,很快啊。懂得都懂啦,这一篇相对会比较轻松一些。(事实真的是这样的吗?不知道哦!!!)毕竟这一篇是要讲验证码登录的嘛。
方法一:cookie登录这是一种比较简单粗暴的方式啊,首先如果没有验证码的需求的话,碧如我之前爬CSDN抓到自己的个人信息那次。这种方式就很好了。
因为cookie和session的特性,在cookie的有效期内是可以上的去的。
之所以这么说呢,那自然是因为成功过了嘛(爬了哪些网站就不好说了嘛,理解一下)。不过由于测试次数较少,所以也不敢百分百保证能成功。反正就是,登录之后尽快拿到cookie,尽快拿去登录。
这里我要说一句:在进行“高端操作”之前,不妨先拿个二十分钟来试试这个方法,万一就成了呢?我曾经还想用selenium来手动登录,这种方法经测验可以登录的上去,但是爬取数据就没那么简单了(可能是我用selenium只会点点点,不会抓数据吧)。
方法二:光学字符识别==注:这个方法看不懂就不要看了,不出意外我这辈子不会用这个方法,更不会去用pytesseract==
听这名字,牛逼吧。其实就是OCR啦。
下载验证码图片首先要找个目标网址嘛,先找那种简单的验证码,黑白文字的。captcha图像样本链接[1],这里面有六十张灰度验证码图,够用啦。
先把图扒拉下来,可以看到这张图是内嵌在页面中的。像这样的图片要怎么办呢?不难办啊这个,图片也是文件嘛,只要是文件,就肯定存在网站的文件夹下。内嵌的图片,不过是以一种相对路径的方式来写的罢了。
用网站的根目录,加上图片的地址在试试看: