这是我第一个写的爬虫代码,记得当时找链接找了好久(之前没有接触过爬虫项目),所以无从下手啊,不过好在有时间可以让我好好摸索,所以就有了这篇文章。
这里是用request库,建立session会话,通过保存cookies来保持登录状态,因为已经有登录证书,所以不需要密码和账号登录。
######################################################################################################登录网页,返回数据#####################################################################################################
defWeblogin(self,Url1,Url2,Header):#建立一个session会话,来保持会话s=requests.Session()#保存cookiescookieJar=requests.cookies.RequestsCookieJar()cookieJar.set("JSESSIONID",xxxxxxxx)#发送请求r=s.get(url=Url1,headers=Header,cookies=cookieJar,cert=xxx.pem)time.sleep(random.randint(2,4))response=s.get(url=Url2,headers=Header,cert=xxxx.pem)returnresponse.textpass
数据整理方面,是将返回的数据转换成列表的形式,然后在写入到DB2的数据库中。
######################################################################################################处理返回数据#####################################################################################################defResponseData(self,responetext):JsonText=json.loads(responetext)total_cell_count=JsonText[total_cell_count]print(共有%d条数据%total_cell_count)CustList=[]iftotal_cell_count==0:passelse:cellsText=JsonText[cells]city_code=Datafct().Getcitycode(cellsText[0][