爬虫订单数据爬取

文章来源:一氧化碳中毒   发布时间:2021-8-4 13:51:41   点击数: 2 次
  北京权威白癜风专科医院 http://pf.39.net/bdfyy/bdflx/

这是我第一个写的爬虫代码,记得当时找链接找了好久(之前没有接触过爬虫项目),所以无从下手啊,不过好在有时间可以让我好好摸索,所以就有了这篇文章。

这里是用request库,建立session会话,通过保存cookies来保持登录状态,因为已经有登录证书,所以不需要密码和账号登录。

######################################################################################################登录网页,返回数据#####################################################################################################

defWeblogin(self,Url1,Url2,Header):#建立一个session会话,来保持会话s=requests.Session()#保存cookiescookieJar=requests.cookies.RequestsCookieJar()cookieJar.set("JSESSIONID",xxxxxxxx)#发送请求r=s.get(url=Url1,headers=Header,cookies=cookieJar,cert=xxx.pem)time.sleep(random.randint(2,4))response=s.get(url=Url2,headers=Header,cert=xxxx.pem)returnresponse.textpass

数据整理方面,是将返回的数据转换成列表的形式,然后在写入到DB2的数据库中。

######################################################################################################处理返回数据#####################################################################################################defResponseData(self,responetext):JsonText=json.loads(responetext)total_cell_count=JsonText[total_cell_count]print(共有%d条数据%total_cell_count)CustList=[]iftotal_cell_count==0:passelse:cellsText=JsonText[cells]city_code=Datafct().Getcitycode(cellsText[0][

转载请注明:http://www.lwblm.com/zdwh/12251.html
  • 上一篇文章:
  • 下一篇文章: 没有了