56,scrapy之增量式爬虫与scr

文章来源:一氧化碳中毒   发布时间:2021-9-20 16:32:05   点击数:
  

01

增量式爬虫

概念:检测网站数据更新的情况,只会爬取最新更新出来的数据。分析:1)指定一个起始url2)基于CrawlSpider获取其他页码链接3)基于Rule将其他页码链接进行请求4)从每一个页码对应的页面源码中解析出每一部电影详情页的url

importscrapyfromscrapy.linkextractorsimportLinkExtractorfromscrapy.spidersimportCrawlSpider,RulefromredisimportRedisfrommoviePro.itemsimportMovieproItemclassMovieSpider(CrawlSpider):name=movie#allowed_domains=[

转载请注明:http://www.lwblm.com/bzbk/12446.html