01
—
增量式爬虫
概念:检测网站数据更新的情况,只会爬取最新更新出来的数据。分析:1)指定一个起始url2)基于CrawlSpider获取其他页码链接3)基于Rule将其他页码链接进行请求4)从每一个页码对应的页面源码中解析出每一部电影详情页的urlimportscrapyfromscrapy.linkextractorsimportLinkExtractorfromscrapy.spidersimportCrawlSpider,RulefromredisimportRedisfrommoviePro.itemsimportMovieproItemclassMovieSpider(CrawlSpider):name=movie#allowed_domains=[