scrapy分布式、断点续连爬虫开发框架RedisSpider使用教程

34 阅读 0 评论 0 点赞

一、爬虫文件

使用RedisSpider为继承父类，添加redis_key

import scrapy
from ..items import NewsItem
from scrapy_redis import spiders

class CbsnewsSpiderSpider(spiders.RedisSpider):
    name = "abc_spider"
    # allowed_domains = ["www.abc.com"]
    # start_urls = ["https://www.abc.com/"]
    redis_key = 'abc:start_urls'    # redis队列关键字，使用 lpush abc:start_urls https://www.abc.com/ 放入初始网址，程序自动GET请求

    def parse(self, response):
        """
        第一层：解析自动GET请求的初始网址
        :param response:
        :return:
        """
        abc_list = response.xpath('//nav[@class="header__nav"]//a/@href').extract()
        if not abc_list:
            return
        for column_url in abc_list:
            yield scrapy.Request(column_url, callback=self.abc_source, meta={'column_url': column_url})

    def abc_source(self,response):
        """
        第二层：解析第一层获取并请求回来的网址
        :param response:
        :return:
        """
        column_url = response.meta['column_url']
        print(column_url)
        pass

二、settings.py配置

项目settings.py文件增加下面代码即可

# 增加redis地址、端口
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379

# 配置scrapy-redis调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 配置爬取去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 断点续连，不用从头开始爬
SCHEDULER_PERSIST = True

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » scrapy分布式、断点续连爬虫开发框架RedisSpider使用教程

点赞(0) 打赏

本文分类：文章资讯
本文标签：scrapy分布式、断点续连爬虫开发框架RedisSpider使用教程
浏览次数：34 次浏览
本文链接：https://freeymw.com/article/18494.html

评论列表共有 0 条评论

暂无评论

scrapy分布式、断点续连爬虫开发框架RedisSpider使用教程

一、爬虫文件

二、settings.py配置

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复