scrapy分布式、断点续连爬虫开发框架RedisSpider使用教程

一、爬虫文件

使用RedisSpider为继承父类,添加redis_key

import scrapy
from ..items import NewsItem
from scrapy_redis import spiders

class CbsnewsSpiderSpider(spiders.RedisSpider):
    name = "abc_spider"
    # allowed_domains = ["www.abc.com"]
    # start_urls = ["https://www.abc.com/"]
    redis_key = 'abc:start_urls'    # redis队列关键字,使用 lpush abc:start_urls https://www.abc.com/ 放入初始网址,程序自动GET请求

    def parse(self, response):
        """
        第一层:解析自动GET请求的初始网址
        :param response:
        :return:
        """
        abc_list = response.xpath('//nav[@class="header__nav"]//a/@href').extract()
        if not abc_list:
            return
        for column_url in abc_list:
            yield scrapy.Request(column_url, callback=self.abc_source, meta={'column_url': column_url})

    def abc_source(self,response):
        """
        第二层:解析第一层获取并请求回来的网址
        :param response:
        :return:
        """
        column_url = response.meta['column_url']
        print(column_url)
        pass

二、settings.py配置

项目settings.py文件增加下面代码即可

# 增加redis地址、端口
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379

# 配置scrapy-redis调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 配置爬取去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 断点续连,不用从头开始爬
SCHEDULER_PERSIST = True

相关推荐

  1. 爬虫框架Scrapy从创建到使用

    2024-07-18 11:12:02       39 阅读
  2. 爬虫框架Scrapy

    2024-07-18 11:12:02       49 阅读
  3. python爬虫框架Scrapy

    2024-07-18 11:12:02       59 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-18 11:12:02       70 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-18 11:12:02       74 阅读
  3. 在Django里面运行非项目文件

    2024-07-18 11:12:02       62 阅读
  4. Python语言-面向对象

    2024-07-18 11:12:02       72 阅读

热门阅读

  1. 手写实现简单Redis命令客户端功能

    2024-07-18 11:12:02       17 阅读
  2. Leetcode 238. 除自身以外数组的乘积

    2024-07-18 11:12:02       23 阅读
  3. qt listview 列表文字显示不全,如何用悬浮显示?

    2024-07-18 11:12:02       17 阅读
  4. PF4J+SpringBoot

    2024-07-18 11:12:02       19 阅读
  5. CAS的原理

    2024-07-18 11:12:02       26 阅读
  6. P5717 【深基3.习8】三角形分类

    2024-07-18 11:12:02       21 阅读
  7. 【数据平台-dataworks】-问题总结

    2024-07-18 11:12:02       23 阅读
  8. spring中的依赖注入

    2024-07-18 11:12:02       21 阅读
  9. 力扣212题:单词搜索 II

    2024-07-18 11:12:02       21 阅读