爬虫工作量由小到大的思维转变---＜第二十七章 Scrapy的暂停和重启＞

2023-12-27 00:12:02
开发
58

前言:

一个小知识点,刚刚有朋友私信我的; 就是scrapy的暂停与重启;

没什么可讲的,就是一个命令,还有需要注意的一个地方,我就当留言板来写这篇吧!

正文:

首先,如果我们在控制台中,一般都是用ctrl+c进行停止;(ctrl+c一次是暂停,两次是终止)

而如果想让scrapy继续第一次爬完之后,带爬取的任务继续下去,我们必须要明白,需要有一个队列~或者说,我们需要知道scrapy第一次爬了哪些(这次重新爬就不用再爬了;然后我们接着爬); 于是,就需要有一个专门用来放这些缓存的文件夹;

直接控制台,或者cmd里面到爬虫文件:

scrapy crawl <spider_name> -s JOBDIR=<job_directory>

其中，<spider_name> 是要运行的爬虫的名称，<job_directory> 是指定的用于存储状态信息的目录。通过设置 -s JOBDIR=<job_directory> 参数，Scrapy 将在指定的目录中创建状态文件，并将爬虫的状态信息存储在其中。

也就是说,当你运行的时候,最好在后面加一个 "-s JOBDIR=一个文件夹名"(如果你没有创建,他会自己给你创建的);

然后,你不小心停了,或者中断了;他会自动把爬虫信息,存到这个文件夹中~

下次,你再要重启你这未完成任务的爬虫时,继续用这个

scrapy crawl <spider_name> -s JOBDIR=<job_directory>

就行了!!!

然后,网上说啥:"在setting里面设置JOBDIR=xxx" ,我个人感觉没啥用;虽然原理是这么个原理,但实际在运行爬虫的时候,多还是临时添加一个 JOBDIR,这样一个爬虫一个任务会很方便; 即使你在setting里添加了这个jobdir设置,你正常启动爬虫,他不会给你生成缓存文件夹的;

原文地址:https://blog.csdn.net/m0_56758840/article/details/135203472 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1739680477482192896.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2023-12-27 00:12:02 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2023-12-27 00:12:02 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2023-12-27 00:12:02 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2023-12-27 00:12:02 100 阅读
NoSQL之Redis非关系型数据库

2023-12-27 00:12:02 101 阅读
2024.7.22 作业

2023-12-27 00:12:02 97 阅读
GDB调试正在运行的程序

2023-12-27 00:12:02 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2023-12-27 00:12:02 85 阅读
在Django里面运行非项目文件

2023-12-27 00:12:02 82 阅读
SSD基本架构与工作原理

2023-12-27 00:12:02 87 阅读
在誉天学习完HCIE就业吗？

2023-12-27 00:12:02 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2023-12-27 00:12:02 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2023-12-27 00:12:02 85 阅读
go 协程池的实现

2023-12-27 00:12:02 88 阅读
Shell脚本循环语句与函数

2023-12-27 00:12:02 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2023-12-27 00:12:02 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2023-12-27 00:12:02 85 阅读
四大引用——强软弱虚

2023-12-27 00:12:02 86 阅读
Python语言-面向对象

2023-12-27 00:12:02 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2023-12-27 00:12:02 85 阅读
网站安全-CDN篇

2023-12-27 00:12:02 88 阅读

热门阅读

BP网络识别26个英文字母matlab

2023-12-27 00:12:02 58 阅读
10个练习Web渗透测试的最佳网站

2023-12-27 00:12:02 65 阅读
接口文档设计的12个注意点

2023-12-27 00:12:02 59 阅读
将PDF转为jpg图片有哪些软件可实现？

2023-12-27 00:12:02 53 阅读
Create react app 修改webapck配置导入文件alias

2023-12-27 00:12:02 71 阅读
【负载均衡】Keepalived 高可用详解

2023-12-27 00:12:02 56 阅读
loki-日志

2023-12-27 00:12:02 59 阅读
智能三维数据虚拟现实电子沙盘

2023-12-27 00:12:02 47 阅读
【H5页面分享框的标题和描述】

2023-12-27 00:12:02 54 阅读
假装情侣系统H5支持分销易支付公众号源码

2023-12-27 00:12:02 73 阅读
Ubuntu下编译Qt5.15源码

2023-12-27 00:12:02 104 阅读
1.解决父组件传数据给子组件太慢，导致子组件获取不到合适数据渲染出错问题2.vue中props传递异步数据，子组件用watch监听

2023-12-27 00:12:02 58 阅读
IO进程线程day9作业

2023-12-27 00:12:02 60 阅读
linux代码 PBS提交fluent脚本

2023-12-27 00:12:02 57 阅读
Unity-序列化和反序列化

2023-12-27 00:12:02 62 阅读
C语言中关于指针的理解

2023-12-27 00:12:02 52 阅读
鸿蒙开发中的一些小问题

2023-12-27 00:12:02 50 阅读
ansible_jinja2模板的使用

2023-12-27 00:12:02 45 阅读
设计模式笔记

2023-12-27 00:12:02 45 阅读
饥荒Mod 开发(二二)：显示物品信息

2023-12-27 00:12:02 50 阅读
MySQL的事务-隔离级别

2023-12-27 00:12:02 53 阅读
MySql 事务隔离级别详解

2023-12-27 00:12:02 50 阅读
Compose State的各种转换

2023-12-27 00:12:02 52 阅读
案例163:基于微信小程序的校园二手交易平台系统设计与开发

2023-12-27 00:12:02 65 阅读
Qt designer设计UI实例：双视图立体匹配与重建的可视化UI

2023-12-27 00:12:02 60 阅读
python初试四

2023-12-27 00:12:02 67 阅读
关于情侣飞行棋源码H5

2023-12-27 00:12:02 56 阅读
AlignBench：量身打造的中文大语言模型对齐评测

2023-12-27 00:12:02 60 阅读
【数据结构】六、树和二叉树

2023-12-27 00:12:02 39 阅读
【已解决】Excel“打开密码”在哪里设置？

2023-12-27 00:12:02 51 阅读