【爬虫专区】批量下载PDF （无反爬）

2024-01-31 21:18:03
开发
59

天命：只要没反爬，一切都简单

这次爬取的是绿盟的威胁情报的PDF

先看一下结构，很明显就是一个for循环渲染

burp抓包会发现第二次接口请求

接口请求一次就能获取到了所有的数据

然后一个循环批量下载数据即可，其实没啥难度的

import requests,os

res = requests.get("https://nti.nsfocus.com/api/v2/report/notie/?page=1&size=200&order=reported")
data_dict = res.json() # 提取json格式
当前相对路径 = os.getcwd()  # 获取绝对路径，每个人电脑不一样，所以预算是相对路径
os.mkdir("PDF") # 在当前文件夹下，创建一个PDF文件夹

# 提取data字段
data = data_dict['data']
for 数据 in data:
    日期 = 数据['created']
    日期 = 日期.split("T")[0]
    标题 = 数据['title']
    文件名 =

原文地址:https://blog.csdn.net/weixin_46301214/article/details/135931934 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1752682655469670400.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-01-31 21:18:03 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-01-31 21:18:03 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-01-31 21:18:03 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-01-31 21:18:03 100 阅读
NoSQL之Redis非关系型数据库

2024-01-31 21:18:03 101 阅读
2024.7.22 作业

2024-01-31 21:18:03 98 阅读
GDB调试正在运行的程序

2024-01-31 21:18:03 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-01-31 21:18:03 85 阅读
在Django里面运行非项目文件

2024-01-31 21:18:03 82 阅读
SSD基本架构与工作原理

2024-01-31 21:18:03 87 阅读
在誉天学习完HCIE就业吗？

2024-01-31 21:18:03 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-01-31 21:18:03 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-01-31 21:18:03 85 阅读
go 协程池的实现

2024-01-31 21:18:03 89 阅读
Shell脚本循环语句与函数

2024-01-31 21:18:03 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-01-31 21:18:03 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-01-31 21:18:03 85 阅读
四大引用——强软弱虚

2024-01-31 21:18:03 86 阅读
Python语言-面向对象

2024-01-31 21:18:03 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-01-31 21:18:03 85 阅读
网站安全-CDN篇

2024-01-31 21:18:03 89 阅读

热门阅读

MATLAB中conv和filter函数的区别

2024-01-31 21:18:03 53 阅读
Guitar Pro 8 Win版安装激活教程 guitarpro8值不值得买

2024-01-31 21:18:03 53 阅读
招聘公告|工作就是“玩”，免费公寓拎包入住，来不及了快上车！

2024-01-31 21:18:03 54 阅读
如何快速知道app当前页面是哪一个Activity（2.0升级版)

2024-01-31 21:18:03 60 阅读
c++cout解释

2024-01-31 21:18:03 56 阅读
国内外FPGA主要厂商和其主要芯片

2024-01-31 21:18:03 48 阅读
让MySQL和Redis数据保持一致的4种策略

2024-01-31 21:18:03 54 阅读
【搜索术】代码阅读理解学习学习笔记

2024-01-31 21:18:03 49 阅读
如何从视频中提取高清图片？可以这样截取

2024-01-31 21:18:03 53 阅读
网络安全（黑客）自学

2024-01-31 21:18:03 38 阅读
Mov转MP4怎么转换？如何播放mov视频？

2024-01-31 21:18:03 68 阅读
将网站迁移到阿里云Windows系统云服务器，访问该站点提示连接被拒绝，如何处理？

2024-01-31 21:18:03 54 阅读
fpmarkets实例讲解止损，控制风险如此简单

2024-01-31 21:18:03 47 阅读
Git 的基本概念和使用方式

2024-01-31 21:18:03 60 阅读
VirtualBox安装Ubuntu22.04

2024-01-31 21:18:03 47 阅读
STM32——看门狗

2024-01-31 21:18:03 58 阅读
【Midjourney】关于标准模型的几个按钮都有什么用

2024-01-31 21:18:03 57 阅读
python 写入csv文件内容乱码

2024-01-31 21:18:03 54 阅读
HarmonyOS使用Web组件加载页面

2024-01-31 21:18:03 52 阅读
DevSecOps 参考模型介绍

2024-01-31 21:18:03 55 阅读
Kubernetes k8s

2024-01-31 21:18:03 57 阅读
2024/1/28CSS学习:基础认知；选择器；文本样式

2024-01-31 21:18:03 62 阅读
1.26学习总结

2024-01-31 21:18:03 67 阅读
【ArcGIS微课1000例】0100：ArcGIS for CAD软件下载与安装（附安装包）

2024-01-31 21:18:03 59 阅读
C#：软件任务栏托盘图标添加关闭软件菜单等

2024-01-31 21:18:03 53 阅读
WhatsApp Business和WhatsApp区别？

2024-01-31 21:18:03 55 阅读
华为iMaster NetEco及冷通道日常管理

2024-01-31 21:18:03 55 阅读
C++：CSDN云服务器

2024-01-31 21:18:03 62 阅读
【ASP.NET Core 基础知识】--身份验证和授权--授权和策略

2024-01-31 21:18:03 46 阅读
关于获取CISP-PTE一些避坑经历

2024-01-31 21:18:03 40 阅读