scrapy爬取豆瓣书单存入MongoDB数据库

2024-06-18 21:46:01
开发
24

scrapy爬取豆瓣书单存入MongoDB数据库

一、安装scrapy库
二、创建scrapy项目
三、创建爬虫
四、修改settings，设置UA，开启管道
五、使用xpath解析数据
六、完善items.py
七、在douban.py中导入DoubanshudanItem类
八、爬取所有页面数据
九、管道中存入数据，保存至csv文件
十、将数据写入MongoDB数据库
十一、完整代码：

一、安装scrapy库

爬取的目标url是https://www.douban.com/doulist/45298673/，完整代码放在最后，使用命令pip install scrapy安装scrapy库。

二、创建scrapy项目

使用命令scrapy startproject doubanshudan来创建scrapy项目，再通过命令cd doubanshudan进入项目目录。

三、创建爬虫

使用命令scrapy genspider douban douban.com创建名为douban的爬虫，起始域名是douban.com。

四、修改settings，设置UA，开启管道

打开settings.py，将ROBOTSTXT_OBEY改为False，LOG_LEVEL设置为ERROR，将User-Agent改为自己的User-Agen，如下图所示：
在这里插入图片描述
在settings.py文件中取消管道代码的注释，如下图所示：

原文地址:https://blog.csdn.net/lyccomcn/article/details/139698509 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1803061607744540672.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

scrapy爬取豆瓣书单存入MongoDB数据库

2024-06-18 21:46:01 25 阅读
爬虫爬取豆瓣电影、价格、书名

2024-06-18 21:46:01 50 阅读
scrapy批量爬取豆瓣电影排行信息

2024-06-18 21:46:01 66 阅读
python scrapy 爬取豆瓣电影top250教程2

2024-06-18 21:46:01 33 阅读
scrapy框架爬取豆瓣top250电影排行榜（下）

2024-06-18 21:46:01 26 阅读
爬虫实战四、PyCharm+Scrapy爬取数据并存入MySQL

2024-06-18 21:46:01 42 阅读
爬虫：爬取豆瓣电影

2024-06-18 21:46:01 25 阅读
案例：爬取豆瓣电影 Top250 的数据

2024-06-18 21:46:01 43 阅读
Python爬取豆瓣电影Top250数据

2024-06-18 21:46:01 30 阅读
Python经典案例爬取豆瓣Top250电影数据

2024-06-18 21:46:01 34 阅读

最近更新

题解 - 序列

2024-06-18 21:46:01 122 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-06-18 21:46:01 108 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-06-18 21:46:01 98 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-06-18 21:46:01 106 阅读
NoSQL之Redis非关系型数据库

2024-06-18 21:46:01 108 阅读
2024.7.22 作业

2024-06-18 21:46:01 104 阅读
GDB调试正在运行的程序

2024-06-18 21:46:01 87 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-06-18 21:46:01 90 阅读
在Django里面运行非项目文件

2024-06-18 21:46:01 87 阅读
SSD基本架构与工作原理

2024-06-18 21:46:01 94 阅读
在誉天学习完HCIE就业吗？

2024-06-18 21:46:01 98 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-06-18 21:46:01 90 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-06-18 21:46:01 92 阅读
go 协程池的实现

2024-06-18 21:46:01 93 阅读
Shell脚本循环语句与函数

2024-06-18 21:46:01 96 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-06-18 21:46:01 98 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-06-18 21:46:01 90 阅读
四大引用——强软弱虚

2024-06-18 21:46:01 92 阅读
Python语言-面向对象

2024-06-18 21:46:01 96 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-06-18 21:46:01 91 阅读
网站安全-CDN篇

2024-06-18 21:46:01 93 阅读

热门阅读

自动化数据驱动？最全接口自动化测试yaml数据驱动实战

2024-06-18 21:46:01 35 阅读
OpenAI新开放了这些好用的API功能(附AI学习指南)

2024-06-18 21:46:01 25 阅读
hdfs高可用文件系统架构

2024-06-18 21:46:01 27 阅读
out of range float values are not json compliant

2024-06-18 21:46:01 33 阅读
物联网技术-第3章物联网感知技术-3.3传感技术

2024-06-18 21:46:01 23 阅读
Apache druid未授权命令执行漏洞复现

2024-06-18 21:46:01 31 阅读
人生的乐趣，在于对真知的追求

2024-06-18 21:46:01 31 阅读
$git\repo$

git\repo

2024-06-18 21:46:01 26 阅读
多模态大模型通用模式

2024-06-18 21:46:01 33 阅读
Prometheus配置文件与核心功能

2024-06-18 21:46:01 33 阅读
MySQL事务

2024-06-18 21:46:01 23 阅读
Kotlin 中，data class 和普通 class

2024-06-18 21:46:01 32 阅读
Vue3-国足18强赛抽签

2024-06-18 21:46:01 37 阅读
企业中面试算法岗时会问什么pytorch问题？看这篇就够了！

2024-06-18 21:46:01 23 阅读
嵌入式跨平台编译：vsftpd

2024-06-18 21:46:01 28 阅读
测试testing06181

2024-06-18 21:46:01 24 阅读
Git的下载安装及可视化工具小乌龟

2024-06-18 21:46:01 30 阅读
【深度学习驱动流体力学】VTK创建、处理和可视化流体数据

2024-06-18 21:46:01 23 阅读
Day41

2024-06-18 21:46:01 22 阅读
6月17（信息差）

2024-06-18 21:46:01 25 阅读
MySQL面试重点-1

2024-06-18 21:46:01 28 阅读
推荐常用的三款源代码防泄密软件

2024-06-18 21:46:01 29 阅读
深入探讨：Spring与MyBatis中的连接池与缓存机制

2024-06-18 21:46:01 22 阅读
【面试 - 页面优化举例】页面跳转卡顿问题解决 - 页面跳转速度优化

2024-06-18 21:46:01 31 阅读
赶紧收藏！2024 年最常见 20道设计模式面试题（三）

2024-06-18 21:46:01 34 阅读
目标检测数据集 - PCB板表面缺陷检测数据集下载「包含VOC、COCO、YOLO三种格式」

2024-06-18 21:46:01 34 阅读
token无感刷新

2024-06-18 21:46:01 26 阅读
Python武器库开发-武器库篇之链接提取器（六十）

2024-06-18 21:46:01 28 阅读
【HarmonyOS NEXT 】鸿蒙detectBarcode (图像识码）

2024-06-18 21:46:01 25 阅读
android常用知识

2024-06-18 21:46:01 26 阅读