Scrapy数据存储到数据库

2024-04-08 10:48:05
开发
36

Scrapy数据存储到数据库

目录

Scrapy数据存储到数据库

存储数据的三个关键步骤

spider获取数据
定义item创建数据结构
定义pipeline处理数据并保存

创建spider并获取数据

目标：获取豆瓣的电影名(仅第一页)

from bs4 import BeautifulSoup

import scrapy

from douban.items import DoubanItem


class Douban250(scrapy.Spider):
    name = "douban250"
    allowed_domains = ["movie.douban.com"]
    start_urls = ["https://movie.douban.com/top250"]

    def parse(self, response):
        soup = BeautifulSoup(response.body, 'lxml')
        hd_tags = soup.find_all('div', class_='hd')
        title = []
        for i in hd_tags:
            title.append(i.find_all('span', class_='title')[0].text)

        douban_item = DoubanItem()
        douban_item['title'] = title
        yield douban_item

解析方式为bs4为例

此时获取到的数据组成一个列表传递给douban_item管道

item接受数据

# item.py
import scrapy


class DoubanItem(scrapy.Item):
    title = scrapy.Field()

pipeline存储数据

# pipeline.py
import pymysql
from itemadapter import ItemAdapter


class DoubanPipeline:
    # 初始化Mysql数据库
    def __init__(self):
        self.conn = pymysql.connect(
            host='127.0.0.1',
            port=3306,
            user='root',
            password='666',
            database='douban',
            charset='utf8'
        )
        # 创建游标
        self.cursor = self.conn.cursor()
	
    # 关闭爬虫方法(提交事务并关闭)
    def close_spider(self, spider):
        self.conn.commit()
        self.conn.close()

    def process_item(self, item, spider):
        # 获取item中的'title' 不存在则为空字符串
        title = item.get('title', '')
        for i in title:
            # 遍历title列表并执行sql语句
            self.cursor.execute(
                'insert into douban250 (title) values (%s)',
                (i,)
            )
        return item

原文地址:https://blog.csdn.net/AZURE060606/article/details/137477494 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1777166494128541696.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

Scrapy数据存储到数据库

2024-04-08 10:48:05 37 阅读
Scrapy与MongoDB的异步数据存储

2024-04-08 10:48:05 38 阅读
Python爬虫：使用Scrapy框架将XXTop250电影信息存储到MySQL数据库

2024-04-08 10:48:05 50 阅读
python--scrapy 保存数据到 mongodb

2024-04-08 10:48:05 43 阅读
用Scrapy 从数据挖掘到监控和自动化测试

2024-04-08 10:48:05 35 阅读
scrapy爬取豆瓣书单存入MongoDB数据库

2024-04-08 10:48:05 24 阅读
php hyperf 读取redis，存储到数据库

2024-04-08 10:48:05 50 阅读
将elasticsearch数据存储到excel中

2024-04-08 10:48:05 57 阅读
Scrapy数据解析(XPath、CSS)

2024-04-08 10:48:05 42 阅读
使用Spark进行数据清洗和存储：从商城数据到HDFS和数据库

2024-04-08 10:48:05 39 阅读

最近更新

题解 - 序列

2024-04-08 10:48:05 117 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-04-08 10:48:05 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-04-08 10:48:05 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-04-08 10:48:05 101 阅读
NoSQL之Redis非关系型数据库

2024-04-08 10:48:05 101 阅读
2024.7.22 作业

2024-04-08 10:48:05 98 阅读
GDB调试正在运行的程序

2024-04-08 10:48:05 82 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-04-08 10:48:05 85 阅读
在Django里面运行非项目文件

2024-04-08 10:48:05 82 阅读
SSD基本架构与工作原理

2024-04-08 10:48:05 87 阅读
在誉天学习完HCIE就业吗？

2024-04-08 10:48:05 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-04-08 10:48:05 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-04-08 10:48:05 86 阅读
go 协程池的实现

2024-04-08 10:48:05 89 阅读
Shell脚本循环语句与函数

2024-04-08 10:48:05 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-04-08 10:48:05 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-04-08 10:48:05 85 阅读
四大引用——强软弱虚

2024-04-08 10:48:05 86 阅读
Python语言-面向对象

2024-04-08 10:48:05 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-04-08 10:48:05 85 阅读
网站安全-CDN篇

2024-04-08 10:48:05 89 阅读

热门阅读

什么是PEBB技术？ —— 生成式模块化电力电子学

2024-04-08 10:48:05 40 阅读
鸿蒙原生应用已超4000个！

2024-04-08 10:48:05 33 阅读
python练习三

2024-04-08 10:48:05 32 阅读
人到中年，IT从业者怎么办

2024-04-08 10:48:05 30 阅读
猜测生日日期

2024-04-08 10:48:05 36 阅读
网络安全（黑客技术）—2024自学手册

2024-04-08 10:48:05 27 阅读
Redis 5种数据结构常用命令

2024-04-08 10:48:05 34 阅读
正则表达式

2024-04-08 10:48:05 32 阅读
AJAX进阶

2024-04-08 10:48:05 33 阅读
基于Docker 快速搭建EFK日志中心

2024-04-08 10:48:05 32 阅读
利用python抓取小说，爬虫抓取小说

2024-04-08 10:48:05 30 阅读
关于APP分发，要取得更好效果需要注意的

2024-04-08 10:48:05 33 阅读
瑞吉外卖实战学习-17、用户地址簿相关功能

2024-04-08 10:48:05 33 阅读
深入浅出 -- 系统架构之负载均衡Nginx跨域配置

2024-04-08 10:48:05 35 阅读
前后端接口写法（传输数据）

2024-04-08 10:48:05 35 阅读
消息队列Redis实现

2024-04-08 10:48:05 28 阅读
Teamcenter 修改缓存文件夹名称及路径的方法

2024-04-08 10:48:05 69 阅读
MicroPython with LVGL

2024-04-08 10:48:05 31 阅读
CV论文--2024.4.7

2024-04-08 10:48:05 37 阅读
Android 11 上的文件读写无权限问题

2024-04-08 10:48:05 30 阅读
SVG图标显示

2024-04-08 10:48:05 36 阅读
css 手写返回箭头

2024-04-08 10:48:05 35 阅读
【告警监控】监控，巡检和拨测

2024-04-08 10:48:05 36 阅读
Unity LayoutRebuilder 强制UI重新布局

2024-04-08 10:48:05 32 阅读
wpf viewmodel和界面双向通知

2024-04-08 10:48:05 27 阅读
探索Python爬虫：解析网页数据的神奇之旅

2024-04-08 10:48:05 34 阅读
tx-lcn使用

2024-04-08 10:48:05 32 阅读
WPF —— FromTo/By动画

2024-04-08 10:48:05 32 阅读
C#WPF控件Menu详解

2024-04-08 10:48:05 30 阅读
STM32智能家居小助手

2024-04-08 10:48:05 36 阅读