Scrapy框架实现数据采集的详细步骤

需求描述

本项目目标是使用Scrapy框架从宁波大学经济学院网站(nbufe.edu.cn)爬取新闻或公告详情页的内容。具体需求如下:

1、通过遍历多个页面(共55页)构建翻页URL。

2、使用scrapy自带的xpath从每页的HTML结构中提取新闻或公告详情页的链接。

3、对每个详情页,使用BeautifulSoup解析HTML并提取以下信息:

标题、来源、作者、时间、内容、撰稿、摄影、审核。最终将所有提取的信息存储在excel中。

创建scrapy爬虫项目

  1. 首先新建一个新的爬虫项目:

Cd 进入创建位置,scrapy genspider 爬虫名称+爬虫网站 创建新的爬虫项目

  1. scrapy项目文件

目录结构中的文件说明如下:

​ spiders(文件夹):用于创建爬虫文件,编写爬虫规则。

​ __ init __文件:初始化文件。

​ items文件:用于数据的定义,可以寄存处理后的数据。

​middlerwares文件:定义爬取时的中间件,其中包括SpiderMiddleware(爬虫中间件)、DownloaderMiddleware(下载中间件)

pipelines文件:用于实现清洗数据、验证数据、保存数据。

settings文件:整个框架的配置文件,主要包含配置爬虫信息,请求头、中间件等。

scrapy.cfg文件:项目部署文件,其中定义了项目等配置文件路径等相关信息。

爬虫制作

zyj.py文件:爬取数据

(1)Spider定义和配置:

name属性定义爬虫的名字为“zyj”。

start_urls属性包含了爬虫的初始URL列表,这里是宁波财经学院的主页。

(2)start_requests方法:

该方法用来生成初始请求。通过一个循环,生成从第1页到第55页的请求URL,并通过scrapy.Request发送请求。

(3)parse方法:

这个方法是对每个请求返回的响应进行处理。首先输出响应内容以供调试。

使用XPath选择器来找到包含目标数据的div标签,调试输出找到的div数量。遍历每个div,构造详情页的URL,并生成请求,同时将请求传递给parse_zyj方法进行详细处理。

(4)parse_zyj方法:

该方法负责解析详情页的内容。首先创建一个zyjItem实例来存储抓取的数据。使用BeautifulSoup解析响应的HTML内容。提取详情页的标题、来源、作者、时间、内容等信息,并处理可能出现的数据缺失情况,输出相应的调试信息。通过对特定标签的进一步解析,提取内容创作人、摄影和审核信息。如果解析失败,则将相应字段设为“N/A”。最后,输出解析后的item,并通过yield将其传递给Scrapy的Item Pipeline。

(5)网页定位

右键点击审查,定位标题列表页的标题以及详情页地址。如下图所示

定位详情页标题及文章来源作者时间等,div属性class的值为main_show_bt md

定位详情页内容,div属性class的值为main_show_nr md

最后使用beautifulsoup解析详情页,提取内容等信息。详细代码如下

item.py文件:

setting.py文件:将下面的语句解开注释。设置了默认的请求头(HTTP headers),用于每次请求时附加到HTTP请求中。主要包括以下两个字段:

Accept: 指定客户端可以处理的内容类型。text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8表示客户端可以接受HTML、XHTML、XML格式的响应,权重分别为0.9和0.8,表示HTML、XHTML和XML优先级较高。

User-Agent: 用于标识请求的客户端(浏览器)。这里设置了一个常见的浏览器用户代理字符串,模拟的是Google Chrome浏览器。这可以帮助避免一些网站因为识别到爬虫而进行的访问限制。

cookies: 添加了一个Cookies字段,用于在请求中携带特定的Cookies信息。这可能用于保持会话或通过某些网站的防爬虫措施。

另外还配置了Scrapy的项目管道(Item Pipelines),用于处理抓取到的项目(items)。配置的结构为字典形式,键为管道的路径,值为管道的优先级。zyj.pipelines.ZyjPipeline: 这是定义在项目中的一个管道类,路径是zyj.pipelines中的ZyjPipeline类。该管道类负责处理、清理或存储爬虫抓取到的数据。

300: 这是该管道的优先级。Scrapy允许定义多个管道,优先级数值越低,优先级越高。这里设置的300表示中等优先级。

Pipeline.py文件:将数据进行处理并保存到zyj.xlsx文件

  1. 运行。通过编程的方式启动名为zyj的Scrapy爬虫,等效于在命令行手动输入scrapy crawl zyj命令。这种方法适用于在Python脚本中启动爬虫,可以方便地集成到其他Python代码中,或用于调试和自动化任务。

  1. 结果

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-15 07:52:02       66 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-15 07:52:02       70 阅读
  3. 在Django里面运行非项目文件

    2024-07-15 07:52:02       57 阅读
  4. Python语言-面向对象

    2024-07-15 07:52:02       68 阅读

热门阅读

  1. PyTorch使用细节

    2024-07-15 07:52:02       23 阅读
  2. Matplotlib库学习之figure.add_subplot函数

    2024-07-15 07:52:02       25 阅读
  3. uniapp 初始学习1

    2024-07-15 07:52:02       30 阅读
  4. 在 YAML 中的变量(使用 &和 * 定义及引用变量)

    2024-07-15 07:52:02       24 阅读
  5. Julia 交互式命令

    2024-07-15 07:52:02       24 阅读
  6. uniapp颜色选择器

    2024-07-15 07:52:02       22 阅读
  7. 什么是DDoS攻击

    2024-07-15 07:52:02       25 阅读
  8. [NeetCode 150] Word Ladder

    2024-07-15 07:52:02       23 阅读
  9. nginx+lua 实现URL重定向(根据传入的参数条件)

    2024-07-15 07:52:02       20 阅读
  10. Vue2-案例tab切换栏高亮

    2024-07-15 07:52:02       25 阅读
  11. 项目管理·沟通管理

    2024-07-15 07:52:02       26 阅读