网络爬虫Scrapy shell 的使用和介绍

2024-07-16 08:48:04
开发
26

Scrapy shell 是一个交互式终端，可以在不启动爬虫的情况下尝试及调试爬取部分的代码，也可以测试XPath路径表达式或CSS表达式是否正确。它可以避免每次修改表达式后运行爬虫的麻烦，在开发和调试爬虫的阶段发挥着很大的作用。

Scrapy shell 一般使用标准 Python 终端。但如果计算机中已经安装 IPython 终端，那么 Scrapy shell 将优先使用IPython 终端。这是因为IPython终端具有比标准Python终端更强大的功能，提供了代码自动补全、高亮输出等功能。下面分别对启用Scrapy shell和使用Scrapy shell 进行介绍。

1．启用Scrapy shell O(∩_∩)O

启用Scrapy shell 的命令如下。

scrapy shell <URL>

在上述命令格式中，是待抓取的URL地址。

例如在Windows操作系统的命令提示符窗口中输入“scrapy shell www.baidu.com”命令即可启用Scrapy shell 访问百度首页。而且终端会输出大量提示信息，具体内容如下。

C:\Users\admin>scrapy shell www.baidu.com 
2021-08-23 14:54:29 [scrapy.utils.log] INFO: Scrapy 2.5.0 started (bot: scrapybot) 
……(省略) 
2021-08-23 14:54:30 [scrapy.core.engine] INFO: Spider opened 
2021-08-23 14:54:33 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.baidu. 
com> (referer: None)

在上述提示信息中，“Crawled (200) ”表示访问网页成功。

2．使用Scrapy shell (☆▽☆)

Scrapy shell 可以看成一个在Python 终端（或IPython）基础上添加了扩充功能的Python控制台程序。这些扩充功能包括若干功能函数和内置对象。关于功能函数和内置对象的介绍如下。

（1）功能函数。

Scrapy shell 主要提供了 3 个功能函数，它们分别是 shelp()、fetch(request_or_url)和 view(response)。关于这些函数的介绍如下。

shelp()：输出可用对象和功能函数的帮助列表。

fetch(request_or_url)：根据给定的 request 或 URL 获取一个新的 response 对象，并且更新原有的相关对象。

view(response)：使用本机的浏览器打开给定的response对象。该函数会在response的 body 中添加一个标签，使得外部链接（例如图片及 CSS）能正确显示。要注意的是，该函数还会在本地创建一个临时文件，而且该临时文件不会被自动删除。

（2）内置对象。

当使用Scrapy shell 下载指定页面的时候，会生成一些可用的内置对象。关于这些内置对 212 Python 网络爬虫基础教程象的介绍如下。

crawler：当前 Crawler 对象。

spider：处理URL的Spider对象。

request：最近获取的页面的 Request 对象。可以使用 replace()修改该 request，也可以使用功能函数fetch(request_or_url)获取新的 request。

response：包含最近获取的页面的Response对象。

settings：当前的 Scrapy settings。

当Scrapy shell 载入页面后，将得到一个包含Response的本地response变量。若在终端输入response.body，则可以看到 response 的请求数据；若在终端输入 response.headers，则可以看到response 的请求头；若在终端输入response.selector，则将获取一个 response 初始化的类 Selector 的对象（HTML及 XML内容）。此时可以通过使用response.selector.xpath()或 response. selector.css()对 response 进行查询。

另外，Scrapy 还提供了一些快捷方式，例如response.xpath()或response.css()同样可以生效。

原文地址:https://blog.csdn.net/weixin_49816293/article/details/140443531 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1813012688062779392.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部