网络爬虫概述

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm=1001.2014.3001.5501

网络爬虫(又被称为网络蜘蛛、网络机器人,在某社区中经常被称为网页追逐者),可以按照指定的规则(网络爬虫的算法)自动浏览或抓取网络中的信息,通过Python可以很轻松地编写爬虫程序或者是脚本。

一个通用的网络爬虫基本工作流程如图1所示。

图1  通用的网络爬虫基本工作流程

网络爬虫的基本工作流程如下:

(1)获取初始的URL,该URL地址是用户自己制定的初始爬取的网页。

(2)爬取对应URL地址的网页时,获取新的URL地址。

(3)将新的URL地址放入URL队列中。

(4)从URL队列中读取新的URL,然后依据新的URL爬取网页,同时从新的网页中获取新的URL地址,重复上述的爬取过程。

(5)设置停止条件,如果没有设置停止条件时,爬虫会一直爬取下去,直到无法获取新的URL地址为止。设置了停止条件后,爬虫将会在满足停止条件时停止爬取。

 

相关推荐

  1. Python----网络爬虫

    2024-06-18 22:04:02       48 阅读
  2. 26.Python 网络爬虫

    2024-06-18 22:04:02       59 阅读
  3. 网络爬虫详解

    2024-06-18 22:04:02       61 阅读
  4. 【python】网络爬虫基础

    2024-06-18 22:04:02       35 阅读
  5. 【python】网络爬虫——Scrapy

    2024-06-18 22:04:02       37 阅读
  6. python实现网络爬虫

    2024-06-18 22:04:02       32 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-18 22:04:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-18 22:04:02       100 阅读
  3. 在Django里面运行非项目文件

    2024-06-18 22:04:02       82 阅读
  4. Python语言-面向对象

    2024-06-18 22:04:02       91 阅读

热门阅读

  1. CSS中几种常用的清除浮动的方法

    2024-06-18 22:04:02       24 阅读
  2. BootStrap

    2024-06-18 22:04:02       29 阅读
  3. 我与华为的缘分

    2024-06-18 22:04:02       26 阅读
  4. 系统架构师面试题

    2024-06-18 22:04:02       30 阅读
  5. HTML(8)——CSS选择器

    2024-06-18 22:04:02       35 阅读
  6. LeetCode 2288.价格减免:模拟

    2024-06-18 22:04:02       32 阅读
  7. 给wordpress网站添加瀑布流效果

    2024-06-18 22:04:02       37 阅读
  8. 文件系统更新initrd的方法

    2024-06-18 22:04:02       27 阅读