爬虫入门与urllib&requests

前情摘要

一、web请求全过程剖析

我们浏览器在输入完网址到我们看到网页的整体内容, 这个过程中究竟发生了些什么?

我们看一下一个浏览器请求的全过程

接下来就是一个比较重要的事情了. 所有的数据都在页面源代码里么? 非也~ 这里要介绍一个新的概念

那就是页面渲染数据的过程, 我们常见的页面渲染过程有两种,

  1. 服务器渲染, 你需要的数据直接在页面源代码里能搜到

    这个最容易理解, 也是最简单的. 含义呢就是我们在请求到服务器的时候, 服务器直接把数据全部写入到html中, 我们浏览器就能直接拿到带有数据的html内容. 比如,

    由于数据是直接写在html中的, 所以我们能看到的数据都在页面源代码中能找的到的.

    这种网页一般都相对比较容易就能抓取到页面内容.

  2. 前端JS渲染, 你需要的数据在页面源代码里搜不到

    这种就稍显麻烦了. 这种机制一般是第一次请求服务器返回一堆HTML框架结构. 然后再次请求到真正保存数据的服务器, 由这个服务器返回数据, 最后在浏览器上对数据进行加载. 就像这样:

    js渲染代码(示例)

    <!DOCTYPE html>
    <html lang="en">
    <head>
        <meta charset="UTF

相关推荐

  1. Python实战:爬虫基础Scrapy框架入门

    2024-01-04 10:38:03       45 阅读
  2. Python爬虫快速入门

    2024-01-04 10:38:03       52 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-04 10:38:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-04 10:38:03       100 阅读
  3. 在Django里面运行非项目文件

    2024-01-04 10:38:03       82 阅读
  4. Python语言-面向对象

    2024-01-04 10:38:03       91 阅读

热门阅读

  1. php composer安装

    2024-01-04 10:38:03       63 阅读
  2. 通用异构参数服务器技术

    2024-01-04 10:38:03       53 阅读
  3. Word2Vector介绍

    2024-01-04 10:38:03       66 阅读
  4. 客户投诉处理常用的ChatGPT通用提示词模板

    2024-01-04 10:38:03       71 阅读
  5. python 27例子(持续更新)

    2024-01-04 10:38:03       62 阅读
  6. 计算机网络期末复习题(一)

    2024-01-04 10:38:03       45 阅读
  7. Vue 3 中的 watch 函数:实战指南

    2024-01-04 10:38:03       45 阅读
  8. 阿里云服务器Alibaba Cloud Linux 3镜像版本大全说明

    2024-01-04 10:38:03       58 阅读
  9. 第四篇 行为型设计模式 - 灵活定义对象间交互

    2024-01-04 10:38:03       56 阅读
  10. 【Manacher】LeetCode-5. 最长回文子串

    2024-01-04 10:38:03       55 阅读