数据分析——Python网络爬虫(二){Http基本原理}

URL

  URL(Uniform Resource Locator),即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置
以及浏览器应该怎么处理它

超文本

  超文本:hypertext,浏览器里面看到的网页就是超文本解析而成, 其网页源代码是一系列html代码,如img表示图片,p指定段落
在这里插入图片描述

Http原理

   • http和https:访问资源需要的协议类型,还有其他的类型,ftp,sftp,smb等
   • http:hyper text transfer protocol,超文本传输协议,网络传输超文本数据到本地浏览器的传送协议,保证高效而准确的传送超文本文档
   • https : Hyper Text Transfer Protocol over Secure SocketLayer,以安全为目标的http通道,http下加入ssl层
   • 作用:建立一个信息安全通道来保证数据传输的安全,确认网站的真实性

http请求流程

   浏览器中输入url后,浏览器向网站所在服务器发送了一个请求,网站服务器接收请求,并对这个请求进行处理和解析,然后返回对应的响应,传回给浏览器,再通过浏览器解析出来

在这里插入图片描述

请求

  请求——可分为四部分内容:

   • 请求的网站(request url)
   • 请求方法(request method)
   • 请求头(request headers)
   • 请求体(request body)

在这里插入图片描述

请求方法

  主要分为getpost请求

 get请求:
   • 请求中的参数包含在url里面
   • 请求提交的数据最多只有1024字节
   • 百度中输入关键字,wd表示要搜索的关键字
在这里插入图片描述

  post请求:
   • 表单提交时候发起,用户登录
   • 数据以表单的形式传输,不会体现在url中 ✓ 请求提交的数据没有大小限制
   • 数据传输更安全(参数不会体现在url中)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

请求头

  用来说明服务器要使用的附加信息,比较重要的信息有cookie(存储在用户本地终端上的数据),user-agent(请求从哪个地方发起的)
在这里插入图片描述

请求体

  一般承载的内容是post请求中的表单数据,对于get请求,请求体为空
在这里插入图片描述

响应

  由服务器返回给客户端,可以分为三部分: 响应状态码( response status code ) , 响应头 ( response headers), 响应体(response body)

响应码

  表示服务器的响应状态, 200代表服务器正常响应,404代表页面未找到,500代表服务器内部发生错误

  可以根据状态码来判断服务器的响应状态:
    常见的错误代码及错误原因

在这里插入图片描述

响应头

  包含了服务器对请求的应答信息,如content-type,server,set-cookis等
在这里插入图片描述

响应体

  爬虫请求后解析的内容就是响应体,响应的正文数据,比如请求网页时,响应体是html代码;请求一张图片时,响应体为图片的二进制数据 ; json数据等
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

网页基础

网页的组成

  HTML,CSS和JavaScript

  Html相当于骨架,JavaScript相当于肌肉,css相当于皮肤
  三者结合起来形成完善的网页

HTML

  超文本标记语言(hyper text markup language)

  HTML:结构,决定网页的结构和内容(是什么),head元素标记头部文件,用title素标记网页名称,用body元素标记网页主体,用table元素标记表格等等,段落用p标签表示,布局通过布局标签div嵌套组合合成
在这里插入图片描述

CSS

  层叠样式表(cascading stytle sheets)

  层叠指在html中引用了数个样式文件,并且样式发生冲突时候,浏览器能依据层叠顺序处理

  样式:

  设定网页的表现样式(什么样子)。将网页样式提取出来方便更改某一类元素的样式,通过style元素插入CSS代码,style元素放在head元素中。网页中文字的大小,颜色,元素间距,排列等
在这里插入图片描述

JavaScript(JS)

  Html和css只是实现静态信息,缺乏交互性。网页的交互和动画效果通过JavaScript实现 JavaScript通过单独的文件形式加载,后缀为.js,Html中通过script标签引入

相关推荐

  1. 基于Python的旅游网站数据爬虫分析

    2024-07-12 19:24:01       34 阅读
  2. 数据分析——Python网络爬虫(四){爬虫库的使用}

    2024-07-12 19:24:01       20 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-12 19:24:01       70 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-12 19:24:01       74 阅读
  3. 在Django里面运行非项目文件

    2024-07-12 19:24:01       62 阅读
  4. Python语言-面向对象

    2024-07-12 19:24:01       72 阅读

热门阅读

  1. Flowable工作流引擎核心事件详细解释说明

    2024-07-12 19:24:01       26 阅读
  2. SQL 视图

    2024-07-12 19:24:01       21 阅读
  3. 开发需要的热门常用API

    2024-07-12 19:24:01       21 阅读
  4. sql server记录数据库表行数变化记录

    2024-07-12 19:24:01       23 阅读
  5. 小抄 20240711

    2024-07-12 19:24:01       21 阅读
  6. vscode 远程开发

    2024-07-12 19:24:01       20 阅读
  7. clean code-代码整洁之道 阅读笔记(第十六章)

    2024-07-12 19:24:01       19 阅读
  8. MySQL慢查询日志(Slow Query Log)

    2024-07-12 19:24:01       18 阅读
  9. ZCC5429 异步升压芯片

    2024-07-12 19:24:01       22 阅读
  10. 介绍一下docker的打包命令

    2024-07-12 19:24:01       22 阅读
  11. 华为OJ平台

    2024-07-12 19:24:01       20 阅读
  12. inline与nullptr

    2024-07-12 19:24:01       23 阅读