数据分析——Python网络爬虫(二){Http基本原理}

2024-07-12 19:24:01
开发
25

Http基本原理

URL
超文本
Http原理
- http请求流程
- - 请求
  - 响应
网页基础
- 网页的组成
- - HTML
  - CSS
  - JavaScript(JS)

URL

URL(Uniform Resource Locator)，即统一资源定位符，也就是我们说的网址，统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置
以及浏览器应该怎么处理它

超文本

超文本：hypertext，浏览器里面看到的网页就是超文本解析而成，其网页源代码是一系列html代码，如img表示图片，p指定段落

Http原理

• http和https：访问资源需要的协议类型，还有其他的类型，ftp，sftp，smb等
• http：hyper text transfer protocol，超文本传输协议，网络传输超文本数据到本地浏览器的传送协议，保证高效而准确的传送超文本文档
• https ： Hyper Text Transfer Protocol over Secure SocketLayer，以安全为目标的http通道，http下加入ssl层
• 作用：建立一个信息安全通道来保证数据传输的安全，确认网站的真实性

http请求流程

浏览器中输入url后，浏览器向网站所在服务器发送了一个请求，网站服务器接收请求，并对这个请求进行处理和解析，然后返回对应的响应，传回给浏览器，再通过浏览器解析出来

在这里插入图片描述

请求

请求——可分为四部分内容：

• 请求的网站（request url）
• 请求方法（request method）
• 请求头（request headers）
• 请求体（request body）

在这里插入图片描述

请求方法

主要分为get和post请求

get请求：
• 请求中的参数包含在url里面
• 请求提交的数据最多只有1024字节
• 百度中输入关键字，wd表示要搜索的关键字

post请求：
• 表单提交时候发起，用户登录
• 数据以表单的形式传输，不会体现在url中 ✓ 请求提交的数据没有大小限制
• 数据传输更安全（参数不会体现在url中）

请求头

用来说明服务器要使用的附加信息，比较重要的信息有cookie(存储在用户本地终端上的数据)，user-agent（请求从哪个地方发起的）
在这里插入图片描述

请求体

一般承载的内容是post请求中的表单数据，对于get请求，请求体为空
在这里插入图片描述

响应

由服务器返回给客户端，可以分为三部分：响应状态码（ response status code ），响应头（ response headers），响应体（response body）

响应码

表示服务器的响应状态， 200代表服务器正常响应，404代表页面未找到，500代表服务器内部发生错误

可以根据状态码来判断服务器的响应状态：
常见的错误代码及错误原因

在这里插入图片描述

响应头

包含了服务器对请求的应答信息，如content-type，server，set-cookis等
在这里插入图片描述

响应体

爬虫请求后解析的内容就是响应体,响应的正文数据，比如请求网页时，响应体是html代码;请求一张图片时，响应体为图片的二进制数据 ; json数据等
在这里插入图片描述

网页基础

网页的组成

HTML,CSS和JavaScript

Html相当于骨架，JavaScript相当于肌肉，css相当于皮肤
三者结合起来形成完善的网页

HTML

超文本标记语言（hyper text markup language）

HTML：结构，决定网页的结构和内容（是什么），head元素标记头部文件，用title素标记网页名称，用body元素标记网页主体，用table元素标记表格等等，段落用p标签表示，布局通过布局标签div嵌套组合合成

CSS

层叠样式表(cascading stytle sheets)

层叠指在html中引用了数个样式文件，并且样式发生冲突时候，浏览器能依据层叠顺序处理

样式：

设定网页的表现样式(什么样子)。将网页样式提取出来方便更改某一类元素的样式，通过style元素插入CSS代码，style元素放在head元素中。网页中文字的大小，颜色，元素间距，排列等

JavaScript(JS)

Html和css只是实现静态信息，缺乏交互性。网页的交互和动画效果通过JavaScript实现 JavaScript通过单独的文件形式加载，后缀为.js，Html中通过script标签引入

原文地址:https://blog.csdn.net/qq_43524475/article/details/118092563 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1811723181988384768.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部