python 爬虫编码(encoding和apparent_encoding)区别

一、代码案例(encoding)

1.相关代码:
import requests
# 发送GET请求到清华大学官网
url = 'https://www.tsinghua.edu.cn/'
response = requests.get(url)
encoding = response.encoding
# 获取并打印网页编码方式
print(f"网页编码方式:{encoding}")
2.打印结果:

二、代码案例(apparent_encoding)

1.相关代码:
import requests
# 发送GET请求到清华大学官网
url = 'https://www.tsinghua.edu.cn/'
response= requests.get(url)
encoding = response.apparent_encoding
# 获取并打印网页编码方式
print(f"网页编码方式:{encoding}")
2.打印结果

三、查看网页是什么编码方式

四、encoding和apparent_encoding两者表示的是什么以及区别

1.encoding和apparent_encoding的使用场景

requests.get() 函数在获取网页内容时,默认会尝试从HTTP响应头部的Content-Type字段中提取编码信息来设置response.encoding属性。然而,有时候服务器提供的编码信息可能不准确或者未提供,这时requests库会使用chardet库(如果已安装)来推测网页的实际编码,这推测出来的编码就是response.apparent_encoding

2.encoding的使用

response.encoding 是根据HTTP响应头中的编码指示或者是通过chardet自动检测后赋给requests对象的编码属性。如果服务器报告的编码是ISO-8859-1,则response.encoding会被设置为ISO-8859-1

3.apparent_encoding的使用

response.apparent_encoding 则是基于requests内部的字符集探测机制得出的编码,即使服务器没有明确指定或指定得不准确,它也会尽量给出一个最佳猜测的编码,这里推测出的是UTF-8-SIGUTF-8-SIG是一种特殊的UTF-8编码,它前面带有一个BOM(Byte Order Mark),主要用于标记文本文件的开始,表明其采用UTF-8编码且字节顺序是标准的(对于UTF-8来说字节顺序无关紧要,因为它是字节序无关的编码,但BOM仍然可能被用于标识文件类型)。

4.两者之间的区别
  • response.encoding 更倾向于直接使用服务器声明的编码,如果没有则可能依赖于自动检测的结果。
  • response.apparent_encoding requests库对实际内容做的更为直观的编码判断,通常用于解决服务器提供的编码信息不可靠的情况。

五、总结

如果两个属性返回不同的编码,通常建议优先考虑response.apparent_encoding,因为它可能是网页内容实际使用的编码。当然,在解析网页内容时,最好的做法是先检查和确认编码是否正确,必要时手动调整后再进行解析。

相关推荐

  1. 编码Encoding

    2024-03-13 00:18:02       61 阅读
  2. 使用 GO Python 分别写爬虫区别

    2024-03-13 00:18:02       23 阅读
  3. 游程编码(Run-Length Encoding, RLE)的python实现

    2024-03-13 00:18:02       24 阅读
  4. Python3 笔记:字符串的 encode() bytes.decode()

    2024-03-13 00:18:02       31 阅读
  5. Python 爬虫编写入门

    2024-03-13 00:18:02       44 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-13 00:18:02       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-13 00:18:02       106 阅读
  3. 在Django里面运行非项目文件

    2024-03-13 00:18:02       87 阅读
  4. Python语言-面向对象

    2024-03-13 00:18:02       96 阅读

热门阅读

  1. 什么场景只能用HTTP,不能用RPC?

    2024-03-13 00:18:02       46 阅读
  2. 深入探讨C++中的可变参数列表(Variadic Templates)

    2024-03-13 00:18:02       42 阅读
  3. C++读写锁

    2024-03-13 00:18:02       45 阅读
  4. 《1w实盘and大盘基金预测 day1》

    2024-03-13 00:18:02       37 阅读
  5. React受控组件和非受控组件区别及应用场景。

    2024-03-13 00:18:02       43 阅读
  6. Mysql中有多少种锁

    2024-03-13 00:18:02       44 阅读
  7. Qt提高-线程池QThreadPool 详解

    2024-03-13 00:18:02       49 阅读
  8. DNS欺骗攻击技术详解及实战代码解析

    2024-03-13 00:18:02       35 阅读