爬虫—响应页面乱码问题解决方法

爬虫—响应页面乱码问题解决方法

案例:腾牛网图片抓取

源代码如下:

import requests

url = 'https://www.qqtn.com/wm/meinvtp_1.html'
headers = {
   
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

res = requests.get(url, headers=headers
data = res.content.decode()
print(data)

执行之后,报错如下:

image-20240113105337356

解决办法:

  1. 方法一,设置解码格式为’GBK’
data = res.content.decode('GBK')
print(data)

运行结果如下:

image-20240113105639927

  1. 方法二,自动获取解码格式
# 自动获取解码格式
res.encoding = res.apparent_encoding
data = res.text
print(data)

相关推荐

  1. POST请求方式解决问题【Spring MVC】

    2024-01-16 19:54:05       69 阅读
  2. jsp页面显示问题

    2024-01-16 19:54:05       45 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-16 19:54:05       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-16 19:54:05       106 阅读
  3. 在Django里面运行非项目文件

    2024-01-16 19:54:05       87 阅读
  4. Python语言-面向对象

    2024-01-16 19:54:05       96 阅读

热门阅读

  1. Dubbo分层设计之Serialize层

    2024-01-16 19:54:05       42 阅读
  2. python爬虫04-常见反爬

    2024-01-16 19:54:05       56 阅读
  3. Linux 挂载卸载 设备

    2024-01-16 19:54:05       56 阅读
  4. 动态表达式树(Expression Tree)来实现动态筛选

    2024-01-16 19:54:05       56 阅读
  5. 【MySQL】MySQL 专项练习

    2024-01-16 19:54:05       50 阅读
  6. 【精选】samba服务的下载和使用 (超详细)

    2024-01-16 19:54:05       55 阅读
  7. chrome浏览器并发限制及其突破手段

    2024-01-16 19:54:05       45 阅读
  8. Day27- 贪心算法part01

    2024-01-16 19:54:05       51 阅读