Python requests爬虫

Python的requests库是一个强大且易于使用的HTTP库,用于发送HTTP请求和处理响应。它是Python中最受欢迎的网络爬虫框架之一,被广泛用于从网页中提取数据、爬取网站和进行API调用。

使用requests库,你可以轻松地发送各种HTTP请求,包括GET、POST、PUT、DELETE等。你可以创建一个HTTP请求对象,设置请求头、请求体和其他参数,然后发送请求并获取响应。requests库提供了许多方便的方法来处理响应,包括获取响应内容、解析JSON、解析HTML等。

如果本地 Python 环境没有安装 requests,可以在命令提示符窗口输入命令

pip install requests

安装 requests 模块

我们可以随便打开一个网页,F12->“Ctrl+R”刷新,双击名称中的项

可以看到User-Agent和Cookie

以下是一些常用的requests库功能和用法:

  1. 发送GET请求:

    response = requests.get(url)
    

  2. 发送POST请求:

    response = requests.post(url, data=payload)
    

  3. 设置请求头:

    headers = {'User-Agent': 'Mozilla/5.0'}
    response = requests.get(url, headers=headers)
    

  4. 传递URL参数:

    params = {'key1': 'value1', 'key2': 'value2'}
    response = requests.get(url, params=params)
    

  5. 发送文件:

    files = {'file': open('file.txt', 'rb')}
    response = requests.post(url, files=files)
    

  6. 获取响应内容:

    print(response.text)
    

  7. 解析JSON响应:

    json_data = response.json()
    

  8. 解析HTML响应:

    from bs4 import BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')
    

  9. 处理异常:

    try:
        response = requests.get(url)
        response.raise_for_status()
    except requests.HTTPError as e:
        print('HTTPError:', e)
    except requests.ConnectionError as e:
        print('ConnectionError:', e)
    except requests.Timeout as e:
        print('Timeout:', e)
    except requests.RequestException as e:
        print('RequestException:', e)
    

以上只是requests库的一小部分功能,它还提供了许多其他高级功能和选项,例如会话管理、认证、代理设置等,可以帮助你轻松地进行网络爬虫和API调用。

完整的请求函数例程:

import requests


def get_html(url):
    '''
    两个参数
    :param url:统一资源定位符,请求网址
    :param headers:请求头
    :return html 网页的源码
    :return sess 创建的会话
    '''
    
     # 请求头
    headers={'User-Agent': '复制了放这里'}
    # 创建Session, 并使用Session的get请求网页
    sess = requests.Session()
    response = sess.get(url=url,headers = headers)
    # 获取网页信息文本
    html = response.text

    return html, sess

相关推荐

  1. pythonrequests用法

    2024-07-11 18:36:03       51 阅读
  2. AI+爬虫 爬虫

    2024-07-11 18:36:03       51 阅读
  3. 爬虫爬虫基础

    2024-07-11 18:36:03       19 阅读
  4. python爬虫

    2024-07-11 18:36:03       61 阅读
  5. python爬虫

    2024-07-11 18:36:03       62 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-11 18:36:03       66 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-11 18:36:03       70 阅读
  3. 在Django里面运行非项目文件

    2024-07-11 18:36:03       57 阅读
  4. Python语言-面向对象

    2024-07-11 18:36:03       68 阅读

热门阅读

  1. 四种常见的Http请求方式

    2024-07-11 18:36:03       20 阅读
  2. [USACO5.3] 巨大的牛棚Big Barn

    2024-07-11 18:36:03       25 阅读
  3. python杨辉三角的两种书写方式

    2024-07-11 18:36:03       20 阅读
  4. 【Go - 常见的5类循环】

    2024-07-11 18:36:03       25 阅读
  5. 二叉搜索树的最近公共祖先

    2024-07-11 18:36:03       22 阅读
  6. 基于单目摄像头实现的AR多人脸捕捉效果展示

    2024-07-11 18:36:03       17 阅读
  7. git 基本使用

    2024-07-11 18:36:03       21 阅读
  8. 【智能制造-15】常见通讯协议

    2024-07-11 18:36:03       22 阅读
  9. 网络编程学习part1

    2024-07-11 18:36:03       22 阅读
  10. IQN、UUID和SCSI-ID

    2024-07-11 18:36:03       22 阅读
  11. git撤销push

    2024-07-11 18:36:03       22 阅读
  12. 解决Spring Boot中的国际化与本地化问题

    2024-07-11 18:36:03       19 阅读