python爬虫入门(二)之Requests库

一、储备篇

1、requests库让我们可以通过python代码去构建和发送HTTP请求

2、第三方库,要先安装

python终端,输入pip install requests

successfully installed:安装成功

requirement already satisfied: 说明已经安装过,无需再安装

若没有pip(python包管理工具)

则可以先去http://pip.pypa.io/en/stable/installation/学习下载安装

3、

import requests
response=requests.get("http://books.toscrape.com") #发送get请求,这是一个专门给练习爬虫的网站
#协议名(http://或https://)+网址 == 完整的URL
#用requests库的函数发送请求时,请求头的信息会被自动生成(主机域名(URL参数中),客户端是谁(自动生成),客户端想要什么类型的数据)

#若想对某些信息进行更改的话,可以额外传入一个headers的参数
head={"User-Agent":"Mozilla/5.0(Windows NT 10.0;Win64;x64"} #数据类型是字典,键值对可写清楚要传入的信息
#User-Agent: Mozilla/5.0(Windows NT 10.0;Win64:x64)可帮我们把爬虫程序伪装成正常浏览器(浏览器类型及版本,以及电脑操作系统等)
response=requests.get("http://books.toscrape.com",headers=head)

print(response)   #打印出来是一个response类的实例,代表着服务器发回给我们的响应,包含的属性有:
print(response.status_code) #状态码属性
print(response.ok)  #ok属性,true表示请求成功
if response.ok:
    print("请求成功")
    #获取响应体的内容
    print(response.text) #text属性,会以字符串存储响应内容
else:
    print("请求失败")




 

二、实战篇

爬取豆瓣top250数据:

#1、安装requests库: 终端输入pip install requests

#2、引入requests库:
import requests

#豆瓣用418回应爬虫,自己只希望服务于正常的浏览器
#伪装:
#抄作业: 选一个网页->右键检查->Network-> 刷新网页->点击任意请求->展开request haeders->找到并复制user-agent
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36"}
response=requests.get("https://movie.douban.com/top250",headers=headers)
print(response)
print(response.status_code) #表示客户端错误,可以通过链接developer.mozilla.org查看文档
print(response.text)

相关推荐

  1. python爬虫入门Requests

    2024-07-10 07:36:02       24 阅读
  2. Python爬虫requests

    2024-07-10 07:36:02       43 阅读
  3. Python网络爬虫):Requests

    2024-07-10 07:36:02       39 阅读
  4. Python爬虫学习requests

    2024-07-10 07:36:02       56 阅读
  5. Python爬虫学习requests

    2024-07-10 07:36:02       59 阅读
  6. python】运用Request实现爬虫

    2024-07-10 07:36:02       27 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-10 07:36:02       99 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-10 07:36:02       107 阅读
  3. 在Django里面运行非项目文件

    2024-07-10 07:36:02       90 阅读
  4. Python语言-面向对象

    2024-07-10 07:36:02       98 阅读

热门阅读

  1. RTK_ROS_导航(4):ROS中空地图的生成与加载

    2024-07-10 07:36:02       25 阅读
  2. PCL + Qt + Ribbon 风格(窗口自由组合) demo展示

    2024-07-10 07:36:02       53 阅读
  3. Android Studio Download Gradle 时慢问题解决

    2024-07-10 07:36:02       23 阅读
  4. ASPICE是汽车软件开发中的质量保证流程

    2024-07-10 07:36:02       34 阅读
  5. 游戏开发面试题2

    2024-07-10 07:36:02       36 阅读
  6. 4.10-7.9

    2024-07-10 07:36:02       37 阅读
  7. Django ModelForm用法详解 —— Python

    2024-07-10 07:36:02       30 阅读
  8. uWSGI 配置 python django 进行发布

    2024-07-10 07:36:02       28 阅读