0基础学python-19:快速上手爬虫

目录

前言

        爬虫需谨慎,切勿从入门到入狱!

一点小小的准备工作

直接上手爬取网页

1.获取UA伪装

2.获取url

3.发送请求

4.获取数据并保存

总结


前言

        爬虫需谨慎,切勿从入门到入狱!

 

一点小小的准备工作

        对pip进行换源:win+r 打开命令提示符,输入cmd ,回车,将此串代码复制粘贴,将pip换成清华大学的镜像源

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

        换好了之后:再次win+r 打开命令提示符,输入cmd ,回车,输入下列代码,安装requests库用以爬虫

pip install requests

 

直接上手爬取网页

        爬虫的本质就是模拟浏览器上网的过程

        记住爬虫的四个步骤,UA伪装-->获取网站url-->发送请求-->获取数据并保存

#  爬虫
import requests

if __name__ == '__main__':
     # 爬虫的含义:模拟浏览器上网的流程

    # UA伪装 让对方认为我是一个浏览器
     head = {
         "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
     }

    # 指定网站
     url = "https://weibo.com/newlogin?tabtype=weibo&gid=102803&openLoginLayer=0&url="

     # 发送请求
     response = requests.get(url, headers=head)

     # 获取你想要的数据
     print(response.text)
     print(response.status_code)

    pass

示例代码为爬取微博的界面,最后打印是200,即为成功。

 

1.获取UA伪装

  1. 右击页面,选择"检查";或者按f12,进入检查界面。
  2. 再点击"网络",点击左上角的符号清空请求,再按 ctrl+r 刷新网页。
  3. 你会看到有许多请求被加载出来,往上翻找到第一个,复制右下角的User-Agent:后的内容进行粘贴即可。

 

2.获取url

步骤与UA差不多

粘贴完UA,再复制请求URL:后面的内容进行粘贴即可

 

3.发送请求

使用requests.get()方法,传入参数url,headers=head

大部分爬取时的请求方法都是get,再用response保存获取到的内容

 

4.获取数据并保存

使用.text属性获取服务器返回的文本内容,并进行打印。

再用.status_code属性检查HTTP请求的响应状态码,打印之后若是200即为成功。

有时会有其他状态码的显示

# 状态码解释
2**	成功,操作被成功接收并处理
3**	重定向,需要进一步的操作以完成请求
4**	客户端错误,请求包含语法错误或无法完成请求
5**	服务器错误,服务器在处理请求的过程中发生了错误

 

总结

        以上是最基础的爬虫应用,只是爬取网页并没有什么太大的作用,以后还会有爬取网页的图片和文字信息等。

相关推荐

  1. Python快速上手(一)】

    2024-07-20 09:30:03       31 阅读
  2. Python快速上手(六)】

    2024-07-20 09:30:03       28 阅读
  3. Python快速上手(四)】

    2024-07-20 09:30:03       29 阅读
  4. Python快速上手(九)】

    2024-07-20 09:30:03       30 阅读
  5. Python快速上手(十)】

    2024-07-20 09:30:03       29 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-20 09:30:03       52 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-20 09:30:03       54 阅读
  3. 在Django里面运行非项目文件

    2024-07-20 09:30:03       45 阅读
  4. Python语言-面向对象

    2024-07-20 09:30:03       55 阅读

热门阅读

  1. esp8266模块(1)

    2024-07-20 09:30:03       18 阅读
  2. Vue随笔【::v-deep 解决 样式污染的bug】

    2024-07-20 09:30:03       18 阅读
  3. 一种全局数据变化而且是多个的通知实现

    2024-07-20 09:30:03       19 阅读
  4. 极狐GitLab如何配置使用独立数据库?

    2024-07-20 09:30:03       18 阅读
  5. python 66 个冷知识 0716

    2024-07-20 09:30:03       16 阅读
  6. 【数据库技术NoSQL】MongoDB和Cassandra的使用

    2024-07-20 09:30:03       16 阅读
  7. live555搭建实时播放rtsp服务器

    2024-07-20 09:30:03       19 阅读
  8. 服务器相关总结

    2024-07-20 09:30:03       16 阅读
  9. ES6 字符串的新增方法(二十)

    2024-07-20 09:30:03       14 阅读
  10. C语言初学者入门指南

    2024-07-20 09:30:03       13 阅读
  11. 如何看待中国信息协会2024年网络安全大赛

    2024-07-20 09:30:03       14 阅读
  12. Symfony框架概述

    2024-07-20 09:30:03       16 阅读
  13. go reflect的工程使用

    2024-07-20 09:30:03       17 阅读
  14. RKE部署k8s

    2024-07-20 09:30:03       19 阅读
  15. 关于取模的相关注意

    2024-07-20 09:30:03       18 阅读