【爬虫篇】通过请求方式爬取豆瓣网页信息

个人理解,爬虫有两种方式,一种是自动测试化,一种是通过找请求,那么这里就用发请求的方式爬取网页信息,仅供技术参考。

网页信息:

python代码:

# -*- coding: utf-8 -*-
import requests as rq
from bs4 import BeautifulSoup

#伪装请求头
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.67"
}

#这只是一页:需要循环获取
for i in range(0,250,25):
    #携带设置的请求头 格式化每次访问的链接
    context=rq.get(f"https://movie.douban.com/top250?start={i}&filter=", headers=headers).text
    #拿到当前页的信息
    soup=BeautifulSoup(context,"html.parser")
    #获取所有class叫title且标签是span的
    title_All=soup.findAll("span",attrs={"class","title"})
    #循环输出
    for ti in title_All:
        #把英文版本的去掉
        if "/" not in ti.string:
            print(ti.string)

效果:

 

相关推荐

  1. 利用Python爬虫豆瓣电影排名信息

    2024-07-18 07:14:02       59 阅读
  2. 使用爬虫豆瓣电影Top250(方法二)

    2024-07-18 07:14:02       26 阅读
  3. 使用爬虫豆瓣电影Top250(方法一)

    2024-07-18 07:14:02       67 阅读
  4. 爬虫豆瓣电影、价格、书名

    2024-07-18 07:14:02       45 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-18 07:14:02       66 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-18 07:14:02       70 阅读
  3. 在Django里面运行非项目文件

    2024-07-18 07:14:02       57 阅读
  4. Python语言-面向对象

    2024-07-18 07:14:02       68 阅读

热门阅读

  1. Netty Websocket

    2024-07-18 07:14:02       20 阅读
  2. 【Android】传给后端的Url地址被转码问题处理

    2024-07-18 07:14:02       20 阅读
  3. Redis数据结构--跳跃表 Skip List

    2024-07-18 07:14:02       20 阅读
  4. feign 接口调用下载接口技巧

    2024-07-18 07:14:02       22 阅读
  5. 简述机器学习中常用的一些统计量

    2024-07-18 07:14:02       23 阅读