【爬虫篇】通过请求方式爬取豆瓣网页信息

2024-07-18 07:14:02
开发
17

个人理解，爬虫有两种方式，一种是自动测试化，一种是通过找请求，那么这里就用发请求的方式爬取网页信息，仅供技术参考。

网页信息：

python代码：

# -*- coding: utf-8 -*-
import requests as rq
from bs4 import BeautifulSoup

#伪装请求头
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.67"
}

#这只是一页：需要循环获取
for i in range(0,250,25):
    #携带设置的请求头 格式化每次访问的链接
    context=rq.get(f"https://movie.douban.com/top250?start={i}&filter=", headers=headers).text
    #拿到当前页的信息
    soup=BeautifulSoup(context,"html.parser")
    #获取所有class叫title且标签是span的
    title_All=soup.findAll("span",attrs={"class","title"})
    #循环输出
    for ti in title_All:
        #把英文版本的去掉
        if "/" not in ti.string:
            print(ti.string)

效果：

原文地址:https://blog.csdn.net/qq_52545155/article/details/140508101 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1813713799090409472.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

【爬虫篇】通过请求方式爬取豆瓣网页信息

2024-07-18 07:14:02 18 阅读
豆瓣影评信息爬取（爬虫）

2024-07-18 07:14:02 29 阅读
利用Python爬虫爬取豆瓣电影排名信息

2024-07-18 07:14:02 59 阅读
Python爬虫-爬取豆瓣Top250电影信息

2024-07-18 07:14:02 52 阅读
爬虫入门，爬取豆瓣top250电影信息

2024-07-18 07:14:02 49 阅读
爬虫：爬取豆瓣电影

2024-07-18 07:14:02 23 阅读
爬虫实战案例 -- 爬取豆瓣读书网页内容

2024-07-18 07:14:02 48 阅读
使用爬虫爬取豆瓣电影Top250（方法二）

2024-07-18 07:14:02 26 阅读
使用爬虫爬取豆瓣电影Top250（方法一）

2024-07-18 07:14:02 67 阅读
爬虫爬取豆瓣电影、价格、书名

2024-07-18 07:14:02 45 阅读

最近更新

题解 - 序列

2024-07-18 07:14:02 85 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-18 07:14:02 71 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-18 07:14:02 66 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-18 07:14:02 70 阅读
NoSQL之Redis非关系型数据库

2024-07-18 07:14:02 73 阅读
2024.7.22 作业

2024-07-18 07:14:02 73 阅读
GDB调试正在运行的程序

2024-07-18 07:14:02 58 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-18 07:14:02 59 阅读
在Django里面运行非项目文件

2024-07-18 07:14:02 57 阅读
SSD基本架构与工作原理

2024-07-18 07:14:02 63 阅读
在誉天学习完HCIE就业吗？

2024-07-18 07:14:02 70 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-18 07:14:02 60 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-18 07:14:02 64 阅读
go 协程池的实现

2024-07-18 07:14:02 63 阅读
Shell脚本循环语句与函数

2024-07-18 07:14:02 64 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-18 07:14:02 69 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-18 07:14:02 61 阅读
四大引用——强软弱虚

2024-07-18 07:14:02 66 阅读
Python语言-面向对象

2024-07-18 07:14:02 68 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-18 07:14:02 62 阅读
网站安全-CDN篇

2024-07-18 07:14:02 63 阅读

热门阅读

Linux服务器LVM分区扩展

2024-07-18 07:14:02 18 阅读
数学建模（1）

2024-07-18 07:14:02 18 阅读
生成式人工智能落地校园与课堂的15个场景

2024-07-18 07:14:02 16 阅读
linux list

2024-07-18 07:14:02 20 阅读
为什么品牌需要做 IP 形象？

2024-07-18 07:14:02 19 阅读
Netty Websocket

2024-07-18 07:14:02 20 阅读
GoT 思维图：使用图论来建模并增强LLMs的推理过程

2024-07-18 07:14:02 22 阅读
Linux 磁盘扩容

2024-07-18 07:14:02 18 阅读
【经验分享】关于静态分析工具排查 Bug 的方法

2024-07-18 07:14:02 26 阅读
【Android】传给后端的Url地址被转码问题处理

2024-07-18 07:14:02 20 阅读
百度网盘Android一二面凉经(2024)

2024-07-18 07:14:02 25 阅读
39.简易频率计（基于等精度测量法）（2）

2024-07-18 07:14:02 21 阅读
Android音视频—OpenGL 与OpenGL ES简述，渲染视频到界面基本流程

2024-07-18 07:14:02 23 阅读
Hadoop3：RPC通信原理及简单案例实现

2024-07-18 07:14:02 20 阅读
若依前后端获取当前用户

2024-07-18 07:14:02 22 阅读
Redis初识

2024-07-18 07:14:02 20 阅读
Django+vue自动化测试平台（27）-- 封装websocket测试

2024-07-18 07:14:02 22 阅读
Git基础使用

2024-07-18 07:14:02 25 阅读
机器人产业发展格局多元化，创业公司突破瓶颈需多维施策

2024-07-18 07:14:02 18 阅读
C/C++内存管理

2024-07-18 07:14:02 22 阅读
Redis中数据分片与分片策略

2024-07-18 07:14:02 22 阅读
分布式缓存-Redis分片集群

2024-07-18 07:14:02 22 阅读
【INTEL（ALTERA）】使用 F-Tile DisplayPort FPGA IP 设计示例时为何模拟失败？

2024-07-18 07:14:02 18 阅读
Redis数据结构--跳跃表 Skip List

2024-07-18 07:14:02 20 阅读
feign 接口调用下载接口技巧

2024-07-18 07:14:02 22 阅读
[计算机基础]一、计算机组成原理

2024-07-18 07:14:02 18 阅读
简述机器学习中常用的一些统计量

2024-07-18 07:14:02 23 阅读
Spark 实现自定义加密

2024-07-18 07:14:02 22 阅读
在 PostgreSQL 里如何实现数据的冷热数据分层存储的自动化策略调整？

2024-07-18 07:14:02 24 阅读
Spring Web MVC（常用的注解@RequestMapping,@RequestParam,@RequestBody等）

2024-07-18 07:14:02 18 阅读