python(一)网络爬取

2024-03-29 10:34:03
开发
44

在爬取网页信息时，需要注意网页爬虫规范文件robots.txt

eg:csdn的爬虫规范文件 csdn.net/robots.txt

User-agent:
下面的Disallow规则适用于所有爬虫（即所有用户代理）。星号*是一个通配符，表示“所有”。

Disallow：

禁止爬虫访问的路径

1、首先下载python的相关类库

pip install requests
pip install beautifulsoup4

requests 是一个http库，可以发送网络请求。

beautifulsoup4 主要用来解析html文档。

2、引入相关库

import requests    
from bs4 import BeautifulSoup

3、编写相关代码

url = 'https://www.....com'    
response = requests.get(url)    
  
html_content = response.text  
soup = BeautifulSoup(html_content, 'html.parser')  
  
titles = soup.select('h2') 
for title in titles:  
    print(title.text)

url : 需要爬的页面路径

response = requests.get(url) 发送get请求并接受

html_content = response.text 取出页面主体

soup = BeautifulSoup(html_content, 'html.parser') 由beautifulsoup对主体中的h5标签解析

titles = soup.select('h2') 选择所有的h2标签

最后循环遍历打印出所有h2 标签

4、测试

原文地址:https://blog.csdn.net/weixin_51722520/article/details/137117902 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1773539084313169920.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

python(一)网络爬取

2024-03-29 10:34:03 45 阅读
python爬虫爬取网站

2024-03-29 10:34:03 56 阅读
《0基础》学习Python——第二十一讲__网络爬虫/＜4＞爬取网页数据

2024-03-29 10:34:03 24 阅读
python爬取网页图片并下载

2024-03-29 10:34:03 69 阅读
Python爬虫之爬取网页图片

2024-03-29 10:34:03 41 阅读
如何使用Python进行网页爬取

2024-03-29 10:34:03 40 阅读
Python爬虫（2） --爬取网页页面

2024-03-29 10:34:03 20 阅读
Python爬虫（3） --爬取网页文本

2024-03-29 10:34:03 21 阅读
python—爬虫爬取图片网页实例

2024-03-29 10:34:03 25 阅读
Python网络爬虫5-实战网页爬取

2024-03-29 10:34:03 30 阅读

最近更新

题解 - 序列

2024-03-29 10:34:03 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-03-29 10:34:03 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-03-29 10:34:03 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-03-29 10:34:03 100 阅读
NoSQL之Redis非关系型数据库

2024-03-29 10:34:03 101 阅读
2024.7.22 作业

2024-03-29 10:34:03 97 阅读
GDB调试正在运行的程序

2024-03-29 10:34:03 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-03-29 10:34:03 85 阅读
在Django里面运行非项目文件

2024-03-29 10:34:03 82 阅读
SSD基本架构与工作原理

2024-03-29 10:34:03 87 阅读
在誉天学习完HCIE就业吗？

2024-03-29 10:34:03 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-03-29 10:34:03 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-03-29 10:34:03 85 阅读
go 协程池的实现

2024-03-29 10:34:03 88 阅读
Shell脚本循环语句与函数

2024-03-29 10:34:03 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-03-29 10:34:03 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-03-29 10:34:03 85 阅读
四大引用——强软弱虚

2024-03-29 10:34:03 86 阅读
Python语言-面向对象

2024-03-29 10:34:03 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-03-29 10:34:03 85 阅读
网站安全-CDN篇

2024-03-29 10:34:03 88 阅读

热门阅读

hadoop-3.1.1分布式搭建与常用命令

2024-03-29 10:34:03 39 阅读
python解决序列重叠问题

2024-03-29 10:34:03 34 阅读
“预防儿童烧烫伤”科普安全课堂走进嘉鱼县第一小学

2024-03-29 10:34:03 38 阅读
关系型数据库mysql（8）sql高级语句②

2024-03-29 10:34:03 29 阅读
SQL查询：如何在where条件中使用子查询

2024-03-29 10:34:03 39 阅读
Git命令上传本地项目至github

2024-03-29 10:34:03 33 阅读
书生浦语训练营2期-第一节课笔记

2024-03-29 10:34:03 36 阅读
【期刊介绍】ICLR

2024-03-29 10:34:03 38 阅读
抖音美女直播听小说项目全攻略【鹏哥创业】

2024-03-29 10:34:03 156 阅读
volatile关键字的作用、原理

2024-03-29 10:34:03 42 阅读
Linux 系统部署weblogic（新手版）

2024-03-29 10:34:03 30 阅读
win10微软拼音输入法 - bug - 在PATH变量为空的情况下，无法输入中文

2024-03-29 10:34:03 48 阅读
playbook的介绍、应用与实施

2024-03-29 10:34:03 30 阅读
String 类的常用方法都有那些？

2024-03-29 10:34:03 40 阅读
Visual Studio QT6 工程引入组件模块，例如：QtXml

2024-03-29 10:34:03 37 阅读
Web Components使用（一）

2024-03-29 10:34:03 38 阅读
单片机学到什么程度才可以去工作?

2024-03-29 10:34:03 37 阅读
《亮数据：爬虫数据采集行业痛点的利器》

2024-03-29 10:34:03 36 阅读
贪心算法--最大数

2024-03-29 10:34:03 45 阅读
msvcp100.dll是什么东西？电脑msvcp100.dll丢失的六种解决方法

2024-03-29 10:34:03 46 阅读
2024蓝桥杯每日一题（背包2）

2024-03-29 10:34:03 46 阅读
Dubbo负载均衡

2024-03-29 10:34:03 35 阅读
UDP实现聊天室

2024-03-29 10:34:03 40 阅读
k8s1.28.8版本配置prometheus监控告警

2024-03-29 10:34:03 31 阅读
kubernetes(K8S)学习（一）：K8S集群搭建（1 master 2 worker）

2024-03-29 10:34:03 36 阅读
什么算法可以进行小语种的OCR？

2024-03-29 10:34:03 36 阅读
基于单片机和传感器的电子秤系统教学设计与实现

2024-03-29 10:34:03 39 阅读
ES-LTR粗排模块

2024-03-29 10:34:03 43 阅读
每日一练：LeeCode-48、旋转图像【二维数组+行列交换】

2024-03-29 10:34:03 39 阅读
Adipogen ZBP1单克隆抗体

2024-03-29 10:34:03 38 阅读