爬虫项目（1）

2024-02-23 15:34:01
开发
48

1.节点

想要获取网页中的数据，首先要获取网页 HTML 代码，再把数据从中提取出来。

我们要向网页的服务器发送请求，服务器返回的响应就是网页 HTML 代码

节点

（1）文档节点：就是文档的内容；

（2）标签节点：就是html里面对应的标签；

（3）属性节点：就是html里面标签的属性，比如长度，外边距，内边距等等；

2.解析模块

对于一个网页的节点来说，它可以定义id、class或其他属性，而且节点之间还有层级关系。

我们可以借助网页节点的结构和属性，提取想要的信息。在这里，我们来学习一个强大的解析工具

——BeautifulSoup

3.解析器

网络爬虫的最终目的就是过滤选取网络信息，最重要的部分可以说是解析器。解析器的优劣决定了爬虫的速度和效率。

Beautiful Soup 官方推荐我们使用的是 lxml 解析器，原因是它具有更高的效率，所以我们也将采用lxml解析器。

5.导入类

安装完成后，我们需要使用 bs4 模块中的 BeautifulSoup 类。

这就要使用 from...import 从 bs4 中导入 BeautifulSoup 。

6.函数传参

BeautifulSoup() 函数可以把不标准的 HTML 代码重新进行了自动更正，从而方便我们对其中的节点、标签、属性等进行操作。

soup = BeautifulSoup(html, "lxml")
print(soup)

这段代码调用函数BeautifulSoup,

这个函数有2个参数，第一个是需要进行解析的html代码，第二个是解析器的类型；

使用 BeautifulSoup() 函数，创建一个 BeautifulSoup 对象，传入 HTML 文本和解析器 lxml。

7.找到对应节点处的内容

文本所在的位置，包含在<em>XXX</em>这样的节点中，它们都有相同的标签。

使用 BeautifulSoup 中的 find_all() 函数，获取所有符合指定条件的节点。

ps = soup.find_all(name = "h1")
print(ps)

find_all() 函数可以查询 soup 中所有符合条件的元素，组成一个列表赋值给ps。

8.代码的完整实现

import requests

from bs4 import BeautifulSoup

url = "https://xxxxxxxxxxxxxxxxx/"

response = requests.get(url)

html = response.text

soup = BeautifulSoup(html,"lxml")

content_all = soup.find_all(name="em")

print(content_all)

原文地址:https://blog.csdn.net/binhyun/article/details/136225454 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1760930996993265664.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部