网页解析之lxml与xpath

网页解析之lxml与xpath

 lxml库详解

lxml库是一个非常高性能和功能丰富的库,支持XML和HTML的解析、导航和任何操作。它基于C语言库libxml2和libxslt。主要包括两个核心模块:

1. **etree** - 用于解析和处理XML和HTML数据
2. **objectify** - 将XML数据映射为Python对象

etree是比较常用的模块,提供了XPath和XSLT支持。

解析HTML

from lxml import etree

# 解析HTML字符串
parser = etree.HTMLParser()
html = etree.HTML(html_str, parser=parser)

# 解析HTML文件
html = etree.parse('path/to/file.html', parser)

解析XML

# 解析XML字符串
xml = etree.fromstring(xml_str)

# 解析XML文件 
xml = etree.parse('path/to/file.xml')

节点操作

etree提供了丰富的API用于获取、修改和创建节点:

- 获取节点 `find()`、`findall()`、`xpath()`
- 修改节点 `set()`、`append()`、`remove()`
- 创建节点 `Element()`、`SubElement()`

XPath语法详解

XPath是一种查询语言,用于在XML/HTML文档中选取节点。它的语法涵盖路径表达式、条件表达式和运算表达式。

节点选取

- 节点 `bookstore` 
- 子节点 `bookstore/book`
- 所有节点 `//book`  
- 父节点 `../`
- 属性节点 `//book/@price`
- 文本节点 `//book/title/text()`

条件

- 等于 `[@price="25"]` 
- 不等于 `[@price!="25"]`
- 大于 `[@price>25]`
- 小于 `[@price<25]`
- 包含 `[contains(@category,"fic")]`

运算

- `|` 或者
- `+` 加法
- `-` 减法  
- `*` 乘法
- `div` 除法

 函数

XPath提供了大量内置函数,如`string()` `count()` `sum()` `concat()` 等。也可以自定义函数。

轴用于在节点树中定位节点,如`child` `parent` `ancestor` `following` 等。

lxml与XPath实战

接下来通过一个实例演示如何利用lxml和XPath获取网页数据:

import requests
from lxml import etree

url = 'https://movie.douban.com/top250'

# 获取网页源码
response = requests.get(url)
html = etree.HTML(response.text)

# 获取所有电影信息节点
movie_nodes = html.xpath('//ol[@class="grid_view"]/li')

# 遍历电影节点,提取每部电影的信息
movies = []
for node in movie_nodes:
    title = node.xpath('.//span[@class="title"][1]/text()')[0]
    rating = node.xpath('.//span[@class="rating_num"]/text()')[0]
    movie = {
        'title': title,
        'rating': rating
    }
    movies.append(movie)

print(movies)

在这个例子中,我们首先发送请求获取豆瓣电影Top250网页源码,构建HTML树。然后通过XPath表达式`//ol[@class="grid_view"]/li`选取所有电影信息节点。

接着遍历这些节点,分别使用XPath表达式提取出电影标题和评分。最终将所有提取的数据组合成列表。

可以看到,借助lxml的解析能力和XPath强大的节点选取能力,我们用较少的代码就实现了网页数据的抓取,而且精确性很高。XPath语法看似简单,但功能异常强大,灵活性极高,值得我们深入学习掌握。

总结

lxml和XPath是处理HTML/XML文档的利器,功能强大且高性能。lxml是整合了libxml2和libxslt的Python解析库,支持XPath/XSLT;而XPath则提供了精准、高效的节点选取能力。二者完美结合,使得Python语言在网页解析领域能够发挥极大威力。对lxml和XPath有深入的理解和掌握,是Python开发者提升技能的重要一环。

相关推荐

  1. 网页解析lxmlxpath

    2024-05-26 02:16:11       38 阅读
  2. 【Python第三方库】lxml 解析器和xpath路径语言

    2024-05-26 02:16:11       41 阅读
  3. python数据解析xpath

    2024-05-26 02:16:11       40 阅读
  4. XMLXpath

    2024-05-26 02:16:11       33 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-26 02:16:11       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-26 02:16:11       100 阅读
  3. 在Django里面运行非项目文件

    2024-05-26 02:16:11       82 阅读
  4. Python语言-面向对象

    2024-05-26 02:16:11       91 阅读

热门阅读

  1. Django搭建和数据迁移

    2024-05-26 02:16:11       29 阅读
  2. 【Redis精通之路】数据类型(2)

    2024-05-26 02:16:11       30 阅读
  3. 删除有序数组中的重复项-力扣

    2024-05-26 02:16:11       33 阅读
  4. springboot项目跨域设置总结

    2024-05-26 02:16:11       28 阅读
  5. Flink 任务调度策略:Eager 模式详解

    2024-05-26 02:16:11       31 阅读
  6. Flink 任务调度策略:Lazy from Sources 深入解析

    2024-05-26 02:16:11       29 阅读
  7. 海外投放面试手册

    2024-05-26 02:16:11       39 阅读