Python爬虫——解析库安装(1)

我创建了一个社区,欢迎大家一起学习交流。社区名称:Spider学习交流

注:该系列教程已经默认用户安装了Pycharm和Anaconda,未安装的可以参考我之前的博客有将如何安装。同时默认用户掌握了Python基础语法。

抓取网页代码之后,接着是从网页中提取信息,提取信息的方式有很多,可以使用正则来提取 ,但是写起来相对比较烦琐 。
在这用这些强大的解析库进行处理,,如 lxml、Beautiful Soup、pyquery等。

1.lxml安装

lxml是Python一个解析库,支持 HTML和XML解析,支持 XPath 解析方式,而且解析效率高。

#1.打开anaconda prompt
#2.激活前面创建的conda虚拟环境
conda activate spider
#3.输入下述代码进行安装
conda install lxml

#验证是否安装成功
#4.输入
python
#5.导入该包
import lxml

1.安装界面
在这里插入图片描述

2.验证是否成功安装
在这里插入图片描述

2.Beautiful Soup安装

Beautiful Soup是Python的HTML和XML的解析库,它拥有强大的 API和多样的解析方式。
安装方法同上。

给大家放个网址,大家可以自己查看。
Beautiful Soup 4.12.0
大家可以进去网址可以知道3已经停止开发,因此我们安装4.
大家有时间,可以学学HTML(CSS+javascript)很有帮助,主要好理解。

#1.打开anaconda prompt
#2.激活前面创建的conda虚拟环境
conda activate spider
#3.输入下述代码进行安装
conda install beautifulsoup4

#验证是否安装成功
#4.输入
python
#5.导入该包
from bs4 import BeautifulSoup 
soup = BeautifulSoup('<p>Hello World!<p/>','lxml')
print(soup.p.string)

1.安装界面
在这里插入图片描述

2.验证
在这里插入图片描述

3.pyquery 的安装

pyquery是个很强大的网页解析工具,它提供了和 jQuery 类似的语法来解析HTML 文梢,支持css 择器。

#1.打开anaconda prompt
#2.激活前面创建的conda虚拟环境
conda activate spider
#3.输入下述代码进行安装
conda install pyquery
#验证是否安装成功
#4.输入
python
#5.导入该包
import pyquery

1.安装
在这里插入图片描述
2.验证是否成功安装,如下图无报错,即成功安装
在这里插入图片描述

相关推荐

  1. Python爬虫存储安装

    2024-02-16 04:40:02       50 阅读
  2. Python爬虫推荐

    2024-02-16 04:40:02       47 阅读
  3. 爬虫PythonBeautifulSoup

    2024-02-16 04:40:02       33 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-16 04:40:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-16 04:40:02       101 阅读
  3. 在Django里面运行非项目文件

    2024-02-16 04:40:02       82 阅读
  4. Python语言-面向对象

    2024-02-16 04:40:02       91 阅读

热门阅读

  1. AtCoder Beginner Contest 338(A~E补题)

    2024-02-16 04:40:02       58 阅读
  2. B2092 开关灯

    2024-02-16 04:40:02       58 阅读
  3. CodeForces Round 925 Div.3 A-F 题解

    2024-02-16 04:40:02       45 阅读
  4. 数据结构入门(3)1:顺序表接口实现

    2024-02-16 04:40:02       47 阅读
  5. 蓝桥杯:日期统计讲解(C++)

    2024-02-16 04:40:02       50 阅读
  6. C++11 thread_local

    2024-02-16 04:40:02       56 阅读
  7. 「数据结构」优先级队列

    2024-02-16 04:40:02       56 阅读
  8. 0|1分数规划

    2024-02-16 04:40:02       50 阅读
  9. Pycharm配置运行selenium教程

    2024-02-16 04:40:02       48 阅读
  10. 微服务设计:Spring Cloud 链路追踪概述

    2024-02-16 04:40:02       48 阅读