Python基础12-爬虫抓取网页内容

在本文中,我们将学习如何使用 Python 的 requestsBeautifulSoup 库进行网页抓取。我们将从基本的网页请求开始,逐步扩展到更高级的主题,如处理分页、AJAX 请求、正则表达式和异步抓取。

1. 使用 requests 获取网页

要检索网页的内容,我们可以使用 requests 库。以下是一个简单的示例:

import requests

url = 'https://example.com'
response = requests.get(url)
html = response.text

2. 使用 BeautifulSoup 解析 HTML

要解析 HTML 并提取数据,我们可以使用 BeautifulSoup 库。以下是一个简单的示例:

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())  # 美观地打印 HTML

3. HTML 树导航

要使用标签查找元素,我们可以使用 BeautifulSoup 的方法。以下是一个简单的示例:

title = soup.title.text  # 获取页面标题
headings = soup.find_all('h1')  # 列出所有 <h1> 标签

4. 使用 CSS 选择器

要使用 CSS 选择器选择元素,我们可以使用 BeautifulSoupselect 方法。以下是一个简单的示例:

articles = soup.select('div.article')  # 所有具有类 'article' 的 <div> 元素

5. 从标签中提取数据

要从 HTML 元素中提取文本和属性,我们可以使用 BeautifulSoup 的方法。以下是一个简单的示例:

for article in articles:
    title = article.h2.text  # 获取 <h2> 标签内的文本
    link = article.a['href']  # 获取 <a> 标签的 'href' 属性
    print(title, link)

6. 处理相对 URL

要将相对 URL 转换为绝对 URL,我们可以使用 urllib.parse 库的 urljoin 函数。以下是一个简单的示例:

from urllib.parse import urljoin

absolute_urls = [urljoin(url, link) for link in relative_urls]

7. 处理分页

要跨多个页面抓取内容,我们可以使用循环。以下是一个简单的示例:

base_url = "https://example.com/page/"
for page in range(1, 6):  # 对 5 个页面进行循环
    page_url = base_url + str(page)
    response = requests.get(page_url)
    # 处理每个页面的内容

8. 处理 AJAX 请求

要抓取 AJAX 请求加载的数据,我们可以找到 AJAX 请求的 URL(使用浏览器的开发者工具)并获取它。以下是一个简单的示例:

ajax_url = 'https://example.com/ajax_endpoint'
data = requests.get(ajax_url).json()  # 假设响应为 JSON

9. 在网页抓取中使用正则表达式

要使用正则表达式提取数据,我们可以使用 re 库。以下是一个简单的示例:

import re

emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', html)

10. 尊重 robots.txt

要检查 robots.txt 的抓取权限,我们可以使用 urllib.robotparser 库。以下是一个简单的示例:

from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url('https://example.com/robots.txt')
rp.read()
can_scrape = rp.can_fetch('*', url)

11. 使用会话和 Cookie

要维护会话并处理 cookie,我们可以使用 requests 库的 Session 类。以下是一个简单的示例:

session = requests.Session()
session.get('https://example.com/login')
session.cookies.set('key', 'value')  # 如果需要,设置 cookie
response = session.get('https://example.com/protected_page')

12. 使用浏览器自动化进行抓取(selenium 库)

要抓取 JavaScript 呈现的动态内容,我们可以使用 selenium 库。以下是一个简单的示例:

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://example.com')
content = browser.page_source
# 使用 BeautifulSoup 等解析和提取数据
browser.quit()

13. 网页抓取中的错误处理

要处理错误和异常,我们可以使用 try-except 语句。以下是一个简单的示例:

try:
    response = requests.get(url, timeout=5)
    response.raise_for_status()  # 为错误状态码引发错误
except requests.exceptions.RequestException as e:
    print(f"Error: {e}")

14. 异步网页抓取

要异步抓取网站以加快数据检索速度,我们可以使用 aiohttp 库。以下是一个简单的示例:

import aiohttp
import asyncio

async def fetch(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            return await response.text()

urls = ['https://example.com/page1', 'https://example.com/page2']
loop = asyncio.get_event_loop()
pages = loop.run_until_complete(asyncio.gather(*(fetch(url) for url in urls)))

15. 数据存储(CSV、数据库)

要将抓取的数据存储在 CSV 文件或数据库中,我们可以使用 csv 库。以下是一个简单的示例:

import csv

with open('output.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['Title', 'URL'])
    for article in articles:
        writer.writerow([article['title'], article['url']])

通过学习这些技巧,您将能够使用 Python 进行高效的网页抓取。请确保遵循网站的 robots.txt 规则并尊重网站所有者的意愿。

相关推荐

  1. Python基础12-爬虫抓取网页内容

    2024-04-28 07:16:05       66 阅读
  2. Linux下python抓取动态网页内容

    2024-04-28 07:16:05       31 阅读
  3. Python 爬虫基础:利用 BeautifulSoup 解析网页内容

    2024-04-28 07:16:05       33 阅读
  4. Python网络爬虫内容介绍

    2024-04-28 07:16:05       36 阅读
  5. python网络爬虫基础

    2024-04-28 07:16:05       35 阅读
  6. 利用python抓取小说,爬虫抓取小说

    2024-04-28 07:16:05       30 阅读
  7. Python网络爬虫项目开发实战:怎么解决数据抓取

    2024-04-28 07:16:05       34 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-28 07:16:05       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-28 07:16:05       100 阅读
  3. 在Django里面运行非项目文件

    2024-04-28 07:16:05       82 阅读
  4. Python语言-面向对象

    2024-04-28 07:16:05       91 阅读

热门阅读

  1. Python爬虫-车主之家详情页汽车数据

    2024-04-28 07:16:05       33 阅读
  2. (python)动态规划

    2024-04-28 07:16:05       76 阅读
  3. springBoot加载配置文件

    2024-04-28 07:16:05       127 阅读
  4. websocket集成文档

    2024-04-28 07:16:05       35 阅读
  5. 部署接入 M3E和chatglm2-m3e文本向量模型

    2024-04-28 07:16:05       31 阅读
  6. Docker容器配置进阶

    2024-04-28 07:16:05       184 阅读
  7. 数据结构——复杂度(时间,空间)

    2024-04-28 07:16:05       29 阅读
  8. 前端HTML如何不删除div标签将div标签隐藏

    2024-04-28 07:16:05       36 阅读