Python BeautifulSoup 选择器无法找到对应元素(异步加载导致)

问题

  • 使用 Python BeautifulSoup 爬取一个股吧帖子发现某个样式无法找到,但是在网页中确实存在这个元素:
  • 网页使用 document.querySelector 可以正常查找:

在这里插入图片描述

  • 但是 Python BeautifulSoup 找不到元素:
网页标题: 华夏北京保障房REIT股吧_华夏北京保障房REIT分析讨论社区-东方财富网
总页数: []
  • 核心部分代码
import requests
from bs4 import BeautifulSoup

# 目标网页的URL
url = 'https://guba.eastmoney.com/list,of508068_1.html'

# 发送带有 Cookie 和 Header 的 GET 请求
response = requests.get(url, cookies=cookies, headers=headers)

# 检查请求是否成功
if response.status_code == 200:
    # 使用BeautifulSoup解析网页内容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 以例子为例,提取网页标题
    title = soup.title.text
    print '网页标题:', title

    pageSize = soup.select('#articlelistnew > div.pager > span > span > span > a.last_page')
    print '总页数:', pageSize
else:
    print '请求失败,状态码:', response.status_code

原因

  • 当代 Web 页面很多部分都会使用 XHR 异步加载的方式提高用户体验以及响应速度,因此 requests 返回的网页内容中可能没有我们需要内容。
  • 通过断点查看返回的 content,其中确实不包含我们需要的样式选择器标签内容。

解决方案

找到包含内容的 XHR 异步请求

  • 第一种思路在网页请求去找到包含内容的 XHR 异步请求,再用上述的方式进行请求。
  • 本方案并没有实践,因为大多数情况处理起来比较复杂,可以根据实际场景选择。

无头浏览器

  • 对于大多数情况,我们可以直接使用无头浏览器实现,模拟网页打开,并等待需要的标签内容加载完成。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait

# 设置浏览器驱动器路径(根据实际情况修改)
driver_path = 'chromedriver.exe'

# 创建 Chrome 浏览器实例
driver = webdriver.Chrome(executable_path=driver_path)

# 目标网页的URL
url = 'https://guba.eastmoney.com/list,of508068_1.html'

driver.get(url)
# 使用 WebDriverWait 等待动态加载完成(根据实际情况修改选择器)
element = WebDriverWait(driver, 5).until(
    EC.presence_of_element_located((By.CSS_SELECTOR, '#articlelistnew > div.pager > span > span > span > span'))
)

# 获取元素的文本内容
page_size = element.text
print "总页数:", page_size

个人简介

👋 你好,我是 Lorin 洛林,一位 Java 后端技术开发者!座右铭:Technology has the power to make the world a better place.

🚀 我对技术的热情是我不断学习和分享的动力。我的博客是一个关于Java生态系统、后端开发和最新技术趋势的地方。

🧠 作为一个 Java 后端技术爱好者,我不仅热衷于探索语言的新特性和技术的深度,还热衷于分享我的见解和最佳实践。我相信知识的分享和社区合作可以帮助我们共同成长。

💡 在我的博客上,你将找到关于Java核心概念、JVM 底层技术、常用框架如Spring和Mybatis 、MySQL等数据库管理、RabbitMQ、Rocketmq等消息中间件、性能优化等内容的深入文章。我也将分享一些编程技巧和解决问题的方法,以帮助你更好地掌握Java编程。

🌐 我鼓励互动和建立社区,因此请留下你的问题、建议或主题请求,让我知道你感兴趣的内容。此外,我将分享最新的互联网和技术资讯,以确保你与技术世界的最新发展保持联系。我期待与你一起在技术之路上前进,一起探讨技术世界的无限可能性。

📖 保持关注我的博客,让我们共同追求技术卓越。

相关推荐

  1. vs mfc未mfc140u导致无法启动

    2023-12-07 06:12:06       12 阅读
  2. vue 异步组件

    2023-12-07 06:12:06       38 阅读

最近更新

  1. TCP协议是安全的吗?

    2023-12-07 06:12:06       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-07 06:12:06       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-07 06:12:06       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-07 06:12:06       18 阅读

热门阅读

  1. k8s 中externalTrafficPolicy应用场景和实践

    2023-12-07 06:12:06       34 阅读
  2. logback整合rabbitmq实现消息记录日志

    2023-12-07 06:12:06       33 阅读
  3. QT使用http通信的同步和异步

    2023-12-07 06:12:06       37 阅读
  4. C++ IO库

    C++ IO库

    2023-12-07 06:12:06      27 阅读
  5. springboot引入swagger2

    2023-12-07 06:12:06       32 阅读
  6. Spark常见算子汇总

    2023-12-07 06:12:06       43 阅读
  7. DevOps搭建(三)-Docker环境安装细步骤

    2023-12-07 06:12:06       34 阅读
  8. spark log4j日志配置

    2023-12-07 06:12:06       29 阅读
  9. ssh免密远程登录主机并执行命令

    2023-12-07 06:12:06       36 阅读