基于nodejs，使用playwright对网站进行爬虫

2024-03-10 17:38:03
开发
24

近期有一个对某网站进行爬虫的需求，总结了几种爬虫框架的使用，并基于playwright进行爬虫。

爬虫框架

常用的爬虫框架有以下几种：

Scrapy：Scrapy是一个基于Python的高级爬虫框架，可以用于快速开发、测试和部署爬虫。它具有强大的页面解析和数据提取功能，并支持分布式爬取，适用于大规模爬取数据的需求。
BeautifulSoup：BeautifulSoup是一个Python库，用于从HTML或XML文档中提取数据。它提供了简单直观的API，使得解析复杂的HTML文档变得容易。BeautifulSoup可以与其他网络库（如Requests）配合使用来实现爬取和解析网页的功能。
Selenium：Selenium是一个自动化测试工具，可以模拟真实用户的操作，包括点击、填写表单、提交等。它可以用来解决一些动态页面爬取的问题，如需要登录的网站或使用JavaScript渲染的页面。
PyQuery：PyQuery是一个类似于jQuery的Python库，可以用来解析HTML文档并提供类似于jQuery的选择器语法来查找和操作元素。它提供了简洁的API，并具有方便的数据提取功能。
Requests：Requests是一个简洁而优雅的HTTP库，用于发送HTTP请求和处理响应。它可以用来下载网页、发送表单数据、处理Cookie等。结合其他解析库，如BeautifulSoup，可以实现简单的爬虫功能。

这些爬虫框架各有特点，根据不同的需求可以选择适合的框架来实现爬虫任务。

Playwright

Playwright是一个用于自动化浏览器操作的开源框架，可以使用它来进行爬虫任务。Playwright支持多种浏览器，包括Chrome、Firefox和WebKit，并提供了简单易用的API来进行页面导航、元素查找和操作、数据提取等操作。

Playwright特点

多浏览器支持：Playwright支持多个主流的浏览器，包括Chrome、Firefox和WebKit。这意味着你可以在这些浏览器上运行你的自动化测试，而无需额外的配置和代码改动。
支持多语言：Playwright提供了多种编程语言的API，包括JavaScript、Python和.NET。这使得开发人员可以使用他们最熟悉的语言来编写自动化测试，并且可以在不同的项目中共享和重用代码。
强大的浏览器操作能力：Playwright提供了丰富的API，可以对浏览器进行各种操作，例如导航到URL、点击元素、填写表单、截屏、模拟用户输入等。这些功能使得开发人员可以编写复杂的自动化测试脚本，以模拟用户在浏览器中的各种行为。
支持并发执行：Playwright可以同时在多个浏览器上执行测试，并行地执行测试脚本。这可以大大减少测试的执行时间，提高测试的效率。
跨平台支持：Playwright可以在不同的操作系统上运行，包括Windows、Mac和Linux。这意味着你可以使用Playwright来自动化测试不同平台上的应用程序。

Playwright使用

使用Playwright进行爬虫有以下几个步骤：

第一步：安装Playwright

使用npm安装Playwright库，可以在命令行中运行npm install playwright来安装。

第二步：初始化Playwright

在代码中引入Playwright库，并使用playwright对象初始化所需的浏览器。例如，可以使用const browser = await playwright.chromium.launch()来启动Chrome浏览器实例。

第三步：创建页面

使用浏览器实例创建一个页面对象，可以使用const page = await browser.newPage()来创建一个新的页面。

第四步：导航到网页

使用页面对象的goto(url)方法导航到目标网页。例如，可以使用await page.goto('https://example.com')来访问示例网页。

第五步：查找和操作元素

使用页面对象的方法来查找和操作网页上的元素。例如，可以使用const element = await page.$('selector')来查找符合选择器的第一个元素，并使用element.click()来模拟点击操作。

第六步：提取数据

使用页面对象的方法来提取页面上的数据。例如，可以使用const textContent = await page.$eval('selector', element => element.textContent)来提取元素的文本内容。

第七步：关闭浏览器

在完成任务后，记得关闭浏览器实例。可以使用await browser.close()来关闭浏览器。

通过以上步骤，就可以使用Playwright框架来进行简单的爬虫任务，自动化地进行网页操作和数据提取。在实际使用中，还可以结合其他的数据处理库和工具，对提取的数据进行进一步的处理和存储。

一个完整的test示例

首先，介绍Playwright的test，它是一个基于playwright的测试框架，可以用于编写和运行自动化测试脚本。可以对页面进行模拟操作、断言和验证页面的状态，并生成详细的测试报告。它支持异步编程模型，可以使用async/await语法编写测试用例。

使用playwright的test，你可以轻松地模拟用户在浏览器上的操作，比如点击、输入、滚动等，并验证页面上的元素是否正确显示、是否发生了预期的交互。

import { test, expect } from '@playwright/test';
import playwright from 'playwright'

test("get started link", async({ page, context }) => {
  test.setTimeout(100 * 60 * 1000)
  // 打开网站
  await page.goto('https://xxxx.com/index.html')

   // 匹配到lass=wiki-nav_item的div下所有class=wiki-nav_item-title的连接
  const rows = await page.locator(`//div[contains(@class,'wiki-nav_item')]/a[contains(@class, 'wiki-nav_item-title')]`).all();
  for(const row of rows) {
    
    // ..... do anything
    
    // 如：获取到链接的地址
    let href = await row.getAttribute('href') 
    
  }
})

原文地址:https://blog.csdn.net/qq_29517595/article/details/136527524 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1766760419218821120.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部