selenium采集招标网站公告

selenium采集招标网站公告

一、项目介绍

本次数据采集以某市建设工程交易服务中心数据为例,网址为“http://www.shcpe.cn/jyfw/xxfw/u1ai51.html”,网站首页如下图所示:
在这里插入图片描述
采集到的字段如下图所示:在这里插入图片描述

二、采集过程

本次数据采集使用的是selenium自动化网页爬虫技术,首先,在使用selenium打开网页之后,发现所需要的数据在一个iframe中,iframe的作用是在网页中嵌入另外一个网页,需要使用selenium切换到iframe中才能获取到其中的数据。为了方便起见,我们通过浏览器的开发者工具抓包,找到我们所需数据所在的网页,然后通过selenium直接打开网页即可。网址为“https://ciac.zjw.sh.gov.cn/XmZtbbaWeb/gsqk/ZbjgGkList.aspx”。
接下来,使用selenium操作浏览器模拟人的一系列操作比如鼠标点击、切换窗口等。在这个案例中,首先点击选择中标日期,然后点击具体的项目名称进入详情页,获取到详情页数据之后再点击回退,接下来再点击下一个项目名称,一页点击完之后点击下一页,依次类推。

三、完整代码

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-13 19:16:03       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-13 19:16:03       72 阅读
  3. 在Django里面运行非项目文件

    2024-07-13 19:16:03       58 阅读
  4. Python语言-面向对象

    2024-07-13 19:16:03       69 阅读

热门阅读

  1. 【SQL】MySQL 的死锁问题以及解决方式

    2024-07-13 19:16:03       20 阅读
  2. conda常用命令

    2024-07-13 19:16:03       22 阅读
  3. 卸载docker

    2024-07-13 19:16:03       19 阅读
  4. Redis的一个典型应用

    2024-07-13 19:16:03       16 阅读
  5. Python 列表深度解析:功能强大的数据结构

    2024-07-13 19:16:03       23 阅读
  6. 什么是天使投资

    2024-07-13 19:16:03       20 阅读
  7. C++中的自定义数据类型:类和结构体

    2024-07-13 19:16:03       18 阅读
  8. 【PLC】基本概念

    2024-07-13 19:16:03       19 阅读