8.无代码爬虫软件做网页数据抓取流程——滚动、翻页(分页)处理

 首先,多数情况下免费版本的功能,已经可以满足绝大多数采集需求,想了解八爪鱼采集器版本区别的详情,请访问这篇帖子: https://blog.csdn.net/cctv1123/article/details/139581468

八爪鱼采集器免费版和个人版、团队版下载链接:

1.软件分享[耶]八爪鱼,爬取了几百条网站上的公开数据,不用学代码真的很方便。[得意]2.发现了一个很棒的软件,?不用学python也可以爬数据!用它爬了n多数据。3.微博、电商、各大新闻平台的数据,很多可以用模版一键爬取数据,非常方便!4.做科研项目要采集很多数据,[耶]科研人的救命神器,推荐!5.实时获取楼市动态,用八爪鱼收集网上关于楼盘的用户评价,不用学代码直接爬了很多数据6.用八爪鱼实时爬取电商数据,追踪竞争对手价格,商品信息一手掌握[得意]7.用八爪鱼自动收集全网最新新闻,迅速获取热点资讯,超方便?icon-default.png?t=N7T8https://affiliate.bazhuayu.com/retrieve


通过前面的学习,我们已经进入到设计采集规则的实操课程。下面以一个实际案例来解答今天的课程要点:

滚动/瀑布流加载方式

在这个案例就是线下滚动鼠标会一直加载出更多的信息。

那么我们就可以用这个功能模块来实现网页向下滚动

根据箭头指示,点击“添加流程”

点击“循环”添加功能模块

在基础设置中点击“循环方式”,切换到“滚动网页“

        根据需要修改滚动模式,如果只是滚动某一个小区域,就切换到“局部”

滚动方式根据情况,选择滚动到底部还是向下滚动一屏。

如果需要设定滚动次数,就在这里的“循环次数”进行设定。

无内容更新时结束循环,也就是滚动到最下面了,1秒钟(根据你的设置)没有加载新的内容,就自动停止这个循环,进行后面的动作。

如果你要把其他的功能,再做一下详细的设置,根据实际情况操作即可。

翻页/分页的加载方式

例如我们要采集京东评论的内容,这里有100页,它的翻页按钮是“下一页”,

那么我们就需要定位“下一页”按钮的xpath,然后构建一个循环点击它的动作来执行自动翻页。

上图是通过点选方案进行循环点击的构建,下图再说一下,通过手动添加模块的方式构建

先将“循环”中的循环方式调整为“单个元素”,在填入正确的xpath信息

然后在循环中,添加一个点击动作,这个动作的xpath为空,但是在前面需要选择“拼接循环项xpath”

最后,我们在这个循环的中间,添加一个数据提取的模块,提取的元素信息为,当前评论的页码数

我们来测试一下

本接课程我们说了两种翻页情况,滚动/瀑布流和翻页加载方式,下节课我们来说说网页界面中的弹出窗口怎么移除。


这贴是教程专栏的目录链接:

八爪鱼采集器入门基础教程,日常更新中-CSDN博客

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-06-19 03:28:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-19 03:28:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-19 03:28:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-19 03:28:02       18 阅读

热门阅读

  1. Web前端中的jQuery:深度解析与应用探索

    2024-06-19 03:28:02       9 阅读
  2. typescript-泛型

    2024-06-19 03:28:02       5 阅读
  3. Python 3.13 有什么新变化

    2024-06-19 03:28:02       5 阅读
  4. 062、Python 解决命名冲突的两种方式

    2024-06-19 03:28:02       5 阅读
  5. Ribbon与Nginx的区别

    2024-06-19 03:28:02       7 阅读
  6. QT day04

    QT day04

    2024-06-19 03:28:02      5 阅读
  7. Blender下使用python设置骨骼旋转

    2024-06-19 03:28:02       6 阅读
  8. ArcGIS Pro SDK (五)内容 1 地图工程

    2024-06-19 03:28:02       5 阅读
  9. 微信小程序,分享和反馈功能

    2024-06-19 03:28:02       7 阅读