【爬虫】– 抓取原创力文档数据

使用RPA工具,实现针对于原创力中不可下载文档的抓取,可延用于其他类似文库

1 使用工具、环境

影刀RPA、WPS Office、谷歌浏览器(非指定)

2 代码流程

在这里插入图片描述

3 关键点

  1. 此方案只适合抓取非VIP即可预览全文的文档,抓取下来的数据是图片

  2. 打开网址后,需要鼠标向下滚动一段距离才能触发“下一页”按钮:在这里插入图片描述

  3. 在节点路径:“//*[@id=“main”]/div[1]/div[3]/div[2]//img”下,抓取链接(src属性),注意有些是文档中间的广告图片,有效的文档其实是“//view-cache.book118.com”开头的链接,需要过滤掉非此开头的广告链接,如下:在这里插入图片描述

  4. 文档图片刷新很玄学,需要上下滑动网页才能刷新出来,代码中用了无限循环滚动鼠标+等距离上下移动来解决,检测到没有刷新时打转的“待刷新”才抓取图片链接:在这里插入图片描述

  5. 判断是否抓取到最后一页,是对“继续预览”文字的检测,如果不出现就说明已经是最后一页,即可退出程序:在这里插入图片描述

  6. 按照原文档排序命名图片,依次再插入word文档。因为影刀中列表的排序是要等字节的才能判断,所以代码中将图片的名字和对应路径,分别构造成字典的键和值,再循环1到最大值,依次取出字典的对应值,插入word文档中,实现和原文档一样的排序效果

4 执行结果图

在这里插入图片描述

5 完整程序

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

相关推荐

  1. 爬虫技术抓取网站数据

    2024-03-14 16:26:02       20 阅读
  2. 爬虫抓取链家二手房数据

    2024-03-14 16:26:02       34 阅读
  3. NodeJs 第八章 数据抓取(爬虫)

    2024-03-14 16:26:02       35 阅读
  4. python 如何生成文章

    2024-03-14 16:26:02       7 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-03-14 16:26:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-14 16:26:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-14 16:26:02       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-14 16:26:02       20 阅读

热门阅读

  1. Python中的*args和**kwargs是什么,它们如何工作?

    2024-03-14 16:26:02       20 阅读
  2. CSS中display、float、position的关系

    2024-03-14 16:26:02       20 阅读
  3. scss 使用变量名注意事项

    2024-03-14 16:26:02       20 阅读
  4. uni-app网络请求封装及发送

    2024-03-14 16:26:02       23 阅读
  5. HTML本地离线缓存?

    2024-03-14 16:26:02       20 阅读
  6. Android apk 打包及签名

    2024-03-14 16:26:02       23 阅读
  7. 有效的正方形(LeetCode 593)

    2024-03-14 16:26:02       24 阅读
  8. leetcode 2864.最大二进制奇数

    2024-03-14 16:26:02       23 阅读
  9. 力扣爆刷第94天之hot100五连刷56-60

    2024-03-14 16:26:02       23 阅读
  10. 如何将服务器数据迁移到另一台服务器?

    2024-03-14 16:26:02       20 阅读
  11. ECMAScript 语法

    2024-03-14 16:26:02       23 阅读
  12. 安装antv

    2024-03-14 16:26:02       19 阅读
  13. C#处理文件

    2024-03-14 16:26:02       20 阅读