【爬虫】– 抓取原创力文档数据

2024-03-14 16:26:02
开发
23

使用RPA工具，实现针对于原创力中不可下载文档的抓取，可延用于其他类似文库

1 使用工具、环境

影刀RPA、WPS Office、谷歌浏览器（非指定）

2 代码流程

在这里插入图片描述

3 关键点

此方案只适合抓取非VIP即可预览全文的文档，抓取下来的数据是图片
打开网址后，需要鼠标向下滚动一段距离才能触发“下一页”按钮：
在节点路径：“//*[@id=“main”]/div[1]/div[3]/div[2]//img”下，抓取链接（src属性），注意有些是文档中间的广告图片，有效的文档其实是“//view-cache.book118.com”开头的链接，需要过滤掉非此开头的广告链接，如下：
文档图片刷新很玄学，需要上下滑动网页才能刷新出来，代码中用了无限循环滚动鼠标+等距离上下移动来解决，检测到没有刷新时打转的“待刷新”才抓取图片链接：
判断是否抓取到最后一页，是对“继续预览”文字的检测，如果不出现就说明已经是最后一页，即可退出程序：
按照原文档排序命名图片，依次再插入word文档。因为影刀中列表的排序是要等字节的才能判断，所以代码中将图片的名字和对应路径，分别构造成字典的键和值，再循环1到最大值，依次取出字典的对应值，插入word文档中，实现和原文档一样的排序效果

4 执行结果图

在这里插入图片描述

5 完整程序

在这里插入图片描述

原文地址:https://blog.csdn.net/gaokaojiayou/article/details/136678848 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1768191846678401024.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

热门阅读

Python中的*args和**kwargs是什么，它们如何工作？

2024-03-14 16:26:02 20 阅读
【学员分享】在誉天学完数通+云计算的双HCIE课程对职场有什么帮助

2024-03-14 16:26:02 23 阅读
CSS中display、float、position的关系

2024-03-14 16:26:02 20 阅读
C#语法基础

2024-03-14 16:26:02 17 阅读
【Sql Server】通过Sql语句批量处理数据，使用变量且遍历数据进行逻辑处理

2024-03-14 16:26:02 18 阅读
Jobs Portal求职招聘系统源码v3.5版本

2024-03-14 16:26:02 15 阅读
css 背景图片居中显示

2024-03-14 16:26:02 21 阅读
scss 使用变量名注意事项

2024-03-14 16:26:02 20 阅读
CSS 入门指南（二）CSS 常用样式及注册页面案例

2024-03-14 16:26:02 25 阅读
三、NLP中的句子关系判断

2024-03-14 16:26:02 20 阅读
pycharm查看Tensor的完整数据

2024-03-14 16:26:02 18 阅读
Common 7B Language Models Already Possess Strong Math Capabilities

2024-03-14 16:26:02 19 阅读
Codeforces Round 932 (Div. 2)C. Messenger in MAC 有序简化题目，dp，dp优化

2024-03-14 16:26:02 18 阅读
uni-app网络请求封装及发送

2024-03-14 16:26:02 23 阅读
代码随想录day19（2）二叉树：二叉树的最大深度（leetcode104）

2024-03-14 16:26:02 19 阅读
HTML本地离线缓存？

2024-03-14 16:26:02 20 阅读
Android apk 打包及签名

2024-03-14 16:26:02 23 阅读
有效的正方形（LeetCode 593）

2024-03-14 16:26:02 24 阅读
leetcode 2864.最大二进制奇数

2024-03-14 16:26:02 23 阅读
力扣爆刷第94天之hot100五连刷56-60

2024-03-14 16:26:02 23 阅读
Linux 配置ssh、scp、sftp免密登录

2024-03-14 16:26:02 20 阅读
基于SpringBoot+MYSQL+Vue的校园管理系统

2024-03-14 16:26:02 19 阅读
Yolov8-pose关键点检测：特征融合涨点篇 | 广义高效层聚合网络（GELAN） | YOLOv9

2024-03-14 16:26:02 18 阅读
如何将服务器数据迁移到另一台服务器？

2024-03-14 16:26:02 20 阅读
C语言黑魔法第三弹——动态内存管理

2024-03-14 16:26:02 22 阅读
中创ET4410台式电桥固件升级工具（修复了列表扫描的BUG）

2024-03-14 16:26:02 27 阅读
VUE3内置组件Transition的学习使用

2024-03-14 16:26:02 21 阅读
ECMAScript 语法

2024-03-14 16:26:02 23 阅读
安装antv

2024-03-14 16:26:02 19 阅读
C#处理文件

2024-03-14 16:26:02 20 阅读