国学名著数据数据抓取，以《三国演义》举例

2024-01-25 21:46:01
开发
52

本次我们的目标是抓取全本的《三国演义》原著并按照章节分别保存到本地的爬虫。

在这里插入图片描述

一共120回的原著文章分别抓取到本地保存成文件。

在这里插入图片描述

代码非常简单，因为你会发现整个网站是一个CSS静态页面，因此抓取分分钟搞定。

代码设定了存储文件的目录（《三国演义》）并检查这个目录是否已存在。如果不存在，它会自动创建这个目录，以便存储下载的章节内容。这一步骤确保了存储数据的位置是预先准备好的。利用 requests 库向指定的 URL（《三国演义》的网页）发送HTTP请求，并获取整个页面的HTML内容。利用 BeautifulSoup 库，代码解析了HTML数据，有效地提取出了每个章节的标题和链接。这一部分是从网页中获取所需数据的关键环节。

代码进入一个循环，遍历网页中提取的每个章节链接。对于每个链接，它再次发送HTTP请求，抓取具体章节的内容。每获取一个章节，代码便暂停3秒，这样做是为了防止请求频率过高导致被服务器封禁。每个章节的文本内容被提取出来后，代码按照章节顺序和标题生成文件名，并将内容写入以该名称命名的文本文件中。这样，每个章节的内容都被整齐地保存在单独的文件里，方便阅读和管理。

import

原文地址:https://blog.csdn.net/qq_20288327/article/details/135598995 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1750515366402068480.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

国学名著数据数据抓取，以《三国演义》举例

2024-01-25 21:46:01 53 阅读
Python爬虫-爬取三国演义文本数据-bs4

2024-01-25 21:46:01 28 阅读
自动抓取App数据

2024-01-25 21:46:01 59 阅读
爬虫抓取网站数据

2024-01-25 21:46:01 36 阅读
利用 Selenium 自动化抓取 Web of Science 论文数据：以 IEEE SENSORS JOURNAL 为例

2024-01-25 21:46:01 22 阅读
数组(举例详解）

2024-01-25 21:46:01 22 阅读
爬虫技术抓取网站数据

2024-01-25 21:46:01 41 阅读
如何从网站抓取数据

2024-01-25 21:46:01 32 阅读
论坛帖子数据抓取

2024-01-25 21:46:01 33 阅读
爬虫技术抓取网站数据

2024-01-25 21:46:01 25 阅读

最近更新

题解 - 序列

2024-01-25 21:46:01 117 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-01-25 21:46:01 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-01-25 21:46:01 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-01-25 21:46:01 101 阅读
NoSQL之Redis非关系型数据库

2024-01-25 21:46:01 101 阅读
2024.7.22 作业

2024-01-25 21:46:01 98 阅读
GDB调试正在运行的程序

2024-01-25 21:46:01 82 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-01-25 21:46:01 85 阅读
在Django里面运行非项目文件

2024-01-25 21:46:01 82 阅读
SSD基本架构与工作原理

2024-01-25 21:46:01 87 阅读
在誉天学习完HCIE就业吗？

2024-01-25 21:46:01 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-01-25 21:46:01 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-01-25 21:46:01 86 阅读
go 协程池的实现

2024-01-25 21:46:01 89 阅读
Shell脚本循环语句与函数

2024-01-25 21:46:01 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-01-25 21:46:01 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-01-25 21:46:01 85 阅读
四大引用——强软弱虚

2024-01-25 21:46:01 86 阅读
Python语言-面向对象

2024-01-25 21:46:01 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-01-25 21:46:01 85 阅读
网站安全-CDN篇

2024-01-25 21:46:01 89 阅读

热门阅读

IO流-处理流之——缓冲流

2024-01-25 21:46:01 54 阅读
2024年mongodb自建三节点副本集详细教程

2024-01-25 21:46:01 41 阅读
电信联通5G共建共享方案实施及验证

2024-01-25 21:46:01 56 阅读
Linux-压缩、解压

2024-01-25 21:46:01 65 阅读
机器学习系统能在多大程度上理解数学

2024-01-25 21:46:01 46 阅读
C++笔记（三）

2024-01-25 21:46:01 51 阅读
C语言-常量（宏定义、const、枚举）

2024-01-25 21:46:01 56 阅读
Linux——进程程序替换

2024-01-25 21:46:01 61 阅读
基于线程池的TCP套接字通信

2024-01-25 21:46:01 57 阅读
【计算机网络】【练习题】【新加坡南洋理工大学】【Computer Control Network】

2024-01-25 21:46:01 50 阅读
深入理解Flutter中的GlobalKey与LocalKey（ValueKey、ObjectKey、UniqueKey）及其使用方法

2024-01-25 21:46:01 64 阅读
Redis——list以及他的应用场景

2024-01-25 21:46:01 54 阅读
【家庭版windows远程桌面连接攻略】

2024-01-25 21:46:01 59 阅读
docker 镜像管理

2024-01-25 21:46:01 43 阅读
Ceph篇之利用Prometheus监控ceph服务

2024-01-25 21:46:01 59 阅读
教你无需PS即可一键完成电商抠图

2024-01-25 21:46:01 53 阅读
layui select onchange事件处理

2024-01-25 21:46:01 54 阅读
JVM-初始JVM

2024-01-25 21:46:01 57 阅读
【3万字】modbus简易不简单的教程

2024-01-25 21:46:01 45 阅读
华为数通方向HCIP-DataCom H12-831题库(判断题：101-120）

2024-01-25 21:46:01 54 阅读
【前端可视化】postcss-px-to-viewport 适配怎么限制最大宽度？使用 postcss-mobile-forever

2024-01-25 21:46:01 52 阅读
【dpdk】Getting Started Guide for Linux DPDK

2024-01-25 21:46:01 49 阅读
css文本溢出处理

2024-01-25 21:46:01 56 阅读
【MySQL】表列数和行大小限制详解

2024-01-25 21:46:01 52 阅读
HTML基础

2024-01-25 21:46:01 48 阅读
thinkadmin上传excel导入数据库

2024-01-25 21:46:01 55 阅读
Redis 面试题 | 05.精选Redis高频面试题

2024-01-25 21:46:01 60 阅读
沉浸式刷题（3）三角形的判断

2024-01-25 21:46:01 36 阅读
C++面试题

2024-01-25 21:46:01 62 阅读
中国古代数学与现代数学的辉煌之路

2024-01-25 21:46:01 39 阅读