国学名著数据数据抓取,以《三国演义》举例

本次我们的目标是抓取全本的《三国演义》原著并按照章节分别保存到本地的爬虫。

在这里插入图片描述

一共120回的原著文章分别抓取到本地保存成文件。

在这里插入图片描述

代码非常简单,因为你会发现整个网站是一个CSS静态页面,因此抓取分分钟搞定。

代码设定了存储文件的目录(《三国演义》)并检查这个目录是否已存在。如果不存在,它会自动创建这个目录,以便存储下载的章节内容。这一步骤确保了存储数据的位置是预先准备好的。利用 requests 库向指定的 URL(《三国演义》的网页)发送HTTP请求,并获取整个页面的HTML内容。利用 BeautifulSoup 库,代码解析了HTML数据,有效地提取出了每个章节的标题和链接。这一部分是从网页中获取所需数据的关键环节。

代码进入一个循环,遍历网页中提取的每个章节链接。对于每个链接,它再次发送HTTP请求,抓取具体章节的内容。每获取一个章节,代码便暂停3秒,这样做是为了防止请求频率过高导致被服务器封禁。每个章节的文本内容被提取出来后,代码按照章节顺序和标题生成文件名,并将内容写入以该名称命名的文本文件中。这样,每个章节的内容都被整齐地保存在单独的文件里,方便阅读和管理。

import 

相关推荐

  1. Python爬虫-爬取三国演义文本数据-bs4

    2024-01-25 21:46:01       28 阅读
  2. 自动抓取App数据

    2024-01-25 21:46:01       59 阅读
  3. 爬虫技术抓取网站数据

    2024-01-25 21:46:01       41 阅读
  4. 论坛帖子数据抓取

    2024-01-25 21:46:01       33 阅读
  5. 爬虫技术抓取网站数据

    2024-01-25 21:46:01       25 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-25 21:46:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-25 21:46:01       101 阅读
  3. 在Django里面运行非项目文件

    2024-01-25 21:46:01       82 阅读
  4. Python语言-面向对象

    2024-01-25 21:46:01       91 阅读

热门阅读

  1. IO流-处理流之——缓冲流

    2024-01-25 21:46:01       54 阅读
  2. C++笔记(三)

    2024-01-25 21:46:01       51 阅读
  3. 【家庭版windows远程桌面连接攻略】

    2024-01-25 21:46:01       59 阅读
  4. layui select onchange事件处理

    2024-01-25 21:46:01       54 阅读
  5. 【dpdk】Getting Started Guide for Linux DPDK

    2024-01-25 21:46:01       49 阅读
  6. 【MySQL】表列数和行大小限制详解

    2024-01-25 21:46:01       52 阅读
  7. C++面试题

    2024-01-25 21:46:01       62 阅读