Python爬取小说

爬取小说大致分三步

1.获取网页

2.分析获取内容

3.保存到文本

具体步骤放代码里了,注释很清晰了。

# 爬取小说

#requests是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果。
#pip install requests
#lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式
#pip install lxml
from lxml import etree
import requests
#网站地址
url = "https://dldl1.nsbuket.cc/xiaoshuo/douluodalu/1.html"
while True:
    #伪装用户
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0'
    }
    # 发送请求,get方式
    resp = requests.get(url,headers=headers)
    #设置编码
    resp.encoding='utf-8'
    #响应信息
    # print(resp.text)

    # 获取文本
    e=etree.HTML(resp.text)
    info='\n'.join(e.xpath('//div[@class="m-post"]/p/text()'))#章节内容
    title=e.xpath('//h1/text()')[0]#章节标题
    # print(title)
    # print(info)

    # 获取下一章节地址
    url = f'https://dldl1.nsbuket.cc{e.xpath("//td[2]/a/@href")[0]}'
    print(title)

    #保存
    with open('斗罗大陆.txt','a',encoding='utf-8') as f:
        f.write(title+'\n\n'+info+'\n\n')

    #退出循环
    if url=='https://dldl1.nsbuket.cc/xiaoshuo/douluodalu/217333.html':
        break

相关推荐

  1. Python小说

    2024-05-13 19:28:09       11 阅读
  2. Python爬虫-批量免费小说并下载保存到本地

    2024-05-13 19:28:09       64 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-05-13 19:28:09       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-05-13 19:28:09       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-05-13 19:28:09       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-05-13 19:28:09       18 阅读

热门阅读

  1. android进阶-回调

    2024-05-13 19:28:09       10 阅读
  2. Python 正则表达式(一)

    2024-05-13 19:28:09       10 阅读
  3. KAN网络

    KAN网络

    2024-05-13 19:28:09      9 阅读
  4. 微调大模型学习记录

    2024-05-13 19:28:09       11 阅读
  5. MFC--CCreateContext结构体

    2024-05-13 19:28:09       8 阅读
  6. 三种基本排序-冒泡,选择,二分

    2024-05-13 19:28:09       10 阅读
  7. MySQL中所有数据类型

    2024-05-13 19:28:09       9 阅读
  8. MongoDB聚合运算符:$topN

    2024-05-13 19:28:09       10 阅读
  9. stylus详解与引入

    2024-05-13 19:28:09       11 阅读
  10. 深度学习学习日记(5.6)

    2024-05-13 19:28:09       9 阅读
  11. 初级银行从业资格证知识点(十)

    2024-05-13 19:28:09       10 阅读
  12. 升级WSL Ubuntu内核从5.10到5.15

    2024-05-13 19:28:09       16 阅读
  13. Flink面试整理-Flink的配置管理包含哪些?

    2024-05-13 19:28:09       13 阅读