【Selenium爬取小说】

确定url

找到你所需要的网站 然后进行分析检查 。
==注意: 进行搜索元素时 会有一个ctrl+f的操作
看class 或者 id 后面等于的值的时候 match 不一定是1 但是只要 这个标签下id=的这个值是唯一标识的即可 ,因为你搜索的是全部的整个页面下的这个值 但是class[id=xxx]这个会可能是唯一的。

进行分析页面在爬取

可以发现都在dd标签下
在这里插入图片描述
多层爬取 进入这个页面 然后爬取这一章的内容
在这里插入图片描述
可以发现内容都在这个标签下
在这里插入图片描述

我们打开一个文件接受这个文本即可

爬虫代码

import time
from selenium import webdriver
from selenium.webdriver.common.by import By

file = open('./output/xxx/明克街13号.txt','a',encoding= 'utf-8')
driver = webdriver.Firefox()
url = 'https://www.xxxxx.bz/book/54529/'
driver.get(url)
dd_list =driver.find_elements(By.XPATH,"//div[@id='list']/dl/dd")
print(dd_list)
number = 1
for i in range(12,len(dd_list)):
    print(f'爬取第{
     number}章')
    detail_url = dd_list[i].find_element(By.XPATH,'a').get_attribute('href')
    print(detail_url)
    driver_chmo = webdriver.Chrome()
    driver_chmo.get(detail_url)
    response = driver_chmo.find_element(By.XPATH,'//div[@id="content"]')
    print(response.text)
    file.write(response.text+f'\n   第{
     number}章   \n')
    number = number + 1
    time.sleep(3)
file.close()

爬取的结果
在这里插入图片描述
欢迎批评指正

相关推荐

  1. Python小说

    2023-12-07 16:10:06       11 阅读
  2. 笔趣阁小说批量脚本代码

    2023-12-07 16:10:06       32 阅读

最近更新

  1. TCP协议是安全的吗?

    2023-12-07 16:10:06       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-07 16:10:06       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-07 16:10:06       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-07 16:10:06       18 阅读

热门阅读

  1. 【Linux内核源码】进程管理模块

    2023-12-07 16:10:06       28 阅读
  2. 传纸条(算法题)

    2023-12-07 16:10:06       41 阅读
  3. ES6知识点

    2023-12-07 16:10:06       34 阅读
  4. ElasticSearch之Clear cache API

    2023-12-07 16:10:06       43 阅读
  5. osg判断节点在当前视口的远近

    2023-12-07 16:10:06       39 阅读
  6. git 多用户配置 mac

    2023-12-07 16:10:06       34 阅读
  7. macOS 13.6上Sublime无法使用Package Control问题

    2023-12-07 16:10:06       28 阅读