Python爬虫小练习

爬虫的本质

爬虫的本质就是通过程序模拟正常人向网站发送请求获取信息。

关于爬虫的一些闲聊

按照我们的常识来说,我们不可能在1秒钟访问这个网站100次,请求100次数据,所以过多的请求很有可能会被网站认为你在使用脚本进行爬虫,可能会封你IP,或者说当你爬虫不修改UA头时,python会默认告诉网站自己是一个爬虫脚本,相当于明牌告诉别人自己是来爬你网站。而且要是网站有WAF,也可能设置有策略,不让你爬,当然要是你手法够硬,也是可以绕的。当然作者水平有限,并且各位在爬虫的时候要清楚哪些东西可以爬,哪些东西不能爬,不要触及了法律的红线。年纪轻轻就吃上了国家饭.QAQ

爬取某小说网站(URL已码)

import requests
import os
import parsel


end=input("你想爬取多少章?(阿拉伯数字输入,大于2):")
end= int(end)
print("正在爬取请稍等...")



#爬取第一页的内容
print("==============正在爬取第1章==============")
url = f'xxxxxxx'

response = requests.get(url=url)
response.encoding = response.apparent_encoding
html = response.text

# 解析html
selector = parsel.Selector(html)

# 获取文章标题
title = selector.css('.content h1::text').get()
#print(title)

# 获取小标题内容
content_1 = selector.css('#chaptercontent::text').get()
#print(content_1)

# passage = ''.join(selector.xpath('//div[@id="chaptercontent"]//text()').getall()).strip()
passage = ''.join(selector.css('#chaptercontent').xpath('./text()').getall()[:-4])
passage = passage.replace('  ', '\n')
#print(passage)

filename = 'xxxxxx\\'
if not os.path.exists(filename):
    os.mkdir(filename)
with open(filename +title+ '.txt', mode='wb') as f:

    f.write(passage.encode('utf-8'))


#后续内容

for page in range(2,end+1):
    print(f"==============正在爬取第{page}章==============")
    url = f'xxxxxxxxxxxxxxxxxxx'

    response=requests.get(url=url)
    response.encoding = response.apparent_encoding
    html=response.text


    # 解析html
    selector=parsel.Selector(html)

    # 获取文章标题
    title=selector.css('.content h1::text').get()
    #print(title)

    # 获取小标题内容
    #content_1 = selector.css('#chaptercontent::text').get()
    #print(content_1)

    #passage = ''.join(selector.xpath('//div[@id="chaptercontent"]//text()').getall()).strip()
    passage = ''.join(selector.css('#chaptercontent').xpath('./text()').getall()[:-4])
    passage=passage.replace('  ','\n')
    #print(passage)

    with open(filename + title+ '.txt', mode='wb') as f:
        f.write(passage.encode('utf-8'))
print("爬取完成,已保存在同目录下")

代码思路

总之,我觉得无论是爬那个网站,思路上都大体差不多。

  1. 获取网站的html源码
  2. 用html解析器解析(我这里用的是parsel模块)
  3. 分析网页的结构,用解析器提炼出你想获取的东西
  4. 先获取单个,然后根据相同结构的页面用循环来实现翻页获取大量资源
  5. 如果爬取的资源过多,建议设置一个sleep函数,不要让服务器的负担过大,给网站的管理者造成负担。

ps:注意编码格式,很多时候打印不出东西都是因为格式的问题。本人还是学生,也是初学者,代码写的比较草率,旨在记录学习。如有错误欢迎指出改正。

相关推荐

  1. Python爬虫练习

    2024-06-08 01:12:02       10 阅读
  2. python基础练习大全

    2024-06-08 01:12:02       22 阅读
  3. python项目练习——15.网页爬虫应用程序

    2024-06-08 01:12:02       14 阅读
  4. 第一次Python练习题目

    2024-06-08 01:12:02       24 阅读
  5. python习题练习(挑战全对)

    2024-06-08 01:12:02       17 阅读
  6. Python.考试笔试练习

    2024-06-08 01:12:02       12 阅读
  7. Python练习 20240508一次测验

    2024-06-08 01:12:02       11 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-08 01:12:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-08 01:12:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-08 01:12:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-08 01:12:02       18 阅读

热门阅读

  1. 【html】简单网页模板源码

    2024-06-08 01:12:02       8 阅读
  2. 语言模型解构——手搓BPE算法

    2024-06-08 01:12:02       8 阅读
  3. C# Parallel 未完

    2024-06-08 01:12:02       9 阅读
  4. html及css

    2024-06-08 01:12:02       7 阅读
  5. BGP有条件打破IBGP水平分割1

    2024-06-08 01:12:02       6 阅读
  6. 第二十六章HTML与CSS书写规范

    2024-06-08 01:12:02       4 阅读
  7. 探索HTML5 Geolocation:精准定位网页的新纪元

    2024-06-08 01:12:02       6 阅读