python爬虫

一.简介了解

1.爬虫在使用场景中的分类:

通用爬虫:抓取系统重要组成部分。抓取的是一整张页面数据。

聚焦爬虫:是建立在爬虫的基础之上。抓取的是页面的局部内容。

增量爬虫(重点):检测网站数据更新的情况。只会抓取网站中最新更新出来的数据。

2.爬虫的与矛盾

互联网中50%的收益来源于爬虫。

反爬机制:

反反爬策略:

robots.txt协议:如

taobao.com/robots.txt

http协议
    - 概念:就是服务器和客户端进行数据交互的一种形式。
常用请求头信息
    - User-Agent:请求载体的身份标识
    - Connection:请求完毕后,是断开连接还是保持连接

常用响应头信息
    - Content-Type:服务器响应回客户端的数据类型

https协议:
    - 安全的超文本传输协议

加密方式
    - 对称秘钥加密
    - 非对称秘钥加密
    - 证书秘钥加密

相关推荐

  1. python爬虫

    2024-01-26 03:34:01       41 阅读
  2. python爬虫

    2024-01-26 03:34:01       39 阅读
  3. python爬虫

    2024-01-26 03:34:01       16 阅读
  4. python爬虫

    2024-01-26 03:34:01       11 阅读
  5. python爬虫01-爬虫介绍

    2024-01-26 03:34:01       36 阅读
  6. Python爬虫之异步爬虫

    2024-01-26 03:34:01       15 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-26 03:34:01       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-26 03:34:01       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-26 03:34:01       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-26 03:34:01       20 阅读

热门阅读

  1. Imagenet-A,Imagenet-C和ImageNet-O

    2024-01-26 03:34:01       30 阅读
  2. Rust Web小项目

    2024-01-26 03:34:01       35 阅读
  3. 扩展坞 接两个显示器

    2024-01-26 03:34:01       35 阅读
  4. 实习记录——第三天

    2024-01-26 03:34:01       38 阅读
  5. AcWing.表达式求值模板题

    2024-01-26 03:34:01       36 阅读
  6. Egg框架搭建后端服务【6】- 上传图片和图片回显

    2024-01-26 03:34:01       37 阅读
  7. Modern C++ std::move的实现原理

    2024-01-26 03:34:01       33 阅读
  8. 慎用少用c++的static和extern变量-几个常见错误

    2024-01-26 03:34:01       36 阅读
  9. 【力扣 50】Pow(x, n) C++题解(数学+递归+快速幂)

    2024-01-26 03:34:01       30 阅读