爬虫 知识点2以及SSL1129错误该怎么解决

article_url = url_tag['href']
            article_response = requests.get(article_url, headers=headers)
            article_soup = BeautifulSoup(article_response.content, "html.parser")
            print(index)

(1)article_url = url_tag[‘href’]
这行代码从一个名为url_tag的标签(通常是一个链接标签)中提取href属性的值,并将其赋给article_url变量。这个href属性通常包含了一个完整的网址,指向具体的文章或页面。
(2) article_response = requests.get(article_url, headers=headers)
这行代码使用requests.get()方法向article_url发送一个HTTP GET请求,以获取该网址的内容。headers=headers部分是为了模拟浏览器请求,其中headers是一个包含了User-Agent等信息的字典。
(3)article_soup = BeautifulSoup(article_response.content, “html.parser”)
这行代码使用BeautifulSoup将article_response.content(即获取的网页内容)解析为一个BeautifulSoup对象。这样就可以方便地从网页中提取信息。
(4) print(index)
这行代码打印当前的index值,用于调试或跟踪当前处理的是第几个链接。

提取一个链接的href属性。
使用requests库获取该链接指向的页面内容。
使用BeautifulSoup解析该页面内容。
打印当前处理的链接的索引值。

2.爬虫要关掉小黄猫,因为网络会不稳定 (解决SSL1129的问题)
3.以及要换浏览器的请求头user_agent

相关推荐

  1. 爬虫 知识2以及SSL1129错误怎么解决

    2024-04-06 19:40:04       38 阅读
  2. 爬虫部分知识(1)

    2024-04-06 19:40:04       32 阅读
  3. uniapp组件和周期的知识以及怎么使用

    2024-04-06 19:40:04       60 阅读
  4. SSL证书签发错误怎么回事?

    2024-04-06 19:40:04       27 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-06 19:40:04       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-06 19:40:04       106 阅读
  3. 在Django里面运行非项目文件

    2024-04-06 19:40:04       87 阅读
  4. Python语言-面向对象

    2024-04-06 19:40:04       96 阅读

热门阅读

  1. python项目练习——15.网页爬虫应用程序

    2024-04-06 19:40:04       39 阅读
  2. 开源充电桩设备监控系统技术解决方案

    2024-04-06 19:40:04       35 阅读
  3. 代码随想录Day45

    2024-04-06 19:40:04       35 阅读
  4. VOC2012数据集格式转化为YOLO格式

    2024-04-06 19:40:04       33 阅读
  5. GPS经纬度坐标转换

    2024-04-06 19:40:04       31 阅读
  6. 代码随想录 day39 第九章 动态规划part02

    2024-04-06 19:40:04       31 阅读
  7. 【云原生篇】K8S配置管理之ConfigMap 和 Secret

    2024-04-06 19:40:04       40 阅读
  8. Python SQLite数据库中处理空值几种方法

    2024-04-06 19:40:04       35 阅读
  9. 洛谷P1000-P1001题解

    2024-04-06 19:40:04       39 阅读
  10. 【C++】 二叉搜索树复习+模拟实现

    2024-04-06 19:40:04       39 阅读
  11. uview2 表单Form校验validate不生效处理方法

    2024-04-06 19:40:04       39 阅读