Web爬虫-edu_SRC-目标列表爬取

免责声明:本文仅做技术交流与学习...

爬取后,结合暗黑搜索引擎等等进行进一步搜索.

edu_src.py

import requests, time
from bs4 import BeautifulSoup
for i in range(1, 20):
    url = f'https://src.sjtu.edu.cn/rank/firm/0/?page={i}'
    print(f"正在获取第{i}页数据")
    s = requests.get(url).text
    # print(s)
    soup = BeautifulSoup(s, 'html.parser')
    edu1 = soup.find_all('tr')
    # print(edu1)
    for edu in edu1:
        try:
            edu_name = edu.a.text
            # print(edu_name)
            with open('edu_name.txt', 'a+',encoding='utf-8') as f:
                f.write(edu_name + '\n')
        except:
            pass
    print(f"{i}页已经写入!!!")

相关推荐

  1. Web爬虫-edu_SRC-目标列表

    2024-06-17 03:58:03       7 阅读
  2. 爬虫豆瓣电影、价格、书名

    2024-06-17 03:58:03       28 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-17 03:58:03       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-17 03:58:03       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-17 03:58:03       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-17 03:58:03       18 阅读

热门阅读

  1. Rocky Linux配置国内源

    2024-06-17 03:58:03       6 阅读
  2. Leetcode 76. 最小覆盖子串

    2024-06-17 03:58:03       9 阅读
  3. 2024前端面试准备6-TS基础

    2024-06-17 03:58:03       7 阅读
  4. vue3 如何给表单添加表单效验+正则表达式

    2024-06-17 03:58:03       5 阅读
  5. LeetCode热题1. 两数之和

    2024-06-17 03:58:03       6 阅读
  6. git diff

    2024-06-17 03:58:03       7 阅读
  7. windows用脚本编译qt的项目

    2024-06-17 03:58:03       6 阅读
  8. Window上ubuntu子系统编译Android

    2024-06-17 03:58:03       6 阅读
  9. react捡起来了

    2024-06-17 03:58:03       6 阅读
  10. python判断一个数是不是偶数

    2024-06-17 03:58:03       9 阅读
  11. 编程机器人的参数表怎么看

    2024-06-17 03:58:03       6 阅读