爬虫学习日记

引言:

1.语言:python

2.预备知识——python:爬虫学习前记----Python-CSDN博客

3.学习资源:【Python+爬虫】

html:

<!DOCTYPE html>
<html>
    <head>
        <title>czy_demo</title>
        <meta charset="UTF-8"> <!-- 指定字符编码 -->
    </head>
    <body>
        <h1>一级标题(h1~h6)</h1>
        <p>普通文本<b>加粗</b><i>斜体</i><u>下划线</u></p>
        <img src="1.jpg" width="500px">
        <br><a href="http://t.csdnimg.cn/DvHJ6" target="_blank">CSDN链接</a>
        <p>这是多个span展示:<span style="background-color: bisque">span1</span><span style="background-color: aquamarine">span2</span></p>
        <ol>
            <li>有序列表</li>
            <li>有序列表</li>
            <li>有序列表</li>
        </ol>
        <ul>
            <li>无序列表</li>
            <li>无序列表</li>
            <li>无序列表</li>
        </ul>

    <table border="1">
        <thead>
            <tr>头部有几个就写几行tr</tr>
            <tr>第二行头部标签</tr>
        </thead>
        <tbody>
            <tr>
                <td>第一行*单元格1</td>
                <td>第一行*单元格2</td>
                <td>第一行*单元格3</td>
            </tr>
            <tr>
                <td>第二行*单元格1</td>
                <td>第二行*单元格2</td>
                <td>第二行*单元格3</td>
            </tr>
        </tbody>

    </table>

    </body>
</html>

爬虫代码

1.两个需要的包

from bs4 import BeautifulSoup
import requests

2.爬原代码

response = requests.get('http:.......')
print(response) #  响应
print(response.status_code) #  状态码---200[ok]
print(response.text) #  打印源码

3.爬指定的内容

response = requests.get('http:........')
content =response.text
soup = BeautifulSoup(content,"html.parser") # 解析器html

all_p=soup.findAll("p",attrs={"class":""})
for p in all_p:
    print(p.string)

all_p=soup.findAll("h3")
for p in all_p:
    p1=p.findAll("a")
    for p2 in p1:
        print(p2.string)

3.下载图片

from bs4 import BeautifulSoup
import requests

headers={
    'User-Agent': 【替换成目标网页的User-Agent】
}
response = requests.get('http://data.shouxi.com/item.php?id=1239786',headers=headers)
response.encoding = 'GBK'
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text,"html.parser") # 解析器html

# print(response.text)

i=soup.findAll("img")

num=1;
for Img in i:
    img_url=Img.get("src")
    if not img_url.startswith('http:'):
        img_url="http:....【替换成网页地址】"+img_url # 将相对地址转换成绝对地址
    # 发送请求下载图片
    img_response = requests.get(img_url, headers=headers)
    with open(f'image.{num}.jpg', mode='wb') as f:
        f.write(img_response.content)
        print(f'图片已保存: images.{num}')
    num = num + 1

相关推荐

  1. 爬虫学习日记

    2024-07-13 22:30:03       19 阅读
  2. 爬虫学习笔记)

    2024-07-13 22:30:03       52 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-13 22:30:03       70 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-13 22:30:03       74 阅读
  3. 在Django里面运行非项目文件

    2024-07-13 22:30:03       62 阅读
  4. Python语言-面向对象

    2024-07-13 22:30:03       72 阅读

热门阅读

  1. (深度估计学习)Depth Anything V2 复现

    2024-07-13 22:30:03       20 阅读
  2. Vue封装Tooltip(提示工具)

    2024-07-13 22:30:03       22 阅读
  3. fastermaker-boot代码生成器

    2024-07-13 22:30:03       17 阅读
  4. 使用Spring Boot实现分布式锁

    2024-07-13 22:30:03       20 阅读
  5. Qt MV架构 数据-窗口映射器

    2024-07-13 22:30:03       24 阅读
  6. 暑假自律日记九

    2024-07-13 22:30:03       21 阅读
  7. 如何在PostgreSQL正确的 使用UUID 作为主键

    2024-07-13 22:30:03       22 阅读
  8. 《NX二次开发官方案例》专栏目录B

    2024-07-13 22:30:03       19 阅读
  9. 并行编程实战——TBB编程流图的问题

    2024-07-13 22:30:03       22 阅读
  10. MySQL零散拾遗

    2024-07-13 22:30:03       25 阅读