【Web爬虫】爬⾍⿊⻰江省与四川省农机补贴以及数据分析

find_all( name , attrs , recursive , text , **kwargs )
- 根据参数来找出对应的标签，但只返回第一个符合条件的结果。
find( name , attrs , recursive , text , **kwargs )
- 根据参数来找出对应的标签，但只返回所有符合条件的结果。

筛选条件参数介绍：

name：为标签名,根据标签名来筛选标签
attrs：为属性,，根据属性键值对来筛选标签，赋值方式可以为:属性名=值,attrs={属性名:值}（但由于class是python关键字，需要使用class_）

分层获取表格行内容

find("table") 获取表格
find_all("tr") 获取每一行
find_all("td") 获取行中列项，具体到一个单元格

图1：黑龙江省农机补贴系统元素示例

3.2.2 使用selenium模拟点击爬取网页

1.使用selenium中的webdriver连接测试网页

2.定位到高级搜素并点击

sous=driver.find_elment_by_xpath("//*[@id='app']/div/div[2]/div[2]/form/div/div/div[1]/div/div/div/div/span/span/i")

sous.click()
time.sleep(1)

图2：定位到高级搜素并点击

3.选取年份2021，2022，2023并点击

driver.find_element(By.XPATH, "/html/body/div[2]/div[1]/div[1]/ul/li[2]").click()
time.sleep(1)

图3：选取年份2021，2022，2023并点击

4.点击查询

button = driver.find_element_by_xpath("//*[@id='app']/div/div[2]/div[2]/form/div/div/div[10]/button")
button.click()
time.sleep(1)

图4：点击查询

5.点击下一页或先点击尾页再点击上一页，进行翻页操作

button = driver.find_element_by_xpath("//*[@id='app']/div/div[2]/div[3]/div[2]/div/div/button[2]").click()

3.3 两种方式的优缺点分析

Beautifulsoup:

缺点：遇到选择不同年份，网址无改变，无法获取2021和2022年内容

优点：爬取速度快

Selenium:

缺点：爬取速度慢

优点：解决了beautifulsoup的缺点

四、实验过程

4.1 爬取网页

4.1.1第一种爬取方式：

import csv
import requests
from bs4 import BeautifulSoup

import sys
import io
base_url = "http://218.7.20.115:2021/pub/gongshi"
current_page_index = 5721

# 创建CSV文件
file_path = "C:/Users/prx17/anaconda3/scirapy/2023黑龙江农机补贴3.csv"
with open(file_path, mode="w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)


    # 循环遍历页面
    while current_page_index<8340:
        # 获取当前页的内容
        response = requests.get(f"{base_url}?pageIndex={current_page_index}")
        response.encoding = 'utf-8'
        html_content = response.text
        soup = BeautifulSoup(html_content, "html.parser")
        table = soup.find("table")
        rows = table.find_all("tr")

        # 写入每一行数据
        for row in rows[1:]:
            data = [cell.text for cell in row.find_all("td")]
            writer.writerow(data)
        #输出页数作为观察获取数据的情况的指标
        print(current_page_index)
        current_page_index += 1

print(f"成功保存信息至文件：{file_path}")

图1：爬虫过程输出图

爬取结果：

图2：爬虫结果csv图

4.1.2使用第二种方式进行爬虫

 import requests
import csv
from bs4 import BeautifulSoup
# 发送HTTP请求获取网页内容
import requests
import csv
# -*- coding: utf-8 -*-
from selenium import webdriver
import time
import pandas as pd
import numpy as np
from selenium.webdriver.support.ui import Select
# 或者直接从select导入
# from selenium.webdriver.support.select import Select


#打开
driver = webdriver.Edge()


header={"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.58"

}
driver.get(f'http://202.61.89.161:12021/subsidyOpen')
time.sleep(1)
#s = driver.find_element_by_id('YearNum')

#options_list = Select(s).options # 返回所有选项
#for option in options_list:
    #print(option.text) # 打印每个选项的文本值

#Select(s).select_by_index(2)        # 选中索引值为2的选项（index从0开始）
#time.sleep(2)

#Select(s).select_by_value('2022')     # 选中value值为49的选项：Fax
time.sleep(1)
#button2 = driver.find_element_by_xpath("//*[@id='app']/div/div[2]/div[3]/div[2]/div/div/ul/li[12]")
#button2.click()
#time.sleep(2)
#Select(s).select_by_visible_text('Mail') # 选中文本为Mail的选项
#创建dataframe

num=1
#定位客户列表

file_path = "C:/Users/prx17/anaconda3/scirapy/2023四川农机补贴1.csv"

    #print(df[-10:-1])
#time.sleep(2)
for i in range(4987):
        #print(i)
    for n in range(1,16):
        userslist = driver.find_elements_by_xpath(f"//*[@id='app']/div/div[2]/div[3]/div[1]/div[3]/table/tbody/tr[{n}]")
    #print(userslist)
        for user in userslist:
            data = user.text.split('\n')
            #print(data)
            #print(type(data))
            datas=[]
            datas.append(data)
            #print(datas)
            with open(file_path, mode="a",  newline="",encoding="utf-8") as file:
                writer = csv.writer(file)
                for m in datas:
                #n=m.split(' ')//*[@id="app"]/div/div[2]/div[3]/div[2]/div/div/button[2]
                #print(m)
                #data=[cell.text for cell in user.find_all("td")]
                    writer.writerow(m)
                file.close()
    print(num)
    num += 1
        #if i<6:
    time.sleep(2)
    button = driver.find_element_by_xpath("//*[@id='app']/div/div[2]/div[3]/div[2]/div/div/button[2]")
        # else:
        # button2 = driver.find_element_by_xpath("//*[@id='pager']/div/a[14]")
    button.click()
        # print(df[-10:-1])
    time.sleep(2)

print(f"成功保存信息至文件：{file_path}")

爬取结果：

图3：爬虫结果csv图

4.2 数据量统计

总共约82.8万条数据

图4：爬虫数据量结果统计

4.3 处理数据

因为第一次爬虫时发现未删除换行符，导致数据中有换行符，不方便进行数据分析

图1：数据结果

后加上去除换行符得到解决

五、数据分析

5.1 地理可视化分析

图1：黑龙江省前十一名补贴频率最高城市地图

从黑龙江省的地图来看，补贴高频城市前十一名主要集中在黑龙江省的西南部，在黑龙江省的西南部的原因有以下几个方面：

近江
温度比北部更高
东北平原地区有着肥沃的黑土地，黑龙江的西南地区就位于东北平原内，黑土地对农作物的生长有好作用

图2：黑龙江省前十一名补贴频率最高城市地图

可以看出高频城市有：

海伦市
龙江县
北林区
铁力市
克山县
安达市、等

绿色颜色越深，补贴次数申请次数越多，变相显示使用农机的频率更高。

图3：四川省前十一名补贴频率最高城市地图

从四川省的地图来看，补贴高频城市前十一名主要集中在四川省的东部，在黑龙江省的东部的原因有以下几个方面：

靠近长江
温度比西部高原草原地区更高
科技也比较发达

图4：四川省前十一名补贴频率最高城市地图

可以看出高频城市有：

翠屏区
沪县
邻水县
安岳县
纳溪区
合江县
蓬安县

绿色颜色越深，补贴次数申请次数越多，变相显示使用农机的频率更高。

5.2 同省不同年比较

图5：黑龙江省2021年前十一名补贴频率最高城市地图

图6：黑龙江省2023年前十一名补贴频率最高城市地图

图7：2021年黑龙江补贴高频城市图

图8：2023年黑龙江补贴高频城市图

由图可以看出，从2021到2023年，补贴频率前十一名城市波动较大，但总体还是集中在黑龙江省的西南部，并且，新兴五常市对农机补贴申请大大增加，可以分析出五常市对科技农业的重视开始上升。

图9：2021年四川补贴高频城市图

图10：2023年四川补贴高频城市

由图可以看出，四川省从2021到2023年，补贴频率前十一名城市略有波动，变化不大

图11：2021年四川的单台中央补贴额（元）的产品名称图12：2023年四川的单台中央补贴额（元）的产品名称

四川各产品的单台中央补贴额（元）从2021年到2023年，高补贴额的产品变化大，2021年排名在前的轮式拖拉机变为后来2023年的微耕机，各种器具的使用变化很大，说明农机的产品使用变化比较大。

图13：2022年四川的的产品名称占数扇形图

图14：2023年四川的的产品名称占数扇形图

四川各产品的数量从2022年到2023年的变化来看，使用最多的还是微耕机，并且微耕机使用的频率越来越高了，从2022年的占全部的百分之二十五变化为2023年的占全部的百分之五十二，碾米机和饲料粉碎机的使用也变多了，但是细看饲料粉碎机的使用频率变化更大，比碾米机多百分之二，说明畜牧业的科技使用程度变高。