AI学习-Pandas数据处理分析

2024-03-30 21:34:03
开发
19

文章目录

1. Pandas概述

Pandas 是一个开源的数据分析处理库，它应用在数据科学、统计分析、机器学习等领域。其中丰富的数据结构、数据操作函数能够简化数据清洗、转换、探索性分析以及数据可视化等过程。

数据结构类型

Pandas包含两种数据结构

Series：带标签的一维数组
**DataFrame **：二维数组，类似于表格或关系库的表

名称	描述
Series	是一种一维的数据结构，可以看作是带标签的一维数组。每个元素都可以通过标签（索引）进行访问 Series 可以存储任何NumPy支持的数据类型，并且同样支持各种算术和数据处理方法
DataFrame	DataFrame 是 Pandas 的主打数据结构，类似于表格或关系型数据库中的表, 它是一个二维带标签的数据结构，可以容纳多种数据类型（整数、浮点数、字符串、布尔值等）的列。每一列都可以有不同的名称，并且每一行和每一列都有唯一的索引。

主要特性

特性	~
标签化索引(Indexing and Selection)	强大的标签化索引功能，使得数据选取和过滤方便，包括行选择、列选择、条件筛选等。
数据导入导出(DataImport/Export)	Pandas 支持从多种文件格式(CSV、Excel、SQL、JSON、HDF5等)导入和导出数据, 极大地方便了数据预处理阶段的工作。
分组/聚合(Groupby / Aggregation)	groupby 方法允许用户对数据集按指定列进行分组，并在每个分组上执行聚合操作
关联/合并(Merge, Join, Concatenate)	提供了合并多个数据集的功能，支持内连接、外连接等多种数据库风格的表连接操作。
重塑(Reshaping and Pivot Tables)	提供了重塑和透视表功能，便于数据重塑和多维度分析。

安装pandas

#使用conda进行安装
conda install pandas

#使用pip进行安装
pip install pandas

2. Series用法

2.1 Series的创建

函数说明以及示例

pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

参数	描述
`data`	Series的主要数据内容，可以是列表、NumPy数组、字典或其他Series。若为字典，则键作为索引，值作为数据
`index`	可选参数，用于指定Series的索引，默认为从0开始递增的整数型索引。当数据为字典时，可省略此参数；非字典类型数据时，其长度应与`data`中的元素数量相匹配
`dtype`	可选的数据类型，如果指定了该参数，Pandas会尝试将所有数据转换为此类型
`name`	用于给Series指定一个名称，该名称在后续的数据处理和可视化展示时可用于标识
`copy`	布尔值，默认为False。设置为True时，构造函数将会创建一个新的独立副本而非原始数据的一个视图
`fastpath`	内部使用的优化选项，默认为False。在特殊情况下启用以提升性能，通常无需用户直接操作

#导入pandas
import pandas as pd 
#创建一维数组（带有标签）
data=pd.Series([4,3,5,6,1]) 
data

#pandas 中两个重要的属性 values 和 index，
#values 是 Series 对象的原始数据。
#index 对 应了 Series 对象的索引对象

#查看原属数据
data.values
#显示：array([4, 3, 5, 6, 1])

#查看索引
data.inedx
#显示：RangeIndex(start=0, stop=5, step=1)

在这里插入图片描述

使用列表创建Series，并自动分配默认索引

#创建一维数组
data = [1, 2, 3, 4, 5]
s = pd.Series(data)

使用自定义索引创建Series：

#设置自定义索引
index = ['a', 'b', 'c', 'd', 'e'] 
data = [10, 20, 30, 40, 50] 
s = pd.Series(data, index=index)
#使用list创建自定义索引
data=pd.Series([4,3,2,1],index=list('abcd'))

使用字典创建Series，字典的键成为Series的索引：

#设置自定义索引
data_dict = {'apple': 4, 'banana': 2, 'orange': 6}
s = pd.Series(data_dict)

指定数据类型

#设置数据类型为float
data = [1, 2, 3, 4, 5] 
s = pd.Series(data, dtype='float')

给Series命名

#设置seried名称
data = [1, 2, 3, 4, 5] 
s = pd.Series(data, name='xiu')

2.2 Series的取值

series可以像narray数组一样通过使用索引的方式，其索引分为位置索引和标签索引。两种索引方式不同之处在于标签索引进行切片(获取其子集)时候是左闭右闭，而位置索引是左闭右开。

index = ['a', 'b', 'c', 'd', 'e'] 
values = [10, 20, 30, 40, 50] 
data = pd.Series(values, index=index)
display('根据 key 获取：',data['a']) 
#切片且标签索引 显示 [a ~ d]包含d的数据  
display('切片获取：',data['a':'d'])
display('索引获取：',data[1]) 
#切片且位置索引 显示 [2 ~ 4)不包含4的数据  
display('索引切片：',data[2:4])

位置索引与标签索引有相同值 1，这时候 data[1]就不知道是按哪个来获取，此时要使用 loc、iloc。

loc 表示的是标签索引
iloc 表示的是位置索引

data=pd.Series([5,3,2,5,9],index=[1,2,3,4,5])

#如果是位置索引1 则为5 如果是标签索引则是2 默认下边不会报错，但是默认使用标签索引
data[1] #等价于
data.loc[1]

#如果需要使用位置所以 用iloc
data.iloc[1]

2.3 Series的相关方法

mean 方法可以对某一列数据取平均数
min 方法获取最小值
max 方法获取最大值
std 方法获取标准差
sort_values方法排序，ascending=True 升序，False降序
data[condation]过滤条件
concat拼接

ages = pd.Series([20,24,30,35])
display('获取数据集中 Age 列的所有',ages) 
print('计算 Age 列的平均值：',ages.mean())
print('计算 Age 列的最大值：',ages.max())
print('计算 Age 列的最小值：',ages.min())
print('计算 Age 列的标准差：',ages.std()) 
display('对 Age 进行降序排序：',ages.sort_values(ascending=False))
display('筛选出 Age 大于平均值的数据：',ages[ages>ages.mean()])

ser1=pd.Series([1,2,3],index=list('ABC'))
ser2=pd.Series([4,5,6],index=list('DEF'))
pd.concat([ser1,ser2])

3. DataFrame用法

3.1 DataFrame创建

pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)

参数	描述
`data`	Series的主要数据内容，可以是列表、NumPy数组、字典或其他Series。若为字典，则键作为索引，值作为数据
`index`	可选参数，用于指定Series的索引，默认为从0开始递增的整数型索引。当数据为字典时，可省略此参数；非字典类型数据时，其长度应与`data`中的元素数量相匹配
`dtype`	可选的数据类型，如果指定了该参数，Pandas会尝试将所有数据转换为此类型
`columns`	用于生成结果使用的列标签。如果数据没有列标签，则默认为RangeIndex（0, 1, 2，…，n）。如果数据包含列标签，则将执行列选择。
`copy`	布尔值，默认为False。设置为True时，构造函数将会创建一个新的独立副本而非原始数据的一个视图

使用两个Series构建DataFrame

#series 对象 一个population 一个area
population_dict={'beijing':3000,'guangzhou':1800,'shanghai':1200} 
area_dict={'beijing':300,'shanghai':180,'guangzhou':200}
population_series=pd.Series(population_dict) 
area_series=pd.Series(area_dict) 

citys=pd.DataFrame({'area':area_series,'population':population_series})

在这里插入图片描述

指定 index属性创建

data=pd.DataFrame([area_dict,population_dict],index=['area','population'])

指定列索引columns创建

pd.DataFrame(population_series,area_series,columns=['population','area'])

在这里插入图片描述

使用二维数组创建

#创建一个3行2列的二维矩阵，列索引为a,b 行索引为e,f,g
pd.DataFrame(np.random.randint(0,10,(3,2)),columns=list('ab'),index=list('efg'))

在这里插入图片描述

3.2 DataFrame取值

需要在DataFrame创建的对象中使用括号中指明要选择的列名(多个传递数组),同Series类似其也拥有对应的普通索引(标签索引)、位置索引。

#数据准备
population_dict={'beijing':3000,'guangzhou':1800,'shanghai':1200} 
area_dict={'beijing':300,'shanghai':180,'guangzhou':200}
data=pd.DataFrame([area_dict,population_dict],index=['area','population'])

#取一列
data["beijing"]
#取多列
data[["beijing","shanghai"]]

loc 表示的是普通索引、输入行的名称(series里面叫做标签)
iloc 表示的是位置索引

#准备数据
data=pd.DataFrame(np.arange(12).reshape(3,4),index=list('abc'),columns=list('ABCD'))

#默认获取所有行，只针对列进行选择
print('获取所有行，获取B列，使用普通索引获取：')
print(data.loc[:,'B'])
print('获取所有行，获取B列，使用位置索引获取：')
print(data.iloc[:,1])

print('获取a行，获取B列，使用普通索引获取：')
print(data.loc['a','B'])
print('获取A行，获取B列，使用位置索引获取：')
print(data.iloc[0,1])

# data.loc[${startRow}:${endRow},${startCloumn}:${endCloumn}]
print('获取所有行，获取BCD三列，使用普通索引获取：')
print(data.loc[:,'B':'D'])
print('获取所有行，获取BCD三列，使用位置索引获取：')
print(data.iloc[:,1:4])

#获取指定行、指定列的数据
print('获取ab行且BCD三列，使用普通索引获取：')print(data.loc['a':'b','B':'D'])
print('获取ab行获取BCD三列，使用位置索引获取：')print(data.iloc[0:1,1:4])

3.3 DataFrame相关方法

条件过滤
concat拼接

data=pd.DataFrame({'Name':['zs','lisi','ww'],
'Sno':['1001','1002','1003'],
'Sex':['man','woman','man'],
'Age':[17,18,19],
'Score':[80,97,95]
},columns=['name',Sno','Sex','Age','Score'],index=['zs','lisi','ww'])
display('数据集',data)

#获取指定值
scores=data['Score']
display('输出数据中所有成绩大于平均值的记录',data[scores>scores.mean()])
display('获取成绩大于平均值得所有记录，只显示SnoAgeScore三列：',data[scores>scores.mean()].loc[:,['Sno','Age','Score']])
           
#拼接
df1=pd.DataFrame(np.arange(12).reshape(3,4),index=list('abc'),
                columns=list('ABCD'))
df2=pd.DataFrame(np.arange(12).reshape(3,4),index=list('efg'),
                columns=list('EFGH'))           
pd.concat([df1,df2])

原文地址:https://blog.csdn.net/liushangzaibeijing/article/details/137178942 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1774067565543428096.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部