文章目录
一、Series介绍
import pandas as pd
1.性质:
Series是Pandas中两种数据结构之一,可以看作是可自定义索引名称(标签)的一维数组,是构建数据框(
DataFrame
)的基本组成部分。大小不变性:类似String不可修改,append、del、drop等均为创建新的Series对象
缺失数据类型:用 NaN(Not a Number)来表示缺失或无值
二、Series的参数
1.六个可选参数:
pd.Series(data=None,index=None,dtype=None,name=None,copy=False,fastpath=False)
2.参数解释:
data: 可以是各种数据类型,比如字典、列表、NumPy数组或标量值。
- 字典:键值对将转换为索引和值。
- 列表或数组:将转换为一维数组。
- 标量值:将被重复,以适应索引的长度。
index: 可选参数,用于指定Series的索引。如果没有提供,默认索引为从0到N-1(N为数据长度)的整数索引。
- 注意:如果
data
是字典,index
参数将覆盖字典的键。
- 注意:如果
dtype: 数据类型,指定Series中元素的数据类型。如果没有指定,Pandas将会根据传入的数据自动推断。
name: 可选参数,给Series命名,可以在后续的操作中使用这个名字。
copy: 布尔值,默认为False。是否复制数据。如果是True,则总是复制数据(即使数据已经是所需的类型)。
fastpath: 内部参数,默认为False。这个参数不建议用户使用,是Pandas内部优化的一部分。
三、Series的常见方法与属性
import pandas as pd
data = [10, 20, 30, 40]
index = ['a', 'b', 'c', 'd']
s = pd.Series(data, index=index)
增删查改
# 删除
del s['a']
s=s.drop(['a'])
# 增加
s['e'] = 50
# 查找
s['a']
统计方法
- sum():计算
Series
的总和。 - mean():计算
Series
的平均值。 - median():计算
Series
的中位数。 - mode():计算
Series
的众数。 - std():计算
Series
的标准差。 - min():返回
Series
的最小值。 - max():返回
Series
的最大值。 - count():返回
Series
中非空元素的数量。 - describe():生成描述性统计信息。
Series
的属性
- index:返回
Series
的索引。 - values:返回
Series
的值。 - name:返回
Series
的名称。 - dtype:返回
Series
的数据类型。 - size:返回
Series
的大小(元素的数量)。 - shape:返回
Series
的形状(通常是单一维度)。 - is_unique:如果
Series
中的元素是唯一的,返回True
。 - is_monotonic:如果
Series
中的值是单调递增的,返回True
。 - empty:如果
Series
为空,返回True
。
数据操作
- head(n):返回
Series
的前n
个元素。 - tail(n):返回
Series
的后n
个元素。 - append(series):将另一个
Series
对象添加到当前Series
末尾。 - drop(labels):删除指定索引或索引列表的元素。
- sort_values():根据值排序
Series
。 - sort_index():根据索引排序
Series
。 - apply(func):将函数
func
应用于Series
的每个元素。
数据索引和选择
- loc:基于标签进行索引和选择。
- iloc:基于整数位置进行索引和选择。
- at:基于标签进行快速标量访问。
- iat:基于整数位置进行快速标量访问。
loc
:基于标签进行索引和选择
located定位
loc
方法用于通过标签(索引名称)来选择数据。这种方法允许你通过标签来选择行和列。
示例:
import pandas as pd
# 创建一个带有自定义索引的Series
data = [10, 20, 30, 40]
index = ['a', 'b', 'c', 'd']
s = pd.Series(data, index=index)
# 通过标签选择单个元素
print(s.loc['b']) # 输出:20
# 通过标签选择多个元素
print(s.loc[['a', 'c']]) # 输出:a 10
# c 30
# dtype: int64
iloc
:基于整数位置进行索引和选择
int located 基于整数定位
iloc
方法用于通过整数位置来选择数据。这种方法允许你通过位置来选择行和列。
示例:
# 通过整数位置选择单个元素
print(s.iloc[1]) # 输出:20
# 通过整数位置选择多个元素
print(s.iloc[[0, 2]]) # 输出:a 10
# c 30
# dtype: int64
at
:基于标签进行快速标量访问
at
方法用于通过标签快速访问单个元素。这种方法类似于 loc
,但只用于访问单个元素,效率更高。
示例:
# 快速访问单个元素
print(s.at['b']) # 输出:20
iat
:基于整数位置进行快速标量访问
iat
方法用于通过整数位置快速访问单个元素。这种方法类似于 iloc
,但只用于访问单个元素,效率更高。
示例:
# 快速访问单个元素
print(s.iat[1]) # 输出:20