【Pandas驯化-03】Pandas中常用统计函数mean、count、std、info使用

2024-06-16 10:30:04
开发
8

【Pandas驯化-03】Pandas中常用统计函数mean、count、std、info使用

本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合，智慧小天地！
🎇 相关内容文档获取微信公众号
🎇 相关内容视频讲解 B站

🎓 博主简介：AI算法驯化师，混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+，熟练掌握机器、深度学习等各类应用算法原理和项目实战经验。

🔧 技术专长：在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务，助力多位小伙伴在学习、求职、工作上少走弯路、提高效率，近一年好评率100% 。

📝 博客风采：积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

下滑查看解决方法

🎯 一、基本介绍

Pandas中的统计函数是数据分析中不可或缺的工具，它们可以帮助我们快速计算数据集中的描述性统计数据，如均值、中位数、标准差等，可以快速的对数据进行分布分析、异常值分析、数据类型等基本数据统计分析。

💡 二、使用方法

常用函数

Pandas 提供了很多统计函数，以下是一些常用的：

mean(): 计算均值
median(): 计算中位数
std(): 计算标准差
var(): 计算方差
sum(): 计算总和
min(): 找到最小值
max(): 找到最大值
count(): 数值的个数
info(): 总体数据分布

创建DataFrame

import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Age': [24, 27, 22, 32, 29],
    'Income': [50000, 54000, 35000, 62000, 58000]
}
df = pd.DataFrame(data)
# 计算年龄的均值
mean_age = df['Age'].mean()
print("Mean Age:", mean_age)

# 计算收入的中位数
median_income = df['Income'].median()
print("Median Income:", median_income)

# 计算年龄的标准差
std_age = df['Age'].std()
print("Standard Deviation of Age:", std_age)

# 计算年龄的方差
var_age = df['Age'].var()
print("Variance of Age:", var_age)

# 计算所有人的总收入
total_income = df['Income'].sum()
print("Total Income:", total_income)

# 找到年龄的最大值和最小值
max_age = df['Age'].max()
min_age = df['Age'].min()
print("Max Age:", max_age, "Min Age:", min_age)

🔍 三、进阶用法

当我们想要对整体的数据进行分布的查看时，需要查看各个列是否有缺失值，以及每个列的数据格式是什么样子时，这个时候需要可以通过info函数来获取相关的结果，具体的代码如下所示：

    print(df.info())
    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 5 entries, 0 to 4
    Data columns (total 3 columns):
    #   Column  Non-Null Count  Dtype 
    ---  ------  --------------  ----- 
    0   Name    5 non-null      object
    1   Age     5 non-null      int64 
    2   Income  5 non-null      int64 
    dtypes: int64(2), object(1)
    memory usage: 248.0+ bytes
    None

从上面的输出结果可以看出来，每个列是否有缺失值，以及每个列中的数据格式是什么样子的。

🔍 四、注意事项

对上述的各个统计函数在使用的过程中需要注意的一些事项，不然可能会出现error，具体主要为：

确保在使用统计函数之前，数据是干净且适合进行统计分析的。
某些统计函数，如 mean() 和 median()，可能会受到异常值的影响。在这种情况下，可能需要先进行数据清洗或转换。
当使用 std() 和 var() 时，要注意它们计算的是样本标准差和方差还是总体标准差和方差。默认情况下，Pandas 计算的是总体标准差和方差（不使用 Bessel’s correction）。

🔧 五、总结

Pandas 的统计函数是数据分析中的强大工具，它们可以帮助我们快速获取数据的关键信息。通过上述示例，我们可以看到如何使用这些函数来分析数据集。然而，为了得到准确的分析结果，我们需要确保数据的质量，并注意函数的使用条件。希望这篇博客能帮助你更好地利用 Pandas 进行数据分析。

原文地址:https://blog.csdn.net/lov1993/article/details/139706264 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1802166721621135360.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部