【Pandas驯化-03】Pandas中常用统计函数mean、count、std、info使用

【Pandas驯化-03】Pandas中常用统计函数mean、count、std、info使用
 
本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 相关内容文档获取 微信公众号
🎇 相关内容视频讲解 B站

🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验

🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100%

📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 


下滑查看解决方法

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  

🎯 一、基本介绍

  Pandas中的统计函数是数据分析中不可或缺的工具,它们可以帮助我们快速计算数据集中的描述性统计数据,如均值、中位数、标准差等,可以快速的对数据进行分布分析、异常值分析、数据类型等基本数据统计分析。

💡 二、使用方法

常用函数

  Pandas 提供了很多统计函数,以下是一些常用的:

  • mean(): 计算均值
  • median(): 计算中位数
  • std(): 计算标准差
  • var(): 计算方差
  • sum(): 计算总和
  • min(): 找到最小值
  • max(): 找到最大值
  • count(): 数值的个数
  • info(): 总体数据分布

创建DataFrame

import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Age': [24, 27, 22, 32, 29],
    'Income': [50000, 54000, 35000, 62000, 58000]
}
df = pd.DataFrame(data)
# 计算年龄的均值
mean_age = df['Age'].mean()
print("Mean Age:", mean_age)

# 计算收入的中位数
median_income = df['Income'].median()
print("Median Income:", median_income)

# 计算年龄的标准差
std_age = df['Age'].std()
print("Standard Deviation of Age:", std_age)

# 计算年龄的方差
var_age = df['Age'].var()
print("Variance of Age:", var_age)

# 计算所有人的总收入
total_income = df['Income'].sum()
print("Total Income:", total_income)

# 找到年龄的最大值和最小值
max_age = df['Age'].max()
min_age = df['Age'].min()
print("Max Age:", max_age, "Min Age:", min_age)

  

🔍 三、进阶用法

   当我们想要对整体的数据进行分布的查看时,需要查看各个列是否有缺失值,以及每个列的数据格式是什么样子时,这个时候需要可以通过info函数来获取相关的结果,具体的代码如下所示:

    print(df.info())
    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 5 entries, 0 to 4
    Data columns (total 3 columns):
    #   Column  Non-Null Count  Dtype 
    ---  ------  --------------  ----- 
    0   Name    5 non-null      object
    1   Age     5 non-null      int64 
    2   Income  5 non-null      int64 
    dtypes: int64(2), object(1)
    memory usage: 248.0+ bytes
    None

  从上面的输出结果可以看出来,每个列是否有缺失值,以及每个列中的数据格式是什么样子的。
  

🔍 四、注意事项

  对上述的各个统计函数在使用的过程中需要注意的一些事项,不然可能会出现error,具体主要为:

  • 确保在使用统计函数之前,数据是干净且适合进行统计分析的。
  • 某些统计函数,如 mean() 和 median(),可能会受到异常值的影响。在这种情况下,可能需要先进行数据清洗或转换。
  • 当使用 std() 和 var() 时,要注意它们计算的是样本标准差和方差还是总体标准差和方差。默认情况下,Pandas 计算的是总体标准差和方差(不使用 Bessel’s correction)。

🔧 五、总结

  Pandas 的统计函数是数据分析中的强大工具,它们可以帮助我们快速获取数据的关键信息。通过上述示例,我们可以看到如何使用这些函数来分析数据集。然而,为了得到准确的分析结果,我们需要确保数据的质量,并注意函数的使用条件。希望这篇博客能帮助你更好地利用 Pandas 进行数据分析。

相关推荐

  1. PythonPandas函数及案例详解

    2024-06-16 10:30:04       22 阅读
  2. 人工智能数据分析Python03 pandas

    2024-06-16 10:30:04       12 阅读
  3. 【EXCEL自动化07pandas库实现vlookup函数功能

    2024-06-16 10:30:04       21 阅读
  4. 【Python】pandas.cut()函数

    2024-06-16 10:30:04       11 阅读
  5. pandasmode() 函数的应用

    2024-06-16 10:30:04       18 阅读
  6. pandasapply() 函数的应用

    2024-06-16 10:30:04       11 阅读
  7. pandas

    2024-06-16 10:30:04       18 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-16 10:30:04       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-16 10:30:04       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-16 10:30:04       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-16 10:30:04       20 阅读

热门阅读

  1. Android Service学习笔记

    2024-06-16 10:30:04       9 阅读
  2. Oracle中如何定义定时器

    2024-06-16 10:30:04       8 阅读
  3. 实战tcpdump4.99.4交叉编译

    2024-06-16 10:30:04       8 阅读
  4. Python 学习 第二册 第11章 文件

    2024-06-16 10:30:04       7 阅读
  5. 高速缓冲存储器【易忘】

    2024-06-16 10:30:04       7 阅读
  6. Emacs Verilog mode 使用指南

    2024-06-16 10:30:04       10 阅读
  7. 广东工业大学上岸经验分享!

    2024-06-16 10:30:04       7 阅读
  8. Memcached介绍和详解

    2024-06-16 10:30:04       8 阅读
  9. AI大模型会让搜索引擎成为历史吗?

    2024-06-16 10:30:04       9 阅读
  10. 【C++ COM组件 运用ATL工程创建和调用COM组件】

    2024-06-16 10:30:04       5 阅读
  11. 记录.偏僻冷知识

    2024-06-16 10:30:04       7 阅读
  12. ssh免密登录

    2024-06-16 10:30:04       8 阅读