Python数据分析的基本过程

2024-04-01 14:40:02
开发
17

一般来说，数据分析的基本过程包括以下几个步骤：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1.提出问题——即我们所想要知道的指标（平均消费额、客户的年龄分布、营业额变化趋势等等）

2.导入数据——把原始数据源导入Jupyter Notebook中（网络爬虫、数据读取等）

3.数据清洗——数据清洗是指发现并纠正数据文件中可识别的错误（检查数据一致性，处理无效值和缺失值等）

4.构建模型（高级的模型构建会使用机器学习的算法）

5.数据可视化——matplotib库等

具体的numpy库等基础知识之前的文章已经介绍了：

Numy基础知识分享

Pandas入门基本知识

我们现在来看一个实例——医院药店销售数据分析

原始数据连接：

原始数据预览（部分）：

提出问题：

我们想知道的信息有——月均消费额、月均消费次数、客单价、消费趋势

理解数据：

1.读取Excel数据（路径中最好不要有中文，或者特殊符号啥的，不然路径会提示错误找不到。

最好将文件放到一个简单的英文路径下）

import pandas as pd
fileNameStr='D:\朝阳医院2018年销售数据.xlsx'          #读取Ecxcel数据
xls = pd.ExcelFile(fileNameStr, dtype='object')   
salesDf = xls.parse('Sheet1',dtype='object')

我们可以先查看下数据的基本信息：

salesDf.head()          #打印出前5行，以确保数据运行正常

salesDf.shape           #有多少行，多少列

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

salesDf.dtypes          #查看每列的数据类型

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据清洗：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1.选择子集（本案例不用）：

使用loc方法选择子集

#subSalesDf=salesDf.loc[0:4,'购药时间':'销售数量']

2.列名重命名：

colNameDict = {'购药时间':'销售时间'}                  #将‘购药时间’改为‘销售时间’
salesDf.rename(columns = colNameDict,inplace=True)
salesDf.head()                                       #查看前五行

inplace=False，数据框本身不会变，而会创建一个改动后新的数据框，默认的inplace是False，inplace=True，数据框本身会改动

3.缺失数据处理：

python缺失值有3种：None，NA，NaN

1）Python内置的None值

2）在pandas中，将缺失值表示为NA，表示不可用not available。

3）对于数值数据，pandas使用浮点值NaN（Not a Number）表示缺失数据。

后面出来数据，如果遇到错误：…foloat错误，那就是有缺失值，需要处理掉

print('删除缺失值前大小',salesDf.shape)
salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any') #删除列（销售时间，社保卡号）中为空的行
print('删除缺失后大小',salesDf.shape)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

how='any’意为在给定的任何一列中有缺失值就删除

如果缺失数据太多，我们可以建立模型，使用插入值的方法来补充数据（以后机器学习的文章中介绍）

4.数据类型转换

一开始导入时我们将所有数据都按字符串类型导入的，现在需要将销售数量、应收金额、实收金额的数据类型改为数值类型。

salesDf['销售数量'] = salesDf['销售数量'].astype('float')
salesDf['应收金额'] = salesDf['应收金额'].astype('float')
salesDf['实收金额'] = salesDf['实收金额'].astype('float')
print('转换后的数据类型：\n',salesDf.dtypes)

使用astype（）方法进行类型转换

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们再来修改日期的格式

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用split()方法，用‘ ’分割字符串。返回列表的第一个元素，统一改成年-月-日格式，去掉星期几。

接下来我们分割销售时间，先定义一个分割字符串的函数：

def splitSaletime(timeColSer):
    timeList=[]
    for value in timeColSer:           #例如2018-01-01 星期五，分割后为：2018-01-01
        dateStr=value.split(' ')[0]
        timeList.append(dateStr)
 
    timeSer=pd.Series(timeList)        #将列表转行为一维数据Series类型
    return timeSer

输入：timeColSer——销售时间这一列，是个Series数据类型

输出：分割后的时间，返回也是个Series数据类型

timeSer=salesDf.loc[:,'销售时间']    #获取“销售时间”这一列
dateSer=splitSaletime(timeSer)      #对字符串进行分割，获取销售日期

salesDf.loc[:,'销售时间']=dateSer    #修改销售时间这一列的值
salesDf.head()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

（注意：如果运行后报错：AttributeError: ‘float’ object has no attribute 'split’是因为Excel中的空的cell读入pandas中是空值（NaN），这个NaN是个浮点类型，一般当作空值处理。所以要先去除NaN在进行分隔字符串）

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

5.字符串转换日期

我们使用pd.to_datetime方法来将字符串转换为日期格式。传入的格式是原始数据的日期格式——format='%Y-%m-%d’固定写法：Y表示年、m表示月、d表示日。

salesDf.loc[:,'销售时间']=pd.to_datetime(salesDf.loc[:,'销售时间'],
                                    format='%Y-%m-%d', 
                                    errors='coerce')
salesDf.dtypes

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

errors=‘coerce’：如果原始数据不符合日期的格式，转换后的值为空值NaT

所以转换之后我们还要运行一次删除空值的代码，因为不符合格式的日期被转变为了空值需要删除。

salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')

6.数据排序

使用pd.sort_values方法对数据进行排序，by表示按那几列进行排序，ascending=True 表示升序排列，ascending=False表示降序排列

print('排序前的数据集')
salesDf.head()
salesDf=salesDf.sort_values(by='销售时间',     #按销售日期进行升序排列
                    ascending=True)
print('排序后的数据集')
salesDf.head(3)

接下来我们重命名行号：reset_index方法生成从0到N按顺序的索引值

salesDf=salesDf.reset_index(drop=True)
salesDf.head()

7.异常值处理

首先我们用describe()方法查看数据框中所有数据每列的描述统计信息：

salesDf.describe()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

（count：总数，mean：平均数，std：标准差，min：最小值，25%：下四分位数，50%：中位数，75%：上四分位数，max：最大值）

我们发现最小值出现了小于0的情况，分析应该是记录过程中出现错误所致。

我们接下来删除异常值：通过条件判断筛选出销售数量大于0的数据

#设置查询条件
querySer=salesDf.loc[:,'销售数量']>0
#应用查询条件
print('删除异常值前：',salesDf.shape)
salesDf=salesDf.loc[querySer,:]
print('删除异常值后：',salesDf.shape)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这样，我们就算基本完成数据清洗的步骤了。

构建模型：

第一个指标：月均消费次数=总消费次数/月数

注意：同一天内，同一个人发生的所有消费算作一次消费，根据列名（销售时间，社区卡号），如果这两个列值同时相同，只保留1条，使用drop_duplicates将重复的数据删除

kpi1_Df=salesDf.drop_duplicates(
    subset=['销售时间', '社保卡号']
)

totalI=kpi1_Df.shape[0]             #总消费次数————有多少行

print('总消费次数=',totalI)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

计算月份数我们要知道最早一笔消费的时间和最晚一笔消费的时间：

#第1步：按销售时间升序排序
kpi1_Df=kpi1_Df.sort_values(by='销售时间',
                    ascending=True)
kpi1_Df=kpi1_Df.reset_index(drop=True)     #重命名行名（index）

#第2步：获取时间范围
startTime=kpi1_Df.loc[0,'销售时间']         #最小时间值
endTime=kpi1_Df.loc[totalI-1,'销售时间']    #最大时间值

#第3步：计算月份数
daysI=(endTime-startTime).days             #天数
monthsI=daysI//30                          #月份数: 运算符“//”表示取整除，返回商的整数部分，例如9//2 输出结果是4
print('月份数：',monthsI)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用天数/30计算月份数（舍弃余数）

最终计算月均消费次数=总消费次数 / 月份数

kpi1_I=totalI // monthsI
print('业务指标1：月均消费次数=',kpi1_I)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第二个指标：月均消费金额=总消费金额/月份数

总消费金额等于实收金额取和，用sum函数很快就能得出

totalMoneyF=salesDf.loc[:,'实收金额'].sum()   #总消费金额
monthMoneyF=totalMoneyF / monthsI            #月均消费金额
print('业务指标2：月均消费金额=',monthMoneyF)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第三个指标：客单价=平均交易金额=总消费金额/总消费次数

'''
totalMoneyF：总消费金额
totalI：总消费次数
'''
pct=totalMoneyF / totalI
print('客单价：',pct)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第四个指标：消费趋势

#在进行操作之前，先把数据复制到另一个数据框中，防止对之前清洗后的数据框造成影响
groupDf=salesDf

#第1步：重命名行名（index）为销售时间所在列的值
groupDf.index=groupDf['销售时间']

#第2步：分组
gb=groupDf.groupby(groupDf.index.month)

#第3步：应用函数，计算每个月的消费总额
mounthDf=gb.sum()

mounthDf

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

加下来的部分将用到一些pandas的高级应用知识，连同后面的数据可视化的内容将在接下来的文章中介绍。

关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python！

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（全套教程文末领取）

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

在这里插入图片描述

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末

👉Python70个实战练手案例&源码👈

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错，但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传，朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费】

原文地址:https://blog.csdn.net/Trb201012/article/details/137172238 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1774688152187965440.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部