数据分析------统计学知识点(二)

一、数据分布是什么?

1.指数分布

描述了事件发生的时间间隔的概率分布。当一个事件发生的概率与时间无关,且事件之间相互独立时,事件的发生服从指数分布。

(2)指数分布典型案例

呼叫中心的来电间隔时间,设备的无故障工作时间,放射性元素的衰变时间

与指数分布相关的著名的二八法则/帕累托法则,它描述了一种关键少数和无关多数的现象。

例如:一个企业80%的利润可能来自于20%的顾客,80%的财富被20%的人口所拥有,20%的员工可能完成80%的工作。

在市场营销、质量管理、人力资源管理多用二八法则。

2.正态分布/高斯分布

特点:其概率密度函数呈现钟形曲线/高斯曲线,关于均值对称,曲线下总面积为1,曲线形状由均值μ和标准差σ决定。均值决定了曲线位置,标准差决定了曲线形状。σ越大,曲线越矮胖;越小曲线越高瘦。

集中趋势:正态分布中,数据集中分布在均值附近。距离均值越远,数据出现的概率越小。

经验法则:约68%的数据包含于区间(μ-σ,μ+σ)

                  约95%的数据包含于区间(μ-2σ,μ+2σ)

                  约99.7%的数据包含于区间(μ-3σ,μ+3σ)

独立性和可加性:多个相互独立的正态分布变量之和仍然服从正态分布,且新的均值和方差分别是原均值之和、原方差之和。

中心极限定理:当样本量足够大时(通常>30),来自任意总体的样本均值近似地服从正态分布,且样本均值等于总体均值,方差等于总体方差除以样本量。

(2)应用例子:

①人的身高体重:成年人的身高体重通常服从正态分布,可用于设计合适的服装尺码、评估儿童的生长发育情况

②考试成绩:大规模考试的分数分布往往接近正态分布,可合理设置评分标准,鉴别考试的区分度。

③产品质量:产品的尺寸误差、强度等质量指标通常服从正态分布,利用过程能力指数等工具,可监控生产过程,确保产品质量稳定。

④金融风险:股票收益率通常近似服从正态分布,金融工程中,正态分布是期权定价,风险度量的基础。

⑤测量误差:重复测量下,测量误差往往服从正态分布,利用最大似然估计等方法,可校正测量误差,提高精度。

3.拉普拉斯分布/双指数分布

(1)拉普拉斯分布古关于位置参数μ对称,概率密度在μ处达到最大值1/2b,b为尺度参数。

与正态分布相比,拉普拉斯分布的峰更尖,尾部更厚,这意味着拉普拉斯分布更容易出现异常值或极端事件。

(2)无偏估计

拉普拉斯分布:样本中位数是μ的无偏估计,样本绝对偏差的均值是b的无偏估计。无偏性是评价估计量优劣的重要标准,这一性质使拉普拉斯分布在鲁棒统计中备受青睐。

即使数据受到污染或含有异常值,基于中位数和绝对误差的估计也稳健可靠。

(3)尾部特性

相比正态分布,其尾部更厚,下降更缓慢。

尾部分布意味着极端事件发生的概率更大,风险管理需要更谨慎。

(4)应用举例

①误差分析:测量和实验中,误差分布有时服从拉普拉斯分布,用拉普拉斯分布刻画误差,可提高参数估计和假设检验的效率。

②图像处理:在去噪、特征提取等任务中,假设噪声服从该分布,可得更稳健的滤波器和算法。如:拉普拉斯先验构建正则化项,可以更好地保持图像边缘和纹理。

③金融风险:在金融时间序列如股票收益率、汇率变动中,往往存在尖峰厚尾现象,用拉普拉斯分布刻画风险因子,可以更准确地度量和控制极端风险,如计算在险价值(VaR)等。

4.左偏右偏分布

偏离分布中心的程度在左右两侧不同,称为偏态分布/偏分布。

(1)左偏分布/负偏分布

指数据大部分值集中在右侧,左侧尾部更长。均值通常小于中位数,分布的峰值点位于中位数右侧。典型左偏分布:

①指数分布:描述事件发生的时间间隔,如设备的无故障工作时间。

②泊松分布:描述一定时间内随机事件发生的次数。如每小时顾客到达数。

③对数正态分布:描述乘积因子主导的过程,如个人收入、城市人口等。

(2)右偏分布/正偏分布

指数据的大部分集中在左侧,而右侧的尾部更长,均值通常大于中位数,分布的峰值点位于中位数左侧。典型的右侧分布:

①帕累托分布:描述社会财富分配的不平等性,也称巴拉巴西-阿尔伯特分布

②威布尔分布:描述事件的等待时间,如器件的寿命、降雨量等

③F分布、卡方分布:多用于方差分析、假设检验等统计推断场合

(3)偏度系数

为了定量描述分布的偏态程度,引入偏度系数。偏度系数通过测量均值与中位数的偏离程度来反映分布的不对称性,常见的偏度系数有:

①皮尔逊偏度系数:(均值-众数)/标准差,适用于单峰分布

②矩偏度系数:用分布的三阶中心矩除以标准差的三次方,称为标准化的三阶矩

③中位数-均值差:用(中位数-均值)/标准差来度量,简单易懂

偏度系数为正,表右偏分布;为负,表左偏分布;为0表对称分布。偏度系数的绝对值越大,分布的偏态程度越严重。

(4)应用举例

①收入分布:个人收入分布往往呈现右偏特征,少数人占据了大部分财富,了解收入分布的偏态性,有助于制定合理的税收政策和社会保障制度。

②股票收入:股票日收益率常呈左偏分布,投资者面临的下行风险大于上行风险。风险管理中要充分考虑收益分布的负偏态,控制投资组合的下行风险。

③网络流量:互联网流量如视频点击量、用户访问量常服从长尾分布,表现为右偏特征,挖掘长尾需求,优化资源配置,是互联网企业的重要课题。

5.长尾分布

(1)反映了一种“重要的少数和不重要的多数共存”的现象,同正态分布相比,长尾分布尾部更加肥厚。少数事件概率虽低,但它的累积概率不容忽视。

互联网和电子商务的崛起让长尾现象更普遍

传统书店受制于门店面积,只能销售最畅销的几十种图书,但网上书店不受此限制,通过销售大量非畅销书获得可观利润,这为“长尾效应”。

(2)其他常见分布:

均匀分布描述了随机变量在一个区间内等可能地取任何值的情况,如抛骰子的次数。

泊松分布描述了一定时间内随机事件发生的次数的概率,如一个小时内到达店铺的人数

二项分布描述了n次独立重复实验中成功次数的概率,如抛10次硬币正面朝上的次数。

(3)互联网行业的数据分析应用

数据分析广泛应用于用户行为分析、产品优化、精准营销等,常见:

①用户在线时长服从指数分布,根据二八法则,可重点关注高活跃用户,提供差异化的服务。

②用户年龄、消费金额等服从正态分布或对数正态分布,可利用这些数据划分用户群体制定个性化推荐和营销策略。

③视频网站中不同视频的访问量服从长尾分布,要重视挖掘长尾内容的价值,优化长尾内容的推荐和分发机制。

相关推荐

  1. 数据分析------统计学知识

    2024-06-08 12:26:05       8 阅读
  2. 数据分析------统计学知识(三)

    2024-06-08 12:26:05       6 阅读
  3. 数据分析------统计学知识(一)

    2024-06-08 12:26:05       9 阅读
  4. 数据分析------统计学知识(四)

    2024-06-08 12:26:05       12 阅读
  5. 数据分析------统计学知识(五)

    2024-06-08 12:26:05       7 阅读
  6. 数据分析------知识(六)

    2024-06-08 12:26:05       5 阅读
  7. 数组知识

    2024-06-08 12:26:05       8 阅读
  8. 数据分析业务知识:口径

    2024-06-08 12:26:05       12 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-08 12:26:05       17 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-08 12:26:05       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-08 12:26:05       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-08 12:26:05       18 阅读

热门阅读

  1. 用ansible部署k8s --- kubespray源码详解(一)

    2024-06-08 12:26:05       6 阅读
  2. websocket 前端项目js示例

    2024-06-08 12:26:05       8 阅读
  3. Vue Router——hash模式和 history模式

    2024-06-08 12:26:05       10 阅读
  4. Elasticsearch 认证模拟题 - 10

    2024-06-08 12:26:05       10 阅读
  5. TCP和udp能使用同一个端口通讯吗

    2024-06-08 12:26:05       8 阅读
  6. 设计模式总结

    2024-06-08 12:26:05       6 阅读
  7. UVa1116/LA2429 Puzzle

    2024-06-08 12:26:05       5 阅读