简述机器学习中常用的一些统计量

阅读一些传统方法(基于SVM)的数字取证方案常常运用到各种统计量,故用该文章记录下。

好的,以下是包括均值(Mean)、方差(Variance)、偏度(Skewness)、峰度(Kurtosis)和能量(Energy)在内的常用统计量及其定义、计算公式和用途:

1. 均值(Mean)

定义:数据集中所有值的总和除以值的个数。

计算公式
μ = 1 N ∑ i = 1 N x i \mu = \frac{1}{N}\sum_{i=1}^{N}x_i μ=N1i=1Nxi
其中, μ \mu μ是均值, N N N是数据点个数, x i x_i xi是第 i i i个数据点。

用途:均值用于衡量数据的中心位置,是最常用的集中趋势测量。

2. 方差(Variance)

定义:数据点与均值之间离差的平方的平均值。

计算公式
σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2 σ2=N1i=1N(xiμ)2
其中, σ 2 \sigma^2 σ2是方差, μ \mu μ是均值, N N N是数据点个数, x i x_i xi是第 i i i个数据点。

用途:方差用于衡量数据的离散程度,反映数据点围绕均值的分布情况。

3. 偏度(Skewness)

定义:衡量数据分布的对称性。正偏度表示数据右偏,负偏度表示数据左偏。

计算公式
S k e w n e s s = 1 N ∑ i = 1 N ( x i − μ ) 3 ( 1 N ∑ i = 1 N ( x i − μ ) 2 ) 3 / 2 Skewness = \frac{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^3}{\left(\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2\right)^{3/2}} Skewness=(N1i=1N(xiμ)2)3/2N1i=1N(xiμ)3

用途:偏度用于描述数据的分布形状,识别分布是否偏离正态分布。

4. 峰度(Kurtosis)

定义:衡量数据分布的尾部厚度。高峰度表示数据有较重的尾部(极值),低峰度表示数据尾部较轻。

计算公式
K u r t o s i s = 1 N ∑ i = 1 N ( x i − μ ) 4 ( 1 N ∑ i = 1 N ( x i − μ ) 2 ) 2 − 3 Kurtosis = \frac{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^4}{\left(\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2\right)^2} - 3 Kurtosis=(N1i=1N(xiμ)2)2N1i=1N(xiμ)43

用途:峰度用于描述数据分布的尖峰程度,识别极端值的存在。

5. 能量(Energy)

定义:信号或数据的能量,通常用于信号处理领域。

计算公式
E n e r g y = ∑ i = 1 N x i 2 Energy = \sum_{i=1}^{N}x_i^2 Energy=i=1Nxi2

用途:能量用于衡量信号的强度,常用于信号分析和处理。

6. 中位数(Median)

定义:数据集的中间值。

计算公式:将数据按从小到大的顺序排列,取中间值(偶数个数时取中间两个数的平均值)。

用途:衡量数据的中心位置,适用于含有异常值的数据集。

7. 众数(Mode)

定义:数据集中出现频率最高的值。

计算公式:找出出现次数最多的数值。

用途:识别数据集中最常见的值,适用于分类数据。

8. 标准差(Standard Deviation)

定义:方差的平方根。

计算公式
σ = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2} σ=N1i=1N(xiμ)2

用途:衡量数据的离散程度,反映数据点围绕均值的分布情况。

9. 四分位数(Quartiles)

定义:将数据集按四等分分成的三个点。

计算公式

  • Q1:数据集25%位置的值。
  • Q2:中位数。
  • Q3:数据集75%位置的值。

用途:描述数据集的分布情况,用于箱线图中识别异常值。

10. 四分位距(Interquartile Range, IQR)

定义:第三四分位数与第一四分位数之间的差值。

计算公式
I Q R = Q 3 − Q 1 IQR = Q3 - Q1 IQR=Q3Q1

用途:衡量数据的变异程度,不受异常值影响。

11. 范围(Range)

定义:数据集中最大值与最小值之间的差值。

计算公式
R a n g e = max ⁡ ( x ) − min ⁡ ( x ) Range = \max(x) - \min(x) Range=max(x)min(x)

用途:衡量数据的整体分布跨度。

12. 变异系数(Coefficient of Variation, CV)

定义:标准差与均值的比值,通常用百分比表示。

计算公式
C V = σ μ × 100 % CV = \frac{\sigma}{\mu} \times 100\% CV=μσ×100%

用途:比较不同数据集的变异程度。

13. 自相关(Autocorrelation)

定义:同一变量在不同时间点上的值之间的相关性。

计算公式(以时滞k为例):
r k = ∑ i = 1 N − k ( x i − x ˉ ) ( x i + k − x ˉ ) ∑ i = 1 N ( x i − x ˉ ) 2 r_k = \frac{\sum_{i=1}^{N-k} (x_i - \bar{x})(x_{i+k} - \bar{x})}{\sum_{i=1}^{N} (x_i - \bar{x})^2} rk=i=1N(xixˉ)2i=1Nk(xixˉ)(xi+kxˉ)

用途:时间序列分析中检测数据的周期性或重复模式。

14. 相关系数(Correlation Coefficient)

定义:衡量两个变量之间线性关系的强度和方向,取值范围为-1到1。

计算公式(皮尔逊相关系数):
r = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 N ( x i − x ˉ ) 2 ∑ i = 1 N ( y i − y ˉ ) 2 r = \frac{\sum_{i=1}^{N}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{N}(x_i - \bar{x})^2 \sum_{i=1}^{N}(y_i - \bar{y})^2}} r=i=1N(xixˉ)2i=1N(yiyˉ)2 i=1N(xixˉ)(yiyˉ)

用途:分析两个变量之间的关系强度和方向。

15. 熵(Entropy)

定义:衡量随机变量不确定性的量度。

计算公式
H ( X ) = − ∑ i = 1 n P ( x i ) log ⁡ P ( x i ) H(X) = -\sum_{i=1}^{n} P(x_i) \log P(x_i) H(X)=i=1nP(xi)logP(xi)

用途:评估数据的随机性或复杂性。

这些统计量在数据分析中起到重要作用,帮助我们理解和解释数据的各种特征。

相关推荐

  1. 简述机器学习常用一些统计

    2024-07-18 07:02:05       23 阅读
  2. 机器学习之样本及统计

    2024-07-18 07:02:05       34 阅读
  3. 机器学习 - PyTorch一些常用用法

    2024-07-18 07:02:05       42 阅读
  4. 深度学习一些常见问题

    2024-07-18 07:02:05       30 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-18 07:02:05       66 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-18 07:02:05       70 阅读
  3. 在Django里面运行非项目文件

    2024-07-18 07:02:05       57 阅读
  4. Python语言-面向对象

    2024-07-18 07:02:05       68 阅读

热门阅读

  1. VSCODE 驯服日记(二)对MPE的格式进行调整

    2024-07-18 07:02:05       21 阅读
  2. 建造者模式例题

    2024-07-18 07:02:05       20 阅读
  3. Electron 配置macOS平台的安装图标

    2024-07-18 07:02:05       22 阅读
  4. jQuery 语法

    2024-07-18 07:02:05       21 阅读
  5. 71、Flink 的 Hybrid Source 详解

    2024-07-18 07:02:05       19 阅读
  6. DLMS协议中的高级安全(HLS)身份验证

    2024-07-18 07:02:05       20 阅读
  7. C++ 士兵队列训练

    2024-07-18 07:02:05       24 阅读
  8. ffmpeg中的超时控制

    2024-07-18 07:02:05       20 阅读