简述机器学习中常用的一些统计量

2024-07-18 07:02:05
开发
22

阅读一些传统方法(基于SVM)的数字取证方案常常运用到各种统计量，故用该文章记录下。

好的，以下是包括均值（Mean）、方差（Variance）、偏度（Skewness）、峰度（Kurtosis）和能量（Energy）在内的常用统计量及其定义、计算公式和用途：

1. 均值（Mean）

定义：数据集中所有值的总和除以值的个数。

计算公式：
$\mu = \frac{1}{N}\sum_{i=1}^{N}x_i$
其中， $\mu$ 是均值， $N$ 是数据点个数， $x_i$ 是第 $i$ 个数据点。

用途：均值用于衡量数据的中心位置，是最常用的集中趋势测量。

2. 方差（Variance）

定义：数据点与均值之间离差的平方的平均值。

计算公式：
$\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2$
其中， $\sigma^2$ 是方差， $\mu$ 是均值， $N$ 是数据点个数， $x_i$ 是第 $i$ 个数据点。

用途：方差用于衡量数据的离散程度，反映数据点围绕均值的分布情况。

3. 偏度（Skewness）

定义：衡量数据分布的对称性。正偏度表示数据右偏，负偏度表示数据左偏。

计算公式：
$\frac{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^3}{\left(\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2\right)^{3/2}}$

用途：偏度用于描述数据的分布形状，识别分布是否偏离正态分布。

4. 峰度（Kurtosis）

定义：衡量数据分布的尾部厚度。高峰度表示数据有较重的尾部（极值），低峰度表示数据尾部较轻。

计算公式：
$\frac{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^4}{\left(\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2\right)^2} - 3$

用途：峰度用于描述数据分布的尖峰程度，识别极端值的存在。

5. 能量（Energy）

定义：信号或数据的能量，通常用于信号处理领域。

计算公式：
$\sum_{i=1}^{N}x_i^2$

用途：能量用于衡量信号的强度，常用于信号分析和处理。

6. 中位数（Median）

定义：数据集的中间值。

计算公式：将数据按从小到大的顺序排列，取中间值（偶数个数时取中间两个数的平均值）。

用途：衡量数据的中心位置，适用于含有异常值的数据集。

7. 众数（Mode）

定义：数据集中出现频率最高的值。

计算公式：找出出现次数最多的数值。

用途：识别数据集中最常见的值，适用于分类数据。

8. 标准差（Standard Deviation）

定义：方差的平方根。

计算公式：
$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2}$

用途：衡量数据的离散程度，反映数据点围绕均值的分布情况。

9. 四分位数（Quartiles）

定义：将数据集按四等分分成的三个点。

计算公式：

Q1：数据集25%位置的值。
Q2：中位数。
Q3：数据集75%位置的值。

用途：描述数据集的分布情况，用于箱线图中识别异常值。

10. 四分位距（Interquartile Range, IQR）

定义：第三四分位数与第一四分位数之间的差值。

计算公式：
$I QR = Q 3 - Q 1$

用途：衡量数据的变异程度，不受异常值影响。

11. 范围（Range）

定义：数据集中最大值与最小值之间的差值。

计算公式：
$\max(x) - \min(x)$

用途：衡量数据的整体分布跨度。

12. 变异系数（Coefficient of Variation, CV）

定义：标准差与均值的比值，通常用百分比表示。

计算公式：
$\frac{\sigma}{\mu} \times 100\%$

用途：比较不同数据集的变异程度。

13. 自相关（Autocorrelation）

定义：同一变量在不同时间点上的值之间的相关性。

计算公式（以时滞k为例）：
$r_k = \frac{\sum_{i=1}^{N-k} (x_i - \bar{x})(x_{i+k} - \bar{x})}{\sum_{i=1}^{N} (x_i - \bar{x})^2}$

用途：时间序列分析中检测数据的周期性或重复模式。

14. 相关系数（Correlation Coefficient）

定义：衡量两个变量之间线性关系的强度和方向，取值范围为-1到1。

计算公式（皮尔逊相关系数）：
$\frac{\sum_{i=1}^{N}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{N}(x_i - \bar{x})^2 \sum_{i=1}^{N}(y_i - \bar{y})^2}}$

用途：分析两个变量之间的关系强度和方向。

15. 熵（Entropy）

定义：衡量随机变量不确定性的量度。

计算公式：
$-\sum_{i=1}^{n} P(x_i) \log P(x_i)$

用途：评估数据的随机性或复杂性。

这些统计量在数据分析中起到重要作用，帮助我们理解和解释数据的各种特征。

原文地址:https://blog.csdn.net/qq_39969848/article/details/140486590 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1813710791946407936.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部