阅读一些传统方法(基于SVM)的数字取证方案常常运用到各种统计量,故用该文章记录下。
好的,以下是包括均值(Mean)、方差(Variance)、偏度(Skewness)、峰度(Kurtosis)和能量(Energy)在内的常用统计量及其定义、计算公式和用途:
1. 均值(Mean)
定义:数据集中所有值的总和除以值的个数。
计算公式:
μ = 1 N ∑ i = 1 N x i \mu = \frac{1}{N}\sum_{i=1}^{N}x_i μ=N1i=1∑Nxi
其中, μ \mu μ是均值, N N N是数据点个数, x i x_i xi是第 i i i个数据点。
用途:均值用于衡量数据的中心位置,是最常用的集中趋势测量。
2. 方差(Variance)
定义:数据点与均值之间离差的平方的平均值。
计算公式:
σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2 σ2=N1i=1∑N(xi−μ)2
其中, σ 2 \sigma^2 σ2是方差, μ \mu μ是均值, N N N是数据点个数, x i x_i xi是第 i i i个数据点。
用途:方差用于衡量数据的离散程度,反映数据点围绕均值的分布情况。
3. 偏度(Skewness)
定义:衡量数据分布的对称性。正偏度表示数据右偏,负偏度表示数据左偏。
计算公式:
S k e w n e s s = 1 N ∑ i = 1 N ( x i − μ ) 3 ( 1 N ∑ i = 1 N ( x i − μ ) 2 ) 3 / 2 Skewness = \frac{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^3}{\left(\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2\right)^{3/2}} Skewness=(N1∑i=1N(xi−μ)2)3/2N1∑i=1N(xi−μ)3
用途:偏度用于描述数据的分布形状,识别分布是否偏离正态分布。
4. 峰度(Kurtosis)
定义:衡量数据分布的尾部厚度。高峰度表示数据有较重的尾部(极值),低峰度表示数据尾部较轻。
计算公式:
K u r t o s i s = 1 N ∑ i = 1 N ( x i − μ ) 4 ( 1 N ∑ i = 1 N ( x i − μ ) 2 ) 2 − 3 Kurtosis = \frac{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^4}{\left(\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2\right)^2} - 3 Kurtosis=(N1∑i=1N(xi−μ)2)2N1∑i=1N(xi−μ)4−3
用途:峰度用于描述数据分布的尖峰程度,识别极端值的存在。
5. 能量(Energy)
定义:信号或数据的能量,通常用于信号处理领域。
计算公式:
E n e r g y = ∑ i = 1 N x i 2 Energy = \sum_{i=1}^{N}x_i^2 Energy=i=1∑Nxi2
用途:能量用于衡量信号的强度,常用于信号分析和处理。
6. 中位数(Median)
定义:数据集的中间值。
计算公式:将数据按从小到大的顺序排列,取中间值(偶数个数时取中间两个数的平均值)。
用途:衡量数据的中心位置,适用于含有异常值的数据集。
7. 众数(Mode)
定义:数据集中出现频率最高的值。
计算公式:找出出现次数最多的数值。
用途:识别数据集中最常见的值,适用于分类数据。
8. 标准差(Standard Deviation)
定义:方差的平方根。
计算公式:
σ = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2} σ=N1i=1∑N(xi−μ)2
用途:衡量数据的离散程度,反映数据点围绕均值的分布情况。
9. 四分位数(Quartiles)
定义:将数据集按四等分分成的三个点。
计算公式:
- Q1:数据集25%位置的值。
- Q2:中位数。
- Q3:数据集75%位置的值。
用途:描述数据集的分布情况,用于箱线图中识别异常值。
10. 四分位距(Interquartile Range, IQR)
定义:第三四分位数与第一四分位数之间的差值。
计算公式:
I Q R = Q 3 − Q 1 IQR = Q3 - Q1 IQR=Q3−Q1
用途:衡量数据的变异程度,不受异常值影响。
11. 范围(Range)
定义:数据集中最大值与最小值之间的差值。
计算公式:
R a n g e = max ( x ) − min ( x ) Range = \max(x) - \min(x) Range=max(x)−min(x)
用途:衡量数据的整体分布跨度。
12. 变异系数(Coefficient of Variation, CV)
定义:标准差与均值的比值,通常用百分比表示。
计算公式:
C V = σ μ × 100 % CV = \frac{\sigma}{\mu} \times 100\% CV=μσ×100%
用途:比较不同数据集的变异程度。
13. 自相关(Autocorrelation)
定义:同一变量在不同时间点上的值之间的相关性。
计算公式(以时滞k为例):
r k = ∑ i = 1 N − k ( x i − x ˉ ) ( x i + k − x ˉ ) ∑ i = 1 N ( x i − x ˉ ) 2 r_k = \frac{\sum_{i=1}^{N-k} (x_i - \bar{x})(x_{i+k} - \bar{x})}{\sum_{i=1}^{N} (x_i - \bar{x})^2} rk=∑i=1N(xi−xˉ)2∑i=1N−k(xi−xˉ)(xi+k−xˉ)
用途:时间序列分析中检测数据的周期性或重复模式。
14. 相关系数(Correlation Coefficient)
定义:衡量两个变量之间线性关系的强度和方向,取值范围为-1到1。
计算公式(皮尔逊相关系数):
r = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 N ( x i − x ˉ ) 2 ∑ i = 1 N ( y i − y ˉ ) 2 r = \frac{\sum_{i=1}^{N}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{N}(x_i - \bar{x})^2 \sum_{i=1}^{N}(y_i - \bar{y})^2}} r=∑i=1N(xi−xˉ)2∑i=1N(yi−yˉ)2∑i=1N(xi−xˉ)(yi−yˉ)
用途:分析两个变量之间的关系强度和方向。
15. 熵(Entropy)
定义:衡量随机变量不确定性的量度。
计算公式:
H ( X ) = − ∑ i = 1 n P ( x i ) log P ( x i ) H(X) = -\sum_{i=1}^{n} P(x_i) \log P(x_i) H(X)=−i=1∑nP(xi)logP(xi)
用途:评估数据的随机性或复杂性。
这些统计量在数据分析中起到重要作用,帮助我们理解和解释数据的各种特征。