3.2 数据基础分析指标_电影产业数据挖掘-QQ阅读短篇女生网

上QQ阅读APP看书，第一时间看更新

3.2　数据基础分析指标

描述性指标分析主要是对电影产业数据进行基础性描述，主要用于描述变量的基本特征。通过对电影产业数据的基础性描述，可以对变量变化的综合特征进行全面的了解[1]。数据的基础性表示可以分为数据的集中趋势分析、离散程度分析及分布形态分析等，具体如图3.4所示。

图3.4　描述性统计指标

3.2.1　集中趋势指标

1．平均数

平均数[1]可以分为算术平均数、调和平均数和几何平均数3种。

1）算术平均数

算术平均数是最常用的数据集中趋势指标，表示数据集合的集中趋势。它是将总体标志总量除以总体单位总量而得到的均值。算术平均数的基本式是

算术平均数=总体标志总量／总体单位总量

算术平均数有简单算术平均数和加权算术平均数两种。

（1）简单算术平均数是将总体各单位每一个标志值加总得到的标志总量除以单位总量求出的平均指标。对于数据集合{X₁，X₂，…，X_n}，简单算术平均数计算方法为

（2）加权算术平均数首先用各组的标志值乘以相应的各组单位数求出各组标志总量，并加总求得总体标志总量，而后再将总体标志总量和总体单位总量对比。对于数据集合{X₁，X₂，…，X_n}，加权算术平均数计算方法为

其中f表示各组的权数。

2）调和平均数

调和平均数又称倒数平均数，是总体各统计变量倒数的算术平均数的倒数。调和平均数是平均数的一种。但统计调和平均数，与数学调和平均数不同，它是变量倒数的算术平均数的倒数。由于它是根据变量的倒数计算的，所以又称倒数平均数。调和平均数也有简单调和平均数和加权调和平均数两种。

（1）简单调和平均数是算术平均数的变形。对于数据集合{X₁，X₂，…，X_n}，简单调和平均数计算方法为

（2）加权调和平均数是加权算术平均数的变形。它与加权算术平均数在实质上是相同的，仅有形式上的区别，即表现为变量对称的区别、权数对称的区别和计算位置对称的区别。对于数据集合{X₁，X₂，…，X_n}，加权调和平均数计算方法为

其中f表示各组的权数。

3）几何平均数

几何平均数是对各变量值的连乘积项开数次方。求几何平均数的方法叫做几何平均法。如果总水平、总成果等于所有阶段、所有环节水平、成果的连乘积总和时，求各阶段、各环节的一般水平、一般成果，要使用几何平均法计算几何平均数，而不能使用算术平均法计算算术平均数。几何平均数也分为简单几何平均数和加权几何平均数两种形式。

（1）对于数据集合{X₁，X₂，…，X_n}，简单几何平均数计算方法为

（2）对于数据集合{X₁，X₂，…，X_n}，加权几何平均数计算方法为

其中f表示各组的权数。

2．中位数

对于数据集合{X₁，X₂，…，X_n}，将所有的数值按照降序或升序排序。首先确定中位数的位置，用式确定；然后根据中位数位置确定中位数。有两种情况：当n为奇数项时，则中位数为中间位置的数值；当n为偶数项时，则中位数是位于中间位置的两个数值的算数平均值。

3．众数

数据集合中出现次数最多的数值被称为众数。如果一个数据集合中，只有一个数值出现最多，那么这个数值就是该数据集合的众数。众数表示数据集合的数据集中趋势。

3.2.2　离散趋势指标

离散趋势指标可以与集中趋势指标互补，展示数据集合的离散情况。在同类离散指标的比较中，离散指标的数值越小，说明数据集合的波动程度越小；离散指标的数值越大，说明数据集合的波动程度越大[2]。

描述数据离散趋势的指标分为：极差、方差、标准差、变异系数、分位数、异众比率等。

1．方差与标准差

方差是总体各单位变量值与其算术平均数的离差平方的算术平均数，用σ₂表示，方差的平方根就是标准差σ。与方差不同的是，标准差是具有量纲的，它与变量值的计量单位相同，其实际意义要比方差清楚。因此，在对社会经济现象进行分析时，往往更多地使用标准差。

方差和标准差的计算有两种形式：简单平均式和加权平均式。

（1）对于数据集合{X₁，X₂，…，X_n}，简单平均式计算方差和标准差方法如下

（2）对于数据集合{X₁，X₂，…，X_n}，加权平均式计算方差和标准差方法如下

2．最大值

最大值是指数据集合中取值最大的数据。

3．最小值

最小值是指数据集合中取值最小的数据。

4．极差

极差又被称为全距，是指数据集合中最大值与最小值的差值，表示整个数据集合能够覆盖的数值距离（范围）。对于数据集合{X_min，X₂，…，X_max}，计算极差的方法为

5．变异系数

变异系数又称离散系数，主要用于比较不同样本数据的离散程度。变异系数大，说明数据的离散程度也大；变异系数小，说明数据的离散程度也小。对于数据集合{X₁，X₂，…，X_n}，变异系数计算方法为

6．分位数

分位数又称分位点，是指将一个随机变量的概率分布范围分为几个等份的数值点，常用的有中位数（即二分位数）、四分位数、百分位数等。

四分位数，即把所有数值由小到大排列并分成四等份，处于3个分割点位置的数值就时四分位数。

（1）第一四分位数，又称为较小四分位数，等于该样本所有数值由小到大排列后第25%位置的数字；

（2）第二四份位数，又称为中位数，等于该样本所有数值由小到大排列后第50%位置的数字；

（3）第三四份位数，又称为较大四份位数，等于该样本所有数值由小到大排列后第75%的数字。

7．四分位差

四分位差为第一四份位数和第三四份位数的差值，这个差值区间包含了整个数据集合50%的数据值。

8．异众比率

异众比率[3]指的是总体中非众数次数与总体全部次数之比。即，异众比率指非众数组的频数占总频数的比例。对于数据集合{X₁，X₂，…，X_n}，异众比率计算方法为

其中，为变量值总频数；f_m为众数组的频数；m表示数组的数量。

3.2.3　分布形态指标

1．偏度

偏度也称为偏态、偏态系数，是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。偏度表征概率分布密度曲线相对于平均值不对称程度的特征数。

偏度是由统计学家皮尔逊（Pearson）于1895年首次提出，是数据分布偏斜程度的测度。对于数据集合{X₁，X₂，…，X_n}，偏态系数计算方法为

偏度具有如下特点：

（1）偏度=0为对称分布；

（2）偏度>0为右偏分布；

（3）偏度<0为左偏分布；

（4）偏度大于1或小于-1，被称为高度偏态分布；

（5）偏度在0.5～1或-1～-0.5之间，被认为是中等偏态分布；

（6）偏度越接近0，偏斜程度就越低。

2．峰度

峰度又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。峰度衡量实数随机变量概率分布的峰态。

峰度是由统计学家Pearson于1905年首次提出，用于衡量数据分布扁平程度的测度。对于数据集合{X₁，X₂，…，X_n}，偏态系数计算方法为

峰态系数具有如下特点：

（1）峰态系数=3，分布曲线为正态分布；

（2）峰态系数<3，分布曲线为平峰分布；

（3）峰态系数>3，分布曲线为尖峰分布。