数据指标一致化和标准化

前言

数据预处理是数据分析的基础,由于评价指标存在趋向性、量纲量级差别,因此为了使评价结果具有可比性,排序客观、公正和合理,就必须先对评价指标的原始值进行若干“预处理”,通常包括指标类型一致化处理和无量纲化处理,指标值预处理结果会对后续的评价结论产生较大的影响。

一般而言,指标的特性根据指标的目标取向可分为四类:正向指标、逆向指标、居中型指标和区间型指标。正向指标有指标值越大越优的性质,比如产值、利润等;逆向指标具有指标值越小越优的性质,比如成本、能耗等;居中型指标,指标值“适中为宜”,可以据适中值将其分为两部分,大于适中值的部分越小越好,按逆向指标处理、小于适中值的部分越大越好,按正向指标处理;区间型指标,大于区间最大值部分越小越好,小于区间最小值部分越大越好。因此,评价指标根据指标变化方向,可简化为两大类,即正向指标和逆向指标。1 2

方法

设有n个评价指标$f_j(1\le j \le n)$ ,m个待评价对象$a_i(1\le i \le m)$,第i个待评价对象,第j个指标的指标值为$x_{ij}$,预处理后为$y_{ij}$。3

极差变换法

极差变换法(极值处理法)的特点:处理后指标类型一致化,$0 \le y_{ij} \le 1$,但忽略了原始指标值的差异性,对于指标值恒定的情况不适用(最大值和最小值相同,分母为0)

对于正向指标:

$$y _ { i j } = \frac { x _ { i j } - \min_{ 1 \leqslant i \leqslant m } x _ { i j } } { \max _ { 1 \leqslant i \leqslant m } x _ { i j } - \min _ { 1 \leqslant i \leqslant m } x _ { i j } }$$

对于逆向指标:

$$y _ { i j } = \frac { \max _ { 1 \leqslant i \leqslant m } x _ { i j } - x _ { i j } } { \max _ { 1 \leqslant i \leqslant m } x _ { i j } - \min _ { 1 \leqslant i \leqslant m } x _ { i j } }$$

线性比例变换法

线性比例变换法的特点:处理后指标类型一致化,体现原始指标值的差异性。$y _ { i j } \in ( 0,1 ]$,有最大值1,无固定最小值。线性比例变换法要求任意$x_{ij} \gt 0$,如果存在$x_{ij} \le 0$则不适用。

对于正向指标$f _ { j }$,取$x _ { j } ^ { * } = \max _ { 1 \leq i s n } x _ { i j } \neq 0$:

$$y _ { i j } = \frac { x _ { i j } } { x _ { j } ^ { * } }$$

对于逆向指标$f _ { j }$,取$x _ { j } ^ { * } = \min _ { 1 \leq i s n } x _ { i j } \neq 0$:

$$y _ { i j } = \frac { x _ { j } ^ { * } } {x _ { i j } }$$

归一化处理法

归一化处理法要求任意$x_{ij} \ge 0$,如果存在$x_{ij} \lt 0$则不适用。当$x_{ij} \ge 0$时,$y _ { i j } \in ( 0,1 )$,无固定最大值、最小值,$\sum _ { i = 1 } ^ { m } x _ { i j } = 1$,体现原始指标值之间的差异性,但没有区分正逆向指标:

$$ y _ { i j } = \frac { x _ { i j } } { \sum _ { i = 1 } ^ { m } x _ { i j } } $$

向量规范法

向量规范法要求当$x_{ij} \ge 0$时,$y _ { i j } \in ( 0,1 )$,无固定最大值、最小值。矩阵Y的列向量其模等于1,即$\sum _ { i = 1 } ^ { m } y _ { i j } ^ { 2 } = 1$。考虑到指标值的差异性。向量规范法未区分正逆向指标,如果存在$x_{ij} \le 0$,处理后,$x_{ij} \le 0$,对于要求正数的方法不适用:

$$ y _ { i j } = \frac { x _ { i j } } { \sqrt { \sum _ { i = 1 } ^ { m } x _ { i j } ^ { 2 } } } $$

标准样本变换法

标准样本变换法(标准化处理法,统计标准化)适用于评价指标的实际值呈正态分布时,利用指标的均值和标准差对数据进行标准化处理,经过标准样本变换之后,使之转化为服从均值为0,标准差为1的标准正态分布的无量纲指标评价值。对于指标值恒定($s_j=0$)的情 况 不 适 用。若$x_{ij} \gt \overline { x _ { j } }$,则$y_{ij} \gt 0$;$x_{ij} \le \overline { x _ { j } }$,则$y_{ij} \le 0$,对于要求正数的方法不适用。$y_{ij}$区间不确定,处理后各指标的最大值、最小值不相同,未区分正逆向指标:

$$ y _ { i j } = \frac { x _ { i j } - \overline { x _ { j } } } { s _ { j } } $$ (其中样本均值 $ \overline { x _ { j } } = \frac { 1 } { m } \sum _ { i = 1 } ^ { m } x _ { i j } $ ,样本均方差 $ s_j = \sqrt { \frac { 1 } { m - 1 } \sum _ { i = 1 } ^ { m } \left( x _ { i j } - \overline { x _ { j } } \right) ^ { 2 } }$)

功效系数法

取值范围确定,具有区间稳定性,最大值为$c+d$,最小值为c。指标值不受限制,正负数和0均可,逆向指标正向化,处理后所有指标值都越大越好。功效系数法和极差变换法一样忽略了指标值的差异性,对于指标值恒定的情况不适用。

正向指标:

$$ y _ { i j } = c + \frac { x _ { i j } - x _ { \min } } { x _ { \max } - x _ { \min } } \times d $$

逆向指标:

$$ y _ { i j } = c + \frac { x _ { \max } - x _ { i j } } { x _ { \max } - x _ { \min } } \times d $$

(其中c、d均为已知正常数,通常取c=60、d=40,最满意值取最大值$x_{\max}$,不容许值取最小值$x_{\min}$)

使用

正向指标标准化

如果要对正向指标$x_ij$作标准化处理,首先要将数据指标通过$y _ { ij } ^ { \prime } = \frac { 1 } { x _ { ij } }$(倒数变换)或$y _ { ij } ^ { \prime } = M_j - x_ij$(其中$M_j=\max{x_j}$)作极小化处理,然后使用极差变换法将其数据标准化。4

区间型指标标准化

对于区间型指标,如果指标$x_{ij}$是关于均值对称的,则用变换:

$$y _ { ij } ^ { \prime } = \frac { \left| x _ { ij } - \bar { x } _ { j } \right| } { \bar { x } _ { j } }$$

否则取某一个理想值$x _ { j } ^ { ( 0 ) }$,然后用变换:

$$y _ { ij } ^ { \prime } = \frac { \left| x _ { ij } - x _ { j } ^ { ( 0 ) } \right| } { \bar { x } _ { j } }$$

负向指标标准化

负向指标直接作极差变换,即可得到标准化指标和相应的分类区间。另外,在有些情况下也可以将负向指标转化为正向指标来处理,根据实际问题,评价指标的无量纲标准化方法也可用标准差变换或功效系数变换等。

参考


  1. Li Xu. 评价指标的一致化. Blogger. [2016-01-11] ↩︎

  2. 不论如何未来很美好. 数据挖掘——无量纲化. CSDN. [2019-03-25] ↩︎

  3. 徐林明,李美娟. 动态综合评价中的数据预处理方法研究[J].中国管理科学,[2020],28(01):162-169. ↩︎

  4. 韩中庚. 基于动态加权方法的水质综合评价模型[C]. 中国运筹学会.中国运筹学会第八届学术交流会论文集.中国运筹学会:中国运筹学会,2006:664-669. ↩︎