A. 无量纲指标评价方法有
目前人们已提出的无量纲化方法名称很多,如综合指数法、极差变换法、高中差变换法、低中差变换法、均值化法、标准化法、比重法、功效系数法、指数型功效系数法、对数型功效系数法、正态化变换法等等。苏为华教授将它们归为四类:广义指数法、广义线性功效系数法、非线性函数法、分段函数法[1]。则广义指数法和广义线性功效系数法包含了前8种,都是线性无量纲化方法;后三种属于非线性函数法,也即曲线型无量纲化方法。由于指数或对数变换时,曲线的增减速度、凹凸程度很难把握,所以实践中非线性函数法较少被采用。
实践中应用较多的是属于直线型无量纲化方法的极差变换法、标准化法和均值化法。下面对这三种方法进行比较分析。
设综合评价中共有n个单位,m个指标,各指标分别为x1,x2,…,xm,用xij(i=1,2,…,n;j=1,2,…,m)表示第i个单位的第j个原始指标值,yij表示经过无量纲化处理的第i个单位的第j个指标值。极差变换法即令
(3)
式(3)中的分母仅与原始指标的最大值和最小值有关,而与指标的其它值无关。当xj的最大值与最小值之差很大时,yj值就会过小,相当于降低了第j个指标的权重;相反,当xj的最大值与最小值之差很小时,yj值就会过大,相当于提高了第j个指标的权重。即指标的两个值就对指标的权重产生了很大影响。所以在多指标综合评价中,用极差变换法作为无量纲化的方法是不可取的。
目前最普遍使用的无量纲化方法是标准化法,标准化法即令
(4)
其中和σj分别是指标xj的均值和标准差。经标准化后,指标yj的均值为0,方差为1,消除了量纲和数量级的影响。同时标准化法也消除了各指标变异程度上的差异,因此经标准化后的数据不能准确反映原始数据所包含的信息,导致综合评价的结果不准确。从下例可以看出:
例1、对十个省市的全部国有及规模以上非国有工业企业的经济效益进行综合评价。为直观起见,只选用全员劳动生产率和产品销售率两个指标,指标值见表2。根据国家经贸委等部门颁布的《工业经济效益评价体系》两个指标的权数分别为10和13。
表2 十省市劳动生产率和产品销售率
地区
北京
天津
河北
山西
内蒙古
辽宁
吉林
黑龙江
上海
江苏
劳动生产率(元)
69539
58984
45576
27988
37770
48170
47306
68104
95393
57177
产品销售率(%)
98.17
98.02
98.05
97.06
97.93
97.33
96.94
97.61
98.83
97.06
由表2易见,各地区的产品销售率非常接近,而全员劳动生产率相差较大。它们的变异系数分别为0.0062和0.3419也说明了这一点。所以若用这两个指标来评价经济效益,则很显然主要的影响因素应是全员劳动生产率。
但是,若用标准化法对两个指标进行无量纲化,将使两个指标的变异程度相同,因为产品销售率的权数大,因而产品销售率对经济效益的影响会比全员劳动生产率大。评价结果见表3
表3 十省市标准化法评价结果对照
地区
北京
天津
河北
山西
内蒙古
辽宁
吉林
黑龙江
上海
江苏
评价得分
0.76
0.38
0.10
-1.23
-0.19
-0.51
-0.90
0.20
1.96
-0.56
评价名次
2
3
5
10
6
7
9
4
1
8
销售率名次
2
4
3
8
5
7
10
6
1
8
从表3可见评价名次与产品销售率名次相差不大,这显然是不合理的。
所以必须改进原始数据的无量纲化方法,均值化方法就是一种较好的方法。均值化方法即令
(5)
均值化后各指标的均值都为1,其方差为
(6)
即均值化后各指标的方差是各指标变异系数的平方,它保留了各指标变异程度的信息。
对于例1,若用均值化方法对两个指标进行无量纲化,则因全员劳动生产率的变异系数比产品销售率的变异程度大得多,因而全员劳动生产率是经济效益综合评价的主要影响因素。评价结果见表4
表4 十省市均值化法评价结果对照
地区
北京
天津
河北
山西
内蒙古
辽宁
吉林
黑龙江
上海
江苏
评价得分
1.11
1.03
0.92
0.78
0.86
0.94
0.93
1.10
1.32
1.01
评价名次
2
4
8
10
9
6
7
3
1
5
劳动生产率名次
2
4
8
10
9
6
7
3
1
5
由表4可知,评价名次与全员劳动生产率的名次完全一致,这与实际情况是相符的。即用均值化法比用标准化法合理。
那么,是否我们就应该用均值化方法作为指标的无量纲化方法呢?这也要具体问题具体分析。在实际问题中,情况是复杂的,有时需要保留指标的变异信息,有时需要消除指标的变异信息。用下面的例子即可说明。
B. 数据预处理的无量纲化
1.1数据无量纲化
将不同规格的数据转化到同一规格或是将不同分布的数据转换到某个特定分布的需求,这种需求统称将数据“无量纲化”。在梯度和矩阵为核心的算法中,无量纲化可以加快求解速度,而在距离类模型中,无量纲化可以帮助我们提升模型精度,避免某一个取值范围特别大的特征对距离计算造成影响。决策树和树的集成模型是一个特例,它们不需要无量纲化,它们可以把任何数据处理的很好。
数据的无量纲化可以是线性的也可以是非线性的,线性的无量纲化包括中心化处理和缩放处理。中心化的本质是将所有记录减去一个固定值,就是使数据样本平移到某个位置,缩放的本质就是通过除以一个固定值,将数据固定到某个范围之中,取对数也算一种缩放。
1.2 preprocession.MinMaxScaler
当数据按照最小值中心化后,再按极差(最大值-最小值)缩放,数据移动到了最小值个单位,并且会收敛到[0,1]之间,这个过程称为数据的归一化(Normalization,又称Min-Max-Scaler),Normalization是归一化的意思不是正则化,正则化是regularization,不是数据预处理的手段。归一化后数据服从正态分布。
sklearn中,使用preprocess.MinMaxScaler来实现数据归一化,MinMaxScaler重要参数:feature_range,控制数据压缩到的范围,默认是[0,1]
1.3 preprocession.StandardScaler
当数据按均值中心化后,再按标准差缩放,数据会浮动均值为0,方差为1的正态分布(标准的正态分布),而这个过程称为数据标准化(StandardScaler,又称Z-score normalization)
对于StandardScaler和MinMaxScaler来说,空值NaN会被当成缺失值,在fit的时候忽视,在transform的时候保存缺失NaN的状态显示,无量纲化的过程不是具体的算法,但是在fit接口中,依然只允许导入至少二维数组,如果导入一维的数组会报错。
1.4 StandardScaler和MinMaxScaler选哪个?
大多数机器学习算法中,都是用StandardScaler来进行特征的缩放,因为MinMaxScaler对异常值非常敏感,在PCA,聚类,逻辑回归,SVM,神经网络这些算法中,StandardScaler会是比较好的选择。
MinMaxScaler用在不涉及度量距离、梯度、协方差计算以及数据需要被压缩到特定区间时使用,比如数字图像处理中量化像素强度时,都会使用MinMaxScaler将数据压缩到[0,1]区间之间。
可以先尝试一下StandardScaler,效果不好再换MinMaxScaler。
Sklearn中其他缩放处理:
C. 指标的无量纲化处理
所谓无量纲化,也称为指标的规范化(或标准化),是通过数学变换消除原始指标单位及其数值数量级影响的过程,这是进行指标评估的前提。因此,指标有实际值和评估值两种形式。无量纲化过程就是将指标实际值转化为指标评估值的过程。地质资料社会化服务的评估指标均按照线性无量纲方法进行统一的量纲,而且在系统内一次性完成。为了改进评估方法,本部分先对无量纲化的处理方法做简要介绍。
从理论上讲,指标的无量纲化方法很多,归结起来可分为三大类:线性无量纲方法,非线性无量纲方法和定性指标的无量纲方法。
(一)线性无量纲方法
线性无量纲方法是指将指标实际值转化为不受量纲影响的指标评估值时,假定二者之间呈线性关系,指标实际值的变化引起指标评估值一个相应的比例变化。其常见的形式有阈值法、Z-score法和比值法。
1.阈值法
阈值法也称临界值法,是一种将指标实际值xi与该指标的某个阈值相对比,从而使指标实际值转化为评估值的方法。这里的阈值往往采用指标的极大值、极小值、满意值和不允许值等。其主要公式及特点等可参见表2-1,其中m为指标的观测值个数,yi为转化后的指标值,一般为评估方案的个数。
表2-1 阈值法无量纲变换
续表
2.Z-score法
即按照统计学的原理对实际指标进行标准化。
地质资料社会化服务评估研究
式中:yi为指标评估值; 为指标实际值的算术平均数; 为指标实际值;s为指标实际值的均方差, 。
3.比值法
即用指标的实际值与该指标的计划标准、历史标准或行业标准作比较,以消除指标里量纲的影响。其公式主要有两种形式:
地质资料社会化服务评估研究
(二)非线性无量纲化方法
1.折线形标准化函数
折线形标准化函数适合于事物发展呈现阶段性,指标值在不同发展阶段对事物总体水平的影响是不同的。构造折线形标准化函数与直线形不同之处在于必须找出事物发展的转折点的指标值并确定其评估值。常用的函数有以下两种类型:
(1)两折线形。采用两折线形标准化函数,指标值在不同时期其变化被赋予不同的评估值增量,分为凸折线形和凹折线形两种(图2-1)。
图2-1 两折线形标准化函数示意图
设折点的坐标值为(xm,ym),x轴表示指标的实际值,y轴表示指标的评估值,用阈值法可以构造如下折线形(凸折线形)公式:
地质资料社会化服务评估研究
凸折线形函数的特点是前期增量大而后期增量小(以折点为界);凹折线形函数的特点是后期增量大而前期增量小(以折点为界)。折线形函数适用于极本形和极小形指标。
图2-2 三折线形标准化函数示意图
(2)三折线形(图2-2)。三折线形标准化函数适用于:(1) 某些事物要求指标值在某些区间内变化,若超出这个区间则指标的变化对事物的总体水平几乎没有什么影响。(2) 居中型指标的标准化,即指标值过大或者过小都会对事物产生不利的影响。从理论上讲,折线形标准化方法比直线形标准化方法更符合事物发展的实际情况,但是其应用的前提是评估者必须对被评估事物有较为深刻的理解和认识,能够合理地确定出指标值的转折点及其评估值。
2.曲线形标准化函数
有些事物发展阶段的分界点不是很明显,而前中后各期发展阶段又截然不同,也就是说指标变化对事物总体水平的影响是逐渐变化的,而非突变。这种情况下,就必须采用曲线形标准化函数。常用的曲线形标准化函数及其特点见表2-2,其中,x表示指标的实际值,y表示指标的评估值。
表2-2 曲线形标准化公式
在对指标进行标准化时,要选择一种或者几种适合于评估对象性质的方法,然后分析不同的标准化方法对结论产生的影响,从而选择最合适的一种。除以上所说的常用标准化函数外,针对不同的事物可以构造更多的函数对指标进行标准化处理。
(三)定性指标的无量纲化
评估指标体系中经常包含一些定性的指标,为了和定量指标组成一个有机的评估体系,也必须对其进行标准化处理。较简单的处理方法是,首先借用主观赋权法的方法原理,对指标的不同描述进行评分,然后按指标属性特点选用标准化函数建立与定量指标相适应的指标评估值,也可以在主观评分的基础上直接计算指标评估值。
本评估指标体系中的满意度调查即采取该方法。
D. 无量纲化处理方法经常用的是标准化方法。请问标准化方法具体是什么啊能否举实例啊
最典型的就是0-1标准化和Z标准化,也是最常用的。
1、0-1标准化(0-1 normalization)
也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
2、Z-score 标准化(zero-mean normalization)
也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,也是SPSS中最为常用的标准化方法,其转化函数为:
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
E. 评价指标值的无量纲化
河南省土地资源生态安全评价指标标准化值的确定即指标值的无量纲化。由于定量指标的计量单位各不相同,不具有可比性,因此,在确定指标实际值之后,还必须解决指标间的可综合性问题,即进行指标的无量纲化处理,通过一定的数值变换来消除指标间的量纲影响。生态安全评价是多指标综合评价,指标涉及范围广,如果指标间没有统一的度量标准,则难以进行比较。为了使表示不同含义的各种指标能够综合起来表征生态安全,也需将各类指标无量纲化。
无量纲化的方法有三大类,即直线型无量纲化方法、折线型无量纲化方法和曲线型无量纲化方法。本次研究采用直线型无量纲化方法,将表示区域土地资源生态安全的各指标都化成以百分比为单位的指标值。在无量纲化过程中,生态安全指标的安全趋向性有正向和逆向之分,安全正向性即指标值越大越安全,相反,安全逆向性则为越小越安全。
假设Xi(i=1,2,…,n)为第i个指标的实际值,Si(i=1,2,…,n)为评价指标的基准值,P(Xi)为该指标的不安全指数标准化值,P'(Xi)为该指标的安全指数标准化值,具体确定过程如下:
(1)安全正向性指标,以2种情况确定。
1)如果以“安全”为标准值:
如
如
2)如果以“不安全”为标准值:
如
如
(2)安全逆向性指标,亦以2种情况确定。
1)如果以“安全”为标准值:
如
如
2)如果以“不安全”为标准值:
如
如
本次研究进行无量纲化处理,是为了消除不同指标之间由于不同量纲所带来的不可综合性问题,那么对于量化指标体系中,指标本身实际值就是相对数的情况,即指标本身实际值就是没有实际单位的,这种指标也需要进行无量纲化处理。因为,两个不同含义的相对数相加是没有现实意义的。两个指标的变动代表了不同的含义,不存在严格的一致性变化,而且有时两个指标的变化方向也是不同的,即安全指标具有正向和逆向属性。所以,如果把这类指标直接综合起来(相加或者相乘),就破坏了综合指标的同质性原则。基于上述的原因,本次研究在实证中,对所有指标的实际值统一进行了无量纲化处理。
(3)把不安全指数转换为安全指数,其公式如下:
河南省土地资源生态安全理论、方法与实践
F. 问卷中的指标有定性和定量问题,如何使其标准化消除量纲,达到指标的综合评价
量变即产生 性变 定性变
G. 想知道怎么用matlab做数据的无量纲化
1. min-max归一化
该方法是对原始数据进行线性变换,将其映射到[0,1]之间,该方法也被称为离差标准化(但是请注意,网上更多人喜欢把z-score称为标准化方法,把min-max称为归一化方法,然后在此基础上,强行给标准化(z-score)与归一化(min-max)划条界线,以显示二者之间的相异性。对!二者之间确实有很大的不同,这个我们后面会有介绍,但是这两个方法说到底还都是用来去除量纲的,都是无量纲化技术中的一员而已,所以,请不要纠结标准化与归一化这两个概念了)。
上式中,min是样本的最小值,max是样本的最大值。由于最大值与最小值可能是动态变化的,同时也非常容易受噪声(异常点、离群点)影响,因此一般适合小数据的场景。此外,该方法还有两点好处:
1) 如果某属性/特征的方差很小,如身高:np.array([[1.70],[1.71],[1.72],[1.70],[1.73]]),实际5条数据在身高这个特征上是有差异的,但是却很微弱,这样不利于模型的学习,进行min-max归一化后为:array([[ 0. ], [ 0.33333333], [ 0.66666667], [ 0. ], [ 1. ]]),相当于放大了差异;
2) 维持稀疏矩阵中为0的条目。
使用方法如下:
from sklearn.preprocessing import MinMaxScaler
x = np.array([[1,-1,2],[2,0,0],[0,1,-1]])
x1 = MinMaxScaler().fit_transform(x)
H. 数学分析模型(一):数据的无量纲处理方法及示例(附完整代码)
在对实际问题建模过程中,特别是在建立指标评价体系时,常常会面临不同类型的数据处理及融合。而各个指标之间由于计量单位和数量级的不尽相同,从而使得各指标间不具有可比性。在数据分析之前,通常需要先将数据标准化,利用标准化后的数据进行分析。数据标准化处理主要包括同趋化处理和无量纲化处理两个方面。数据的同趋化处理主要解决不同性质的数据问题,对不同性质指标直接累加不能正确反应不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对评价体系的作用力同趋化。数据无量纲化主要解决数据的不可比性,在此处主要介绍几种数据的无量纲化的处理方式。
可以选择如下的三种方式:
即每一个变量除以该变量取值的全距,标准化后的每个变量的取值范围限于[-1,1]。
即每一个变量与变量最小值之差除以该变量取值的全距,标准化后各变量的取值范围限于[0,1]。
,即每一个变量值除以该变量取值的最大值,标准化后使变量的最大取值为1。
采用极值化方法对变量数据无量纲化是通过变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级的影响。由于极值化方法对变量无量纲化过程中仅仅对该变量的最大值和最小值这两个极端值有关,而与其他取值无关,这使得该方法在改变各变量权重时过分依赖两个极端取值。
来计算,即每一个变量值与其平均值之差除以该变量的标准差,无量纲化后各变量的平均值为0,标准差为1,从而消除量纲和数量级的影响。虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后不仅使得转换后的各变量均值相同,且标准差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异。
,该方法在消除量纲和数量级影响的同时,保留了各变量取值差异程度上的信息。
(4)标准差化方法
。该方法是标准化方法的基础上的一种变形,两者的差别仅在无量纲化后各变量的均值上,标准化方法处理后各变量的均值为0,而标准差化方法处理后各变量均值为原始变量均值与标准差的比值。
综上所述,针对不同类型的数据,可以选择相应的无量纲化方法。如下的示例就是一个典型的评价体系中无量纲化的范例。
近年来我国淡水湖水质富营养化的污染日益严重,如何对湖泊水质的富营养化进行综合评价与治理是摆在我们面前的任务,下面两个表格分别为我国5个湖泊的实测数据和湖泊水质评价标准。
表1 全国五个主要湖泊评价参数的实测数据
表2 湖泊水质评价标准
(1)试用以上数据,分析总磷,耗氧量,透明度,总氨这4个指标对湖泊水质评价富营养化的作用。
(2)对这5个湖泊的水质综合评价,确定水质等级。
在进行综合评价之前,首先要对评价的指标进行分析。通常评价指标分成效益型,成本型和固定型指标。效益型指标是指那些数值越大影响力越大的统计指标(也称正向型指标);成本型指标是指数值越小越好的指标(也称逆向型指标);而固定型指标是指数值越接近于某个常数越好的指标(也称适度型指标)。如果每个评价指标的属性不一样,则在综合评价时就容易发生偏差,必须先对各评价指标统一属性。
(ⅰ)建立无量纲化实测数据矩阵和评价标准矩阵,其中实测数据矩阵和等级标准矩阵如下,
然后建立无量纲化实测数据矩阵和无量纲化等级标准矩阵,其中
得到
(ⅱ)计算各评价指标的权重
计算矩阵B的各行向量的均值和标准差,
最后对变异系数归一化得到各指标的权重为
(ⅲ)建立各湖泊水质的综合评价模型
通常可以利用向量之间的距离来衡量两个向量之间的接近程度,在Matlab中,有以下的函数命令来计算向量之间的距离;
dist(w,p): 计算中的每个行向量和中每个列向量之间的欧式距离;
mandist(w,p): 绝对值距离。
计算中各行向量到中各列向量之间的欧氏距离,
,则第个湖泊属于第级。
这说明杭州西湖,武汉东湖都属于极富营养水质,青海湖属于中营养水质,而巢湖和滇池属于富营养水质。
,则第个湖泊属于第级。
其评价结果与利用欧氏距离得到的评价结果完全一样。
所以,从上面的计算可以看出,尽管欧氏距离和绝对值距离的意义完全不一样,但对湖泊水质的评价等级是一样的,这表明了方法的稳定性。
各位老铁养成习惯,看完点个赞呗,随便也来个关注!!!
各位老铁养成习惯,看完点个赞呗,随便也来个关注!!!
各位老铁养成习惯,看完点个赞呗,随便也来个关注!!!