❶ 无量纲化处理方法经常用的是标准化方法。请问标准化方法具体是什么啊能否举实例啊
最典型的就是0-1标准化和Z标准化,也是最常用的。
1、0-1标准化(0-1 normalization)
也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
2、Z-score 标准化(zero-mean normalization)
也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,也是SPSS中最为常用的标准化方法,其转化函数为:
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
❷ 想知道怎么用matlab做数据的无量纲化
1. min-max归一化
该方法是对原始数据进行线性变换,将其映射到[0,1]之间,该方法也被称为离差标准化(但是请注意,网上更多人喜欢把z-score称为标准化方法,把min-max称为归一化方法,然后在此基础上,强行给标准化(z-score)与归一化(min-max)划条界线,以显示二者之间的相异性。对!二者之间确实有很大的不同,这个我们后面会有介绍,但是这两个方法说到底还都是用来去除量纲的,都是无量纲化技术中的一员而已,所以,请不要纠结标准化与归一化这两个概念了)。
上式中,min是样本的最小值,max是样本的最大值。由于最大值与最小值可能是动态变化的,同时也非常容易受噪声(异常点、离群点)影响,因此一般适合小数据的场景。此外,该方法还有两点好处:
1) 如果某属性/特征的方差很小,如身高:np.array([[1.70],[1.71],[1.72],[1.70],[1.73]]),实际5条数据在身高这个特征上是有差异的,但是却很微弱,这样不利于模型的学习,进行min-max归一化后为:array([[ 0. ], [ 0.33333333], [ 0.66666667], [ 0. ], [ 1. ]]),相当于放大了差异;
2) 维持稀疏矩阵中为0的条目。
使用方法如下:
from sklearn.preprocessing import MinMaxScaler
x = np.array([[1,-1,2],[2,0,0],[0,1,-1]])
x1 = MinMaxScaler().fit_transform(x)
❸ 问卷中的指标有定性和定量问题,如何使其标准化消除量纲,达到指标的综合评价
量变即产生 性变 定性变
❹ 评价指标值的无量纲化
河南省土地资源生态安全评价指标标准化值的确定即指标值的无量纲化。由于定量指标的计量单位各不相同,不具有可比性,因此,在确定指标实际值之后,还必须解决指标间的可综合性问题,即进行指标的无量纲化处理,通过一定的数值变换来消除指标间的量纲影响。生态安全评价是多指标综合评价,指标涉及范围广,如果指标间没有统一的度量标准,则难以进行比较。为了使表示不同含义的各种指标能够综合起来表征生态安全,也需将各类指标无量纲化。
无量纲化的方法有三大类,即直线型无量纲化方法、折线型无量纲化方法和曲线型无量纲化方法。本次研究采用直线型无量纲化方法,将表示区域土地资源生态安全的各指标都化成以百分比为单位的指标值。在无量纲化过程中,生态安全指标的安全趋向性有正向和逆向之分,安全正向性即指标值越大越安全,相反,安全逆向性则为越小越安全。
假设Xi(i=1,2,…,n)为第i个指标的实际值,Si(i=1,2,…,n)为评价指标的基准值,P(Xi)为该指标的不安全指数标准化值,P'(Xi)为该指标的安全指数标准化值,具体确定过程如下:
(1)安全正向性指标,以2种情况确定。
1)如果以“安全”为标准值:
如
如
2)如果以“不安全”为标准值:
如
如
(2)安全逆向性指标,亦以2种情况确定。
1)如果以“安全”为标准值:
如
如
2)如果以“不安全”为标准值:
如
如
本次研究进行无量纲化处理,是为了消除不同指标之间由于不同量纲所带来的不可综合性问题,那么对于量化指标体系中,指标本身实际值就是相对数的情况,即指标本身实际值就是没有实际单位的,这种指标也需要进行无量纲化处理。因为,两个不同含义的相对数相加是没有现实意义的。两个指标的变动代表了不同的含义,不存在严格的一致性变化,而且有时两个指标的变化方向也是不同的,即安全指标具有正向和逆向属性。所以,如果把这类指标直接综合起来(相加或者相乘),就破坏了综合指标的同质性原则。基于上述的原因,本次研究在实证中,对所有指标的实际值统一进行了无量纲化处理。
(3)把不安全指数转换为安全指数,其公式如下:
河南省土地资源生态安全理论、方法与实践
❺ 数学分析模型(一):数据的无量纲处理方法及示例(附完整代码)
在对实际问题建模过程中,特别是在建立指标评价体系时,常常会面临不同类型的数据处理及融合。而各个指标之间由于计量单位和数量级的不尽相同,从而使得各指标间不具有可比性。在数据分析之前,通常需要先将数据标准化,利用标准化后的数据进行分析。数据标准化处理主要包括同趋化处理和无量纲化处理两个方面。数据的同趋化处理主要解决不同性质的数据问题,对不同性质指标直接累加不能正确反应不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对评价体系的作用力同趋化。数据无量纲化主要解决数据的不可比性,在此处主要介绍几种数据的无量纲化的处理方式。
可以选择如下的三种方式:
即每一个变量除以该变量取值的全距,标准化后的每个变量的取值范围限于[-1,1]。
即每一个变量与变量最小值之差除以该变量取值的全距,标准化后各变量的取值范围限于[0,1]。
,即每一个变量值除以该变量取值的最大值,标准化后使变量的最大取值为1。
采用极值化方法对变量数据无量纲化是通过变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级的影响。由于极值化方法对变量无量纲化过程中仅仅对该变量的最大值和最小值这两个极端值有关,而与其他取值无关,这使得该方法在改变各变量权重时过分依赖两个极端取值。
来计算,即每一个变量值与其平均值之差除以该变量的标准差,无量纲化后各变量的平均值为0,标准差为1,从而消除量纲和数量级的影响。虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后不仅使得转换后的各变量均值相同,且标准差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异。
,该方法在消除量纲和数量级影响的同时,保留了各变量取值差异程度上的信息。
(4)标准差化方法
。该方法是标准化方法的基础上的一种变形,两者的差别仅在无量纲化后各变量的均值上,标准化方法处理后各变量的均值为0,而标准差化方法处理后各变量均值为原始变量均值与标准差的比值。
综上所述,针对不同类型的数据,可以选择相应的无量纲化方法。如下的示例就是一个典型的评价体系中无量纲化的范例。
近年来我国淡水湖水质富营养化的污染日益严重,如何对湖泊水质的富营养化进行综合评价与治理是摆在我们面前的任务,下面两个表格分别为我国5个湖泊的实测数据和湖泊水质评价标准。
表1 全国五个主要湖泊评价参数的实测数据
表2 湖泊水质评价标准
(1)试用以上数据,分析总磷,耗氧量,透明度,总氨这4个指标对湖泊水质评价富营养化的作用。
(2)对这5个湖泊的水质综合评价,确定水质等级。
在进行综合评价之前,首先要对评价的指标进行分析。通常评价指标分成效益型,成本型和固定型指标。效益型指标是指那些数值越大影响力越大的统计指标(也称正向型指标);成本型指标是指数值越小越好的指标(也称逆向型指标);而固定型指标是指数值越接近于某个常数越好的指标(也称适度型指标)。如果每个评价指标的属性不一样,则在综合评价时就容易发生偏差,必须先对各评价指标统一属性。
(ⅰ)建立无量纲化实测数据矩阵和评价标准矩阵,其中实测数据矩阵和等级标准矩阵如下,
然后建立无量纲化实测数据矩阵和无量纲化等级标准矩阵,其中
得到
(ⅱ)计算各评价指标的权重
计算矩阵B的各行向量的均值和标准差,
最后对变异系数归一化得到各指标的权重为
(ⅲ)建立各湖泊水质的综合评价模型
通常可以利用向量之间的距离来衡量两个向量之间的接近程度,在Matlab中,有以下的函数命令来计算向量之间的距离;
dist(w,p): 计算中的每个行向量和中每个列向量之间的欧式距离;
mandist(w,p): 绝对值距离。
计算中各行向量到中各列向量之间的欧氏距离,
,则第个湖泊属于第级。
这说明杭州西湖,武汉东湖都属于极富营养水质,青海湖属于中营养水质,而巢湖和滇池属于富营养水质。
,则第个湖泊属于第级。
其评价结果与利用欧氏距离得到的评价结果完全一样。
所以,从上面的计算可以看出,尽管欧氏距离和绝对值距离的意义完全不一样,但对湖泊水质的评价等级是一样的,这表明了方法的稳定性。
各位老铁养成习惯,看完点个赞呗,随便也来个关注!!!
各位老铁养成习惯,看完点个赞呗,随便也来个关注!!!
各位老铁养成习惯,看完点个赞呗,随便也来个关注!!!
❻ 指标的无量纲化处理
所谓无量纲化,也称为指标的规范化(或标准化),是通过数学变换消除原始指标单位及其数值数量级影响的过程,这是进行指标评估的前提。因此,指标有实际值和评估值两种形式。无量纲化过程就是将指标实际值转化为指标评估值的过程。地质资料社会化服务的评估指标均按照线性无量纲方法进行统一的量纲,而且在系统内一次性完成。为了改进评估方法,本部分先对无量纲化的处理方法做简要介绍。
从理论上讲,指标的无量纲化方法很多,归结起来可分为三大类:线性无量纲方法,非线性无量纲方法和定性指标的无量纲方法。
(一)线性无量纲方法
线性无量纲方法是指将指标实际值转化为不受量纲影响的指标评估值时,假定二者之间呈线性关系,指标实际值的变化引起指标评估值一个相应的比例变化。其常见的形式有阈值法、Z-score法和比值法。
1.阈值法
阈值法也称临界值法,是一种将指标实际值xi与该指标的某个阈值相对比,从而使指标实际值转化为评估值的方法。这里的阈值往往采用指标的极大值、极小值、满意值和不允许值等。其主要公式及特点等可参见表2-1,其中m为指标的观测值个数,yi为转化后的指标值,一般为评估方案的个数。
表2-1 阈值法无量纲变换
续表
2.Z-score法
即按照统计学的原理对实际指标进行标准化。
地质资料社会化服务评估研究
式中:yi为指标评估值; 为指标实际值的算术平均数; 为指标实际值;s为指标实际值的均方差, 。
3.比值法
即用指标的实际值与该指标的计划标准、历史标准或行业标准作比较,以消除指标里量纲的影响。其公式主要有两种形式:
地质资料社会化服务评估研究
(二)非线性无量纲化方法
1.折线形标准化函数
折线形标准化函数适合于事物发展呈现阶段性,指标值在不同发展阶段对事物总体水平的影响是不同的。构造折线形标准化函数与直线形不同之处在于必须找出事物发展的转折点的指标值并确定其评估值。常用的函数有以下两种类型:
(1)两折线形。采用两折线形标准化函数,指标值在不同时期其变化被赋予不同的评估值增量,分为凸折线形和凹折线形两种(图2-1)。
图2-1 两折线形标准化函数示意图
设折点的坐标值为(xm,ym),x轴表示指标的实际值,y轴表示指标的评估值,用阈值法可以构造如下折线形(凸折线形)公式:
地质资料社会化服务评估研究
凸折线形函数的特点是前期增量大而后期增量小(以折点为界);凹折线形函数的特点是后期增量大而前期增量小(以折点为界)。折线形函数适用于极本形和极小形指标。
图2-2 三折线形标准化函数示意图
(2)三折线形(图2-2)。三折线形标准化函数适用于:(1) 某些事物要求指标值在某些区间内变化,若超出这个区间则指标的变化对事物的总体水平几乎没有什么影响。(2) 居中型指标的标准化,即指标值过大或者过小都会对事物产生不利的影响。从理论上讲,折线形标准化方法比直线形标准化方法更符合事物发展的实际情况,但是其应用的前提是评估者必须对被评估事物有较为深刻的理解和认识,能够合理地确定出指标值的转折点及其评估值。
2.曲线形标准化函数
有些事物发展阶段的分界点不是很明显,而前中后各期发展阶段又截然不同,也就是说指标变化对事物总体水平的影响是逐渐变化的,而非突变。这种情况下,就必须采用曲线形标准化函数。常用的曲线形标准化函数及其特点见表2-2,其中,x表示指标的实际值,y表示指标的评估值。
表2-2 曲线形标准化公式
在对指标进行标准化时,要选择一种或者几种适合于评估对象性质的方法,然后分析不同的标准化方法对结论产生的影响,从而选择最合适的一种。除以上所说的常用标准化函数外,针对不同的事物可以构造更多的函数对指标进行标准化处理。
(三)定性指标的无量纲化
评估指标体系中经常包含一些定性的指标,为了和定量指标组成一个有机的评估体系,也必须对其进行标准化处理。较简单的处理方法是,首先借用主观赋权法的方法原理,对指标的不同描述进行评分,然后按指标属性特点选用标准化函数建立与定量指标相适应的指标评估值,也可以在主观评分的基础上直接计算指标评估值。
本评估指标体系中的满意度调查即采取该方法。