㈠ 对于重采样的程序解析
重采样:就是根据一类象元的信息内插出另一类象元信息的过程。在遥感中,重采样是从高分辨率遥感影像中提取出低分辨率影像的过程。
中文名重采样
外文名resampling
注 意根据信息内插象元信息
目 的提取出低分辨率影像
定义
重采样:就是根据一类象元的信息内插出另一类象元信息的过程。
在 遥感中,重采样是从高分辨率遥感影像中提取出低分辨率影像的过程。
重采样方法
常用的重采样方法有最邻近内插法(nearest neighbor interpolation)、双线性内插法(bilinear interpolation)和三次卷积法内插(cubic convolution interpolation)。其中,最邻近内插法最为简单,计算速度快,但是视觉效应差;双线性插值会使图像轮廓模糊;三次 卷积法产生的图像较平滑,有好的视觉效果,但计算量大,较费时。
㈡ 数据科学家需要掌握的10个基本统计技术
数据科学家需要掌握的10个基本统计技术
无论您在数据的科学性问题上持哪种看法,都无法忽视数据的持续重要性,也不能轻视分析、组织和情境化数据的能力。 根据大量的就业数据和员工反馈信息统计,在“25个最佳美国就业机会”排行榜中,数据科学家排名第一。毫无疑问,数据科学家所做的具体工作内容将会进一步拓展。随着机器学习等技术变得越来越普遍,深度学习等新兴领域对研究人员和工程师的需求得到了巨大的推动,数据科学家们在创新和技术进步的浪潮中再次崭露头角。
编码能力强大是很重要的,但数据科学并不专职于软件工程(事实上,对Python很熟悉就足够了)。数据科学家生活在编码、统计学和批判性思维的交叉点上。正如乔希·威尔斯(JoshWills)所说的那样:“数据科学家是一个比任何程序员都要好的统计学家,而且比任何统计学家都更擅长编程。”笔者个人知道有太多的软件工程师希望转向数据科学家,并盲目利用机器学习框架TensorFlow或Apache Spark,而不透彻理解背后的统计理论。因此出现了“统计学习”,一个与机器学习有关的理论框架,包含统计到功能分析的一系列专业领域。
为什么学习统计学习?了解各种技术背后的想法是非常重要的,可以让你知道如何以及何时使用它们。由简入繁,首先要理解更简单的方法,才好把握更复杂的方法。准确地评估一种方法的性能,了解它的工作效果多好或者多糟,这一点很重要。此外,这是一个令人兴奋的研究领域,在科学,工业和金融领域有着重要的应用。最终,统计学习是培养现代数据科学家的基本要素。统计学习问题的例子有:
确定前列腺癌的危险因素。
根据记录周期图对录制的音素进行分类。
根据人口统计、饮食和临床测量,预测是否有人会发生心脏病。
自定义垃圾邮件检测系统。
识别手写邮政编码中的数字。
将组织样本分为几个癌症类别之一。
建立人口调查数据中工资与人口变量之间的关系。
统计学习和机器学习之间的差异在于:
机器学习是人工智能的一个子领域。
统计学习是统计学的一个分支。
机器学习更强调大规模应用和预测的准确性。
统计学习强调模型及其可解释性,精确性和不确定性。
1 - 线性回归:
在统计学中,线性回归是一种通过拟合自变量与自变量之间最佳线性关系来预测目标变量的方法。最好的做法是确保每个点的形状和实际观测之间的所有距离之和尽可能小。形状的适合性是“最好的”,因为在形状的选择上没有其他位置会产生较少的误差。线性回归的2种主要类型是简单线性回归和多元线性回归。简单线性回归使用一个独立变量来通过拟合最佳线性关系来预测因变量。多重线性回归使用多个独立变量来通过拟合最佳线性关系来预测因变量。
选择你在日常生活中使用的任何两件相关的东西。如每月支出,月收入和过去三年每月的旅行次数的数据。就需要回答以下问题:
我明年的每月开支是多少?
哪个因素(每月收入或每月旅行次数)在决定我的每月支出时更重要?
月收入和每月旅行如何与每月支出相关联?
2 - 分类:
分类是一种数据挖掘技术,它将类别分配给数据集合,以助进行更准确的预测和分析。有时也称为决策树,分类是用于对非常大的数据集进行分析的几种方法之一。眼下有2大分类技术脱颖而出:Logistic回归和判别分析。
Logistic回归分析是当因变量是二分(二元)时进行的适当的回归分析。像所有回归分析一样,Logistic回归是预测分析。 Logistic回归用于描述数据并解释一个相关二元变量与一个或多个标称、序数、区间或比例级别的独立变量之间的关系。逻辑回归可以检查的问题类型:
每增加一磅的超重和每天吸一包香烟,肺癌的可能性(是vs否)会发生怎样的变化?
体重卡路里摄入量,脂肪摄入量和参与者年龄对心脏病发作是否有影响(有vs无)?
在判别分析中,先验已知2个或更多个组或群或群,并基于所测量的特征将1个或更多个新观察分类到1个已知群中。判别分析在每个响应类别中分别对预测因子X的分布进行建模,然后使用贝叶斯定理将它们翻转为给定X的值的响应类别概率的估计。这样的模型可以是线性的或二次的。
线性判别分析为每个观测值计算“判别分数”,以便对它所处的响应变量类别进行分类。这些分数是通过寻找自变量的线性组合得到的。它假设每个类别内的观察值都来自多变量高斯分布,预测因子的协方差在响应变量Y的所有k水平上是共同的。
二次判别分析提供了一种替代方法。和LDA一样,QDA假定每个Y类的观测值都是从高斯分布中得到的。但是,与LDA不同的是,QDA假定每个类都有其自己的协方差矩阵。换句话说,预测因子不被假定在Y中的每个k水平上具有共同的方差。
3 - 重采样方法:
重采样是从原始数据样本中绘制重复样本的方法。这是统计推断的非参数方法。换句话说,重采样方法不涉及使用通用分布表来计算近似p概率值。
重采样根据实际数据生成唯一的采样分布。它使用实验方法而不是分析方法来生成独特的抽样分布。它产生无偏估计,因为它是基于研究者所研究数据的所有可能结果的无偏样本。为了理解重采样的概念,您应该理解术语Bootstrapping和交叉验证:
Bootstrapping是一种技术,可以帮助您在很多情况下验证预测模型的性能、集成方法、估计模型的偏差和方差。它通过对原始数据进行替换来进行采样,并将“未选择”的数据点作为测试用例。我们可以做这几次,并计算平均分作为我们的模型性能的估计。
另一方面,交叉验证是验证模型性能的一种技术,它是通过将训练数据分成k个部分来完成的。我们以k - 1部分作为训练集,并使用“伸出部分”作为我们的测试集。我们重复k次不同的方式。最后,我们将k分数的平均值作为我们的业绩估计。
通常对于线性模型,普通最小二乘法是考虑将它们适合于数据的主要标准。接下来的3种方法是可以为线性模型的拟合提供更好的预测精度和模型可解释性的替代方法。
4 - 子集选择:
这种方法确定了我们认为与响应相关的p预测因子的一个子集。然后,我们使用子集特征的最小二乘拟合模型。
最佳子集选择:这里我们对每个可能的p预测因子组合进行单独的OLS回归,然后查看最终的模型拟合。算法分为2个阶段:(1)拟合所有包含k预测因子的模型,其中k是模型的最大长度;(2)使用交叉验证的预测误差选择单个模型。使用测试或验证错误非常重要,而不是训练错误来评估模型拟合,因为RSS和R 2单调增加更多的变量。最好的方法是在测试误差估计值上交叉验证并选择具有最高R 2和最低RSS的模型。
向前逐步选择考虑预测因子的一个小得多的子集。它从不含预测因子的模型开始,然后在模型中添加预测因子,直到所有预测因子都在模型中。被添加变量的顺序是变量,其给出对拟合的最大的加法改进,直到没有更多的变量使用交叉验证的预测误差来改进模型拟合。
向后逐步选择开始将模型中的所有预测因子,然后迭代去除最不有用的预测因子。
混合方法遵循向前逐步回归方法,但是,在添加每个新变量之后,该方法还可以去除对模型拟合没有贡献的变量。
5 - 收缩:
这种方法适合一个涉及所有p预测因子的模型,然而,估计系数相对于最小二乘估计向零收缩。这种缩水,又称正规化,具有减少方差的作用。取决于执行什么类型的收缩,其中一些系数可能恰好被估计为零。因此这个方法也执行变量选择。将系数估计收缩为零的两个最着名的技术是岭回归和Lasso。
岭回归类似于最小二乘,通过最小化一个稍微不同的数量估计系数。像OLS一样,岭回归寻求降低RSS的系数估计值,但是当系数接近于零时,它们也会有收缩惩罚。这个惩罚的作用是将系数估计收缩到零。不用进入数学计算,知道岭回归缩小列空间方差最小的特征是有用的。像在主成分分析中一样,岭回归将数据投影到双向空间,然后比高方差分量收缩低方差分量的系数,这相当于最大和最小主分量。
岭回归至少有一个缺点:它包括最终模型中的所有p预测值。犯规条款将使它们中的许多接近于零,但不完全为零。这对于预测准确性来说通常不是问题,但它可能使模型更难以解释结果。 Lasso克服了这个缺点,并且能够迫使一些系数归零,只要s足够小。由于s = 1导致有规律的OLS回归,当s接近0时,系数收缩为零。因此,Lasso回归也执行变量选择。
6 - 维度降低:
维数减少将估计p + 1个系数的问题简化为M + 1个系数的简单问题,其中M
可以将主成分回归描述为从大量变量中导出低维特征集合的方法。数据的第一个主要组成方向是观测值变化最大的。换句话说,第一台PC是尽可能接近数据的一条线。人们可以适应不同的主要组成部分。第二个PC是与第一个PC不相关的变量的线性组合,并且受这个约束的变化最大。这个想法是主要的组成部分使用随后正交方向的数据的线性组合捕获数据中最大的变化。通过这种方式,我们也可以结合相关变量的效果,从可用数据中获取更多信息,而在正则最小二乘中,我们将不得不放弃其中一个相关变量。
我们上面描述的PCR方法包括确定最能代表预测因子的X的线性组合。这些组合(方向)以无监督的方式被识别,因为响应Y不用于帮助确定主要组件方向。也就是说,响应Y不监督主成分的识别,因此不能保证最能解释预测因子的方向对于预测响应(即使经常假设)也是最好的。偏最小二乘法(PLS)是一个监督的替代PCR。与PCR一样,PLS是一种降维方法,它首先识别一组新的较小的特征,这些特征是原始特征的线性组合,然后通过最小二乘法拟合一个线性模型到新的M特征。然而,与PCR不同的是,PLS利用响应变量来识别新的特征。
7 - 非线性模型:
在统计学中,非线性回归是回归分析的一种形式,其中观测数据是由一个函数建模的,该函数是模型参数的非线性组合,并取决于一个或多个自变量。数据通过逐次逼近的方法进行拟合。以下是一些处理非线性模型的重要技巧:
如果实数的函数可以写成区间指示函数的有限线性组合,则称实数为函数。非正式地说,一个阶梯函数是一个只有很多片段的分段常量函数。
分段函数是由多个子函数定义的函数,每个子函数应用于主函数域的一定间隔。分段实际上是表达函数的一种方式,而不是函数本身的一个特征,但是具有额外的限定,可以描述函数的性质。例如,分段多项式函数是在其每个子域上是多项式的函数,但是每个子域上可能是不同的。
样条函数是由多项式分段定义的特殊函数。在计算机图形学中,样条是指分段多项式参数曲线。由于其结构简单,评估方便和准确,以及通过曲线拟合和交互式曲线设计逼近复杂形状的能力,样条曲线是流行的曲线。
广义加性模型是一种线性预测模型,其中线性预测变量线性依赖于某些预测变量的未知光滑函数,兴趣集中在对这些光滑函数的推理上。
8 - 基于树的方法:
基于树的方法可以用于回归和分类问题。这些涉及将预测空间分层或分割成若干简单区域。由于用于分割预测变量空间的分裂规则集合可以在树中进行概括,所以这些类型的方法被称为决策树方法。下面的方法生成多个树,然后结合在一起产生一个单一的共识预测。
套袋(Bagging)是减少预测方差的方法,通过使用重复组合来生成原始数据集中的训练数据,从而生成与原始数据相同的多样性。通过增加你的训练集的大小,你不能提高模型的预测力,只是减少方差,勉强把预测调整到预期的结果。
提升(Boosting)是一种使用几种不同的模型计算产出的方法,然后使用加权平均方法对结果进行平均。通过改变你的加权公式,结合这些方法的优点和缺陷,你可以使用不同的狭义调整模型,为更广泛的输入数据提供一个很好的预测力。
随机森林(random forest )算法实际上非常类似于套袋。你也可以绘制训练集的随机bootstrap样本。但是,除了自举样本之外,还可以绘制随机子集来训练单个树;在套袋中,你给每个树一套完整功能。由于随机特征选择,与常规套袋相比,树木之间的相互独立性更高,这通常会带来更好的预测性能(由于更好的方差偏差权衡),而且速度更快,因为每棵树只能从功能的一个子集。
9 - 支持向量机:
SVM是机器学习中监督学习模型中的一种分类技术。通俗地说,它涉及于找到超平面(2D中的线,3D中的平面和更高维中的超平面,更正式地说,超平面是n维空间中的n维空间)最大保证金从本质上讲,它是一个约束优化问题,其边界被最大化,受限于它对数据进行了完美的分类(硬边缘)。
这种“支持”这个超平面的数据点被称为“支持向量”。对于两类数据不能线性分离的情况,这些点被投影到可能线性分离的分解(高维)空间。涉及多个类的问题可以分解为多个一对一或者一对二的分类问题。
10 - 无监督学习:
到目前为止,我们只讨论了监督学习技术,其中组是已知的,提供给算法的经验是实际实体和它们所属的组之间的关系。当数据的组(类别)未知时,可以使用另一组技术。它们被称为无监督的,因为它会留在学习算法中以找出所提供的数据中的模式。聚类是无监督学习的一个例子,其中不同的数据集被聚类为密切相关的项目组。下面是最广泛使用的无监督学习算法的列表:
主成分分析通过识别一组具有最大方差和相互不相关的特征的线性组合来帮助产生数据集的低维表示。这种线性维度技术有助于理解变量在无监督环境下的潜在相互作用。
k-Means聚类:根据到群集质心的距离将数据分为k个不同的集群。
分层集群:通过创建集群树来构建集群的多级分层结构。
以上是一些基本的统计技术的简单解释与说明,可以帮助数据科学项目经理和主管人员更好地理解他们的数据科学小组背后隐藏的内容。实际上,一些数据科学小组纯粹通过python和R库运行算法。他们中的大多数甚至不必考虑潜在的数学问题。但是,能够理解统计分析的基础知识可以为您的团队提供更好的方法。
㈢ ArcGIS中的栅格数据重采样方法有哪些
栅格重采样主要包括三种方法:最邻近法、双线性内插法和三次卷积插值法。最邻近法是把原始图像中距离最近的像元值填充到新图像中;双线性内插法和三次卷积插值法都是把原始图像附近的像元值通过距离加权平均填充到新图像中。默认情况下,采用最近邻分配重采样技术,这种方法同时适用于离散和连续值类型,而其他重采样方法只适用于连续数据。另外还可以用ArcGIS中的Resampling工具进行栅格重采样操作。具体操作方法可以去地理国情监测云平台看看,或者从网上搜索下,这个答案我就是从网上找到答案的。回答完毕。
㈣ 遥感数据及其处理
一、遥感数据及其特征
滇东北地区铅锌矿遥感地质调查工作共分为三个层次,其中1∶5万层次及1∶2.5万层次使用美国陆地卫星(Landsat-7)ETM+数据作为基础数据,1∶1万层次使用美国快鸟(QuickBird)卫星数据作为基础数据。
(一)ETM+数据
ETM+数据是美国1999年4月所发射的陆地7号卫星携带的增强型主题成像仪(ETM+)对地球表面所采集的数据,其基本参数、设计波段的特征及设计用途见表3-1。
表3-1Landsat-7卫星参数及数据特征
长期对Landsat系列卫星数据在地质方面的应用研究表明,Landsat卫星数据各个波段都能提供地质构造、地形地貌信息。其中,5、6、7波段信息量更为丰富,1、2、3、4波段能够区分岩石中的铁、锰矿物和含铁、锰矿物的相对含量,尤其是4波段对于三价铁的矿物比较敏感,可以借此区分岩性,5波段对绿帘石族特征谱带敏感,7波段识别碳酸盐岩、绿片岩、绢云片岩和粘土岩及粘土矿物聚集带的效果较好,6波段对于识别地热异常、岩石和构造的含水性及鉴别地质构造有一定的用途。另外,Landsat-7还增加了一个15m分辨率的全色波段,从视觉效果上直接提高了对地物的识别,见表3-2。
表3-2 Landsat-7ETM+数据特征及在地质上的用途简表
图3-1 滇东北地区ETM数据分布示意图
本次工作范围占有ETM数据129-041及129-042两景,时相均为2001年12月23日。工作范围在两景数据中的位置如图3-1。数据元数据情况见表3-3。
表3-3 129-041,129-042卫星数据元数据特征
续表
(二)快鸟(Quick Bird)卫星数据
快鸟(Quick Bird)是美国Digital Globel(Earth Watch)公司2001年10月发射的高分辨率卫星,其空间最高分辨率为61cm,可制作比例尺在1∶1万左右的影像。卫星参数及数据特征见表3-4。
表3-4 Quick Bird卫星参数及数据特征
快鸟卫星数据的波段设置,与ETM数据具有一定的对应性,1、2、3、4波段波长范围完全一致,只是在全色波段快鸟数据比ETM数据的波长范围略窄一些。
大比例尺遥感地质调查工作主要布设于彝良毛坪地区,购置快鸟数据80km2,范围为X:3038000—3046000,Y:35392000—35402000。属于现拍数据,数据采集时间为2004年5月8日,其元数据特征见表3-5。
表3-5 毛坪地区快鸟卫星数据元数据特征
二、遥感数据处理
(一)数据处理软件
遥感图像处理主要使用加拿大专业遥感图像处理软件PCIGeomatica8.0及美国着名专业遥感图像处理软件ENVI3.5。
(二)数据处理流程
遥感数据处理的主要流程包括数据组织(即数据种类选择、范围确认、时相选择、订购等)、数据镶嵌(单景数据不存在此过程)、几何校正、图像生成、图像增强、图像整饰等过程,见图3-2。
图3-2 数据处理流程图
(三)数据处理
1.数据镶嵌
所谓镶嵌,就是将相邻两景图像拼接、形成大图像的过程。在图像镶嵌过程中如果使用不同时相的数据,由于数据成像的季节、太阳高度角不同,导致同名像元点在不同的数据上可能表现为不同的灰阶;当使用相同时相数据时,由于地面站后期人为分景、单独处理,也会导致同名像元点在不同的数据上有可能表现为不同的灰阶,同一地物在不同数据上表现出不同特征。因此说,图像的镶嵌过程是一个数据重叠范围内的配准过程。
滇东北地区1∶5万工作区涉及129-041及129-042两景数据,数据镶嵌是在PCIGeomatica遥感图像处理平台的GCPworks模块中完成的。镶嵌过程中侧重于重叠数据范围内同名点的选择及镶嵌线的选择。一般每两景图像上下镶嵌选择10~15个GCP。在镶嵌线的选择上,避免一条直线,根据镶嵌区的地貌特征尽量使镶嵌线通过色差较大的地方,避免人为造成线性体。然后利用PCI提供的ColourMatching功能对镶嵌区内的图像色彩进行匹配,使镶嵌后图像的色彩在镶嵌线两侧柔和过渡,达到无缝的效果。
2.几何校正
(1)几何校正方法
由于卫星姿态与轨道、地球运动和形状、遥感器本身的性能和扫描镜的不规则、探测器的配置、检测器采样延迟、数模转换的误差等等原因,均会导致原始遥感图像的严重几何变形,不能直接使用。一般而言,卫星地面站会根据卫星轨道的各种参数将图像进行粗略的校正,但往往由于遥感器的位置及姿态的测量值不高,其粗校正后的图像仍存在不小的几何变形。用户需要利用地面控制点和多项式纠正模型做进一步的几何纠正。只有按照一定的投影模式对原始图像进行几何精校正后的图像,才能使图像上每个像元具有相应的准确的地理坐标,只有进行几何精校正后的图像才能制作成能与其他图件配合使用的“地图(map)”。几何纠正的步骤有以下3步:
1)地面控制点(GCP)的选择。地面控制点的选择一般有两种方法,实地测量和在相同比例尺或更大比例尺地形图上采点。地面控制点选择的原则是,选择在图像上显示清晰、实地不(或很少)随时间变化的定位识别标志,如道路交叉点、河流交汇处等。另外,控制点要在校正范围内均匀分布,并保证一定的数量。
2)多项式模型纠正。多项式模型纠正就是在图像像元坐标(x,y)与地形图上相应点的地理坐标(X,Y)之间通过适当的坐标多项式模型(坐标变换函数)建立一种关系,从而通过像元的重新定位把图像拟合到地形图上。多项式校正模型的数学表达式为:
滇东北铅锌银矿床遥感地质与成矿预测
式中:aij,bij为多项式系数;N为多项式次数,取决于图像的变形程度、控制点的数量和地形位移的大小。
3)重采样。由于经过了多项式校正,重新定位后的像元在原图像中分布是不均匀的,因此需要对原图像按一定的规则重新采样,进行亮度值的插值计算,建立新的图像矩阵。常用的重采样方法有最临近法、双线性内插法、三次卷积内插法。3种方法在地物边缘增强、地物连贯性、计算速度等方面各有利弊。其中三次卷积内插法对边缘有所增强,并具有均衡化和清晰化的效果,但计算量大。
(2)1∶5万工作范围图像几何校正
1∶5万工作范围图像校正使用相应范围的1∶5万地形图60幅。校正点的选择是在60幅地形图上均匀选择GCP203点,校正模型选择了二次多项式拟合,重采样方法使用三次卷积内插法。校正后的图像投影方式为高斯投影、6°分带,中央经线为105°,椭球体采用克拉索夫斯基1954椭球体,与地形图保持一致。
(3)1∶1万工作范围图像几何校正
由于缺少相同比例尺地形图,收集到的地形资料只有区内1∶5万地形图和极少部分1∶2000地形图,因此校正点的采集采用地形图采点与野外实地测点相结合的方法完成。共采集GCP33个。校正模型选择了二次多项式拟合,重采样方法使用三次卷积内插法。校正后的图像投影方式为高斯投影、3°分带,中央经线为105°,椭球体采用克拉索夫斯基1954椭球体。
3.彩色合成
彩色合成的目的是将单色波段每像元的28(即256)色空间扩展到224(即16777216)色空间,增强目标地物的可视性,提高目视解译效果。通过色彩丰富、信息携带量大的基础彩色图像,解译人员才能充分识别图像的信息,进行地质解译。
为达到最佳的彩色合成效果,参加合成的波段选择常遵循以下原则:
1)参加合成的单波段有较大的方差,即波段本身具有较大的信息量。
2)参加合成的各波段间相关系数较小,避免信息的重复和冗余。
3)参加合成的三波段图像的均值要相近,避免合成图像产生严重偏色。
4)为突出目标地物,要选择目标物体显示较为突出的波段。
彩色合成图像为3个波段,赋予红、绿、蓝三原色的合成图像。
1∶5万工作范围基础图像制作选择了波段7、4、2合成方案,1∶2.5万工作范围基础图像选择了波段4、5、3合成方案,1∶1万工作区基础图像选择了波段3、2、1合成方案。选择依据将在“数据特征”一节中进行分析。
4.图像增强
图像增强的目的是为了突出相关的主题信息,提高图像的视觉效果,使解译分析者能更容易地识别图像内容,从而从图像中提取更有用的信息。图像增强的方法很多,从其作用的空间来看可以分为光谱增强和空间增强。这两种增强类型在整个图像处理和信息提取过程中都很常用。对于基础图像的增强一般采用光谱增强,从像元的对比度及波段间的亮度等方面改善图像的视觉效果,基本不改变目标地物的形状、大小等特征。
项目工作中的3种基础图像在生成后均采用光谱增强。根据图像各波段的直方图分布,分析整幅图像中像元间对比度的差异大小,确定光谱增强的具体手段。其中1∶5万范围的波段7、4、2合成图像面积大,地物种类多,信息丰富,增强过程中要求各种信息的充分显示,因此使用直方图均衡化的方法,理论上使图像中的各种亮度值均衡分布。1∶2.5万范围的波段4、5、3合成图像,图像范围相对较小,又由于地形切割较深,造成图像上山体阴影所占面积较大,而西南角地区比较平坦,反射率较高,像元亮度大,因此选择线性拉伸的方法进行增强。1∶1万范围的快鸟卫星波段3、2、1数据合成影像中,红尖山—姜家湾—花苗寨一带植被覆盖较多,造成影像上大面积绿色,使用线性拉伸的方法可以保证原始图像的对比度不再有大改变。
图3-3 毛坪地区图像不同拉伸方法效果对比图
拉伸方法应用效果以毛坪地区1∶1万影像为例,见图3-3。由图中可以看出,不拉伸的图像显然色彩层次太少,使用均方根拉伸的图像总体上提高了图形的亮度,压抑了像元间对比度的扩展,同时亮度高的地区彩色层次减少;直方图均衡化的图像提高了像元间的对比度,在原图像的暗色地区使色彩层次增加,但高亮色地区由于像元频率的增高而使色彩层次减少;线性拉伸不同程度地克服了以上几种拉伸的弊端,使图像色彩趋于丰富,层次趋于明显,便于解译者的解译。
在解译过程中为突出某种特征地物也可采用其他的增强手段,这里不再赘述。
5.图像融合
为了提高图像清晰度,同时充分发挥多波段数据的特点,需要将高分辨率的全色波段与参加彩色合成的多光谱波段进行融合处理。融合后的图像可以发挥多光谱图像与高分辨率图像各自的优势,弥补不足,改善遥感图像目标识别的准确率,提高遥感图像的综合分析精度。
融合方法大致可以分为彩色相关技术和数学方法两大类。彩色相关技术包括彩色合成、彩色空间变换等,有利于保持分辨率和色彩特征,如IHS变换法。常用的融合方法有IHS变换法、PCA变换法、HPF变换法与小波变换法等。
鉴于工作目的,为了提高地面分辨率和保持低分辨率图像的光谱信息,工作中选择了IHS变换方法,即将标准的RGB图像分离为空间信息的明度、波谱信息的色别及饱和度,而后用高分辨率图像代替明度再进行反变换的融合方法。融合后的图像既具有较高的分辨率,又具有与原图像相同的色度与饱和度。其具体过程如图3-4。
项目工作中所采用的ETM数据7个30m多光谱波段与15mPAN波段源于同一传感器,快鸟数据的4个2.4m多光谱波段与其0.6mPAN波段也源于同一传感器,因此数据融合过程中不存在数据配准问题,只对低分辨率波段进行重采样,并对参加融合的各波段进行直方图匹配,再进行IHS变换和RGB变换。其中低分辨率波段的重采样使用的方法为三次卷积内插法。融合前后图像特征如图3-5所示。
图3-4 IHS变换融合流程图
图3-5 融合前、后图像特征对比示意图
(四)图像处理精度评价
镶嵌校正过程中的精度评价常常使用RMS误差(均方根)来衡量,RMS是GCP的输入位置和逆转换之间的距离;它是在用转换矩阵对一个GCP做转换时所期望输出的坐标与实际输出的坐标之间的偏差。
滇东北铅锌银矿床遥感地质与成矿预测
式中:Ri为GCPi的RMS误差,XRi为GCPi的X残差,YRi为GCPi的Y残差。
整幅图像的总RMS误差:
滇东北铅锌银矿床遥感地质与成矿预测
式中:T为总RMS误差。
1.1∶5万镶嵌精度
数据镶嵌的误差大小对几何校正有很大影响,大的误差将人为增大图像的畸变。工作中1∶5万工作范围需要129-041与129-042两景数据上下镶嵌,按照《1/25万遥感地质调查技术规定》(DD2001—01)对镶嵌配准精度的规定同比计算,预设镶嵌误差T≤0.40。镶嵌过程中共采集镶嵌GCP13个,纠正模型1次,误差见表3-6。
表3-6 1∶5万图像镶嵌误差
由表3-6中可以看出,T=0.311,小于预设值0.40,能够满足无缝镶嵌的要求。
2.校正精度
(1)1∶5万图像校正精度
校正精度按照《1/25万遥感地质调查技术规定》(DD2001—01)对图像校正精度及校正点数目的同比计算,预设校正误差T≤0.80。校正过程中在60幅1∶5万地形图上基本均匀地选择203点,经误差调整选择有效校正GCP190个,校正多项式模型选择二次多项式,其误差见表3-7,由表中可以看出,T=0.794,小于预设值0.80,能够达到规范要求。
表3-7 1∶5万图像校正误差
(2)1∶1万图像校正精度
由于工作区只收集到1∶5万地形图和占很小部分的1∶2000地形地质图,且1∶5万地形图年代比较久远,因此在几何校正过程中误差较大。由于图像细节清晰,不影响使用与定位。
3.融合精度
低分辨率数据与高分辨率数据融合的目的是为了提高分辨率,为此,图像融合前后清晰程度的改变成为融合精度评价的主要指标。图像的清晰度是指地物的边界或影线两侧附近灰度有明显差异,即灰度变化率大小,它反映图像微小细节反差变化的速率,即图像多维方向上密度变化的速率,可用g来表示,一般来说融合前后g的变化越大则融合后图像的清晰度越高。
滇东北铅锌银矿床遥感地质与成矿预测
ETM30m多光谱波段与15m全色波段融合前后的值及快鸟数据2.4m多光谱数据与0.6m全色波段融合前后的g值对比见表3-8。由表中可以看出,融合后密度变化速率比原来提高几十到上百倍,表明图像融合后精度有很大提高。
表3-8 融合精度对照
三、工作区遥感数据
(一)1∶5万工作范围ETM数据特征
1∶5万工作范围图像行列数为9233(列)×12423(行)(插值为15m),总像元数为114701559点,由于左上角数据缺少使1140点为无效像素。
数据基本统计特征如表3-9至表3-11,各波段直方图见图3-6。
表3-9 1∶5万范围ETM数据基本统计特征
表3-10 1∶5万范围ETM数据波段间协方差矩阵
表3-11 1∶5万范围ETM数据波段间相关系数矩阵
从以上统计参数来看,8个波段的均值除60m分辨率的波段6和15m分辨率的PAN波段外,其他6个波段相差不大。8个波段的标准差从大到小排列为S5>S7>S4>S3>S6>S8>S2>S1,表明波段5的像元亮度值离散程度最大,波段1最小。对于波段间的相关系数而言(由于6波段与8波段分辨率的不同而不考虑),R12、R23、R25、R35、R45、R57、R37、R27均比较大,数值在0.80以上,而R13、R24、R34、R47相对较小,数值在0.7~0.8之间,相关系数最小的为R14、R15、R17,数值在0.5~0.6之间,相关系数大小也表征了波段间信息冗余的多少。1∶5万工作范围的彩色合成方案就是根据以上的统计数据结合彩色合成波段选择的其他原则而确定的。
直方图是图像范围内每个亮度值(DN)的像元数量的统计分布,能够直观反映原始图像的质量信息,如亮度值分布范围、亮度值分布规律,也可直接大致判读出图像的中值等参数。从8个波段的直方图可以看出波段4、5、7的直方图呈双峰表现,主峰在50~60出现,而在10~15之间又出现一个表现很窄的次峰,这是由于图像上的阴影及水体的像元亮度值所产生的,由此大致可以计算出阴影及水体在图像中所占的面积,以波段5为例计算出所占比例为6%左右。其他各波段的直方图比较接近正态分布。
协方差矩阵反映各个波段各自亮度值取值的分散程度,同时又能反映不同波段间的相关密切程度,它是单波段图像统计表与相关系数矩阵的合成,同时又能反向分裂。
图3-6 1∶5万范围ETM各波段图像直方图
(二)1∶2.5万工作范围ETM数据特征
1∶2.5万工作范围行列数为3000(列)×1860(行),总像元数为5580000点,插值后分辨率为15m。数据基本统计特征如表3-12至表3-14,各波段直方图如图3-7。
表3-12 1∶2.5万范围ETM数据基本统计特征
表3-13 1∶2.5万范围ETM数据波段间协方差矩阵
表3-14 1∶2.5万范围ETM数据波段间相关系数矩阵
图3-7 1∶2.5万范围ETM各波段图像直方图
从以上统计参数来看,8个波段的均值除60m分辨率的波段6为110表现较大,15m分辨率的PAN波段为29表现较小外,其他1、4、5三个波段数值相差不多,在50左右,2、3、7三个波段也相差不大,在37左右。8个波段的标准差从大到小排列为S5>S4>S7>S3>S8>S6>S2>S1,表明波段5的像元亮度值离散程度最大,波段1最小。对于波段间的相关系数而言(由于6波段与8波段分辨率的不同而不考虑),R57、R23、R73表现最大,数值在0.9以上,R12、R13、R25、R27、R35、R45次之,数值在0.8~0.9之间,而R24、R34、R47相对较小,数值在0.7~0.8之间,相关系数最小的为R14、R15、R17,数值在0.5~0.6之间,相关系数大小也表征了波段间信息冗余的多少。1∶2.5万工作范围的彩色合成方案就是根据以上的统计数据结合彩色合成波段选择的其他原则而决定的。
8个波段的直方图形态大致与1∶5万范围一致,表现意义相同,不再赘述。
(三)1∶1万工作范围QB数据特征
1∶1万工作范围采用高分辨率的QB数据,其多光谱波段只有4个,分辨率为2.4m,工作范围图像行列数为4168(列)×3407(行),总像元数为14200376点。多光谱数据基本统计特征如表3-15、表3-16,各波段直方图如图3-8。
表3-15 1∶1万范围QB数据基本统计特征
表3-16 1∶1万范围QB数据波段间相关系数矩阵
从以上统计可以看出,QB数据4个波段中1、2、3波段的相关系数均较大(R12=R23=0.96,R13=0.89),只有近红外波段与其他波段的相关系数很小(R14=0.29,R24=0.37,R34=0.20),同时可以看出近红外波段的中值与标准差也与其他波段相差很大,这是由于工作区内大面积植被所引起的。众所周知,绿色植物的叶绿素对可见光红波段(0.6~0.7μm)有强吸收,而叶内组织对近红外波段(0.7~1.1μm)有高反射,因此大面积植被将会直接改变相关波段的像元亮度值的分布。在基础图像彩色合成波段选择中,依据各项原则结合统计参数,选择波段1、2、3参与合成,为使合成后图像接近真彩色,合成方案为3(R)+2(G)+1(B)。
图3-8 1∶1万范围QB各波段图像直方图
四、遥感信息增强与提取
为了突出地质目标,增强微弱岩石蚀变信息,在图像处理过程中的不同阶段使用了多种信息增强技术方法,主要有地表三维技术、比值运算、KL变换、空间滤波、彩色变换技术等(表3-17)。
表3-17 工作中采用的主要信息增强方法技术及用途
(一)地表三维技术
地表三维技术是利用DEM(数字高程模型)将地图上的二维平面空间按高程的差异制作成一种地形上连续起伏变化的曲面,从而更真实地反映地表地貌的自然景观,突出显示特殊岩性的特殊地貌特征。
毛坪地区地表三维影像的制作利用了1∶5万DEM与QB3、2、1彩色合成图像;1∶5万DEM来源于1∶5万地形图,通过等高线数字化—高程赋值—DEM生成等过程实现。地表三维影像的制作主要有DEM与影像的配准及配准后的DEM与影像的复合两个过程。
图3-9是毛坪地区地表三维景观局部,其中视点为(103°54བྷ″,27°27བ″),视向45°,视角60°,视域60°。
图3-9 毛坪地区快鸟遥感影像地表三维景观(局部)
从毛坪地区地表三维影像可以看出左侧发育柱状节理的玄武岩及右侧二叠系灰岩地貌景观。
(二)图像比值运算
比值运算是将两个波段中不同亮度的地物成辐射状投射到一个曲线上,从而可非线性地夸大不同地物间的反差,它能够压抑影像上由于地形坡度和方向而引起的辐射量变化,减小环境条件的影响,提供任何单波段都不具有的独特信息。其运算公式为:
滇东北铅锌银矿床遥感地质与成矿预测
式中:DNm(x,y),DNn(x,y)分别是像元(x,y)在m和n波段上的亮度值;Rmn(x,y)为输出的比值。工作中比值运算主要运用于以下两方面。
1.计算植被覆盖度
植被覆盖度(f)是指某一时间某一地区内植被冠层的垂直投影面积与区域总面积之比。遥感地质解译主要是利用地表物体的光谱反射特性的差异,提取与地质工作有关的信息,工作的特点主要针对地表岩石、构造等,当地表植被覆盖时,对这些信息的解译将造成阻碍。因此,了解工作区的植被覆盖度能客观评价该区遥感地质解译的可解译程度。
研究表明绿色植物在可见光红波段(0.6~0.7μm)有强的吸收(叶绿素引起),在近红外波段(0.7~1.1μm)有高的反射和透射(叶内组织引起)。因此,在这两个波段使用比值运算可以充分表达它们反射率之间的差异,制作植被为高亮显示的植被信息图,并直接在图像上以像元数目比值求解植被覆盖度。
2.提取矿化蚀变信息
ETM的不同波段在地质上有不同的应用,这主要取决于各种与矿有关的蚀变矿物在不同波段存在波谱特征上的差异。图3-26是典型蚀变矿物的反射波谱曲线,从图中可看出,通常所讲的泥化蚀变矿物(即含有OH-、CO2-3)在2.2μm附近有明显吸收带,并与TM7波长范围相吻合。而在波段5的波长范围(1.55~1.75μm)内少有矿物的吸收谱带,多数都表现出高反射的特点,未蚀变矿物在波段5范围均没有明显的波谱特征,表现在TM5与TM7两个波段的相对亮度值的相对差异。因此,常常可使用波段5/7比值来突出含羟基和CO2-3类的蚀变矿物特征。另外,由图中可以看出三价铁矿物在波段1具有强的吸收,而在波段3具有相对强的反射;二价铁矿物在波段4具有强的吸收,而在波段5相对具有反射特征,因此也常用波段5/4、3/1比值来突出铁类矿物蚀变特征。比值后的图像上欲突出的蚀变特征常以高亮值显示而被提取出来。
(三)KL变换
KL变换又称为主成分分析,是在统计特征基础上的多维(如多波段)正交线性变换。多波段图像通过这种变换后产生一组新的组分图像,把原来多个波段中的信息进行集中和重组,并使新组分图像之间互不相关。其运算公式为:
滇东北铅锌银矿床遥感地质与成矿预测
其中,X为原图像p个波段的像元值向量,Y为变换后的q个组分的像元值向量,q≤
,T为变换矩阵。
KL变换要求Y的分量Yj与Yk相互独立,且若有j<k,则Yj的方差小于Yk的方差,所以必须有:
滇东北铅锌银矿床遥感地质与成矿预测
又因为:
所以:
即把矩阵D(X)变为对角矩阵Λ,对角线元素λ1、λ2…λp是D(X)的特征值,也分别是Y1、Y2…Yp的方差。
KL变换后的新组分图像中,一般第一组分具有大量的信息,但它包含了地形、植被等因素,对地质体的区分而言就成为干扰因素;其他组分虽然具有小的方差,包含的信息量少,但它可能正好突出了区分某些地质体的信息。因此,当需要对诸多信息进行综合时,往往使用KL变换后的第一组分,当要求某种特征信息时就选择相关的其他主组分。如图3-10,在B7单波段上玄武岩和火山碎屑岩界线显示隐约(或不显示),而在KL变换(参与波段B1、B2、B3、B4、B5、B6、B7)后的PC3上,界线显示明显。
图3-10 KL变换前后岩性边界对比影像
此外,KL变换也是提取与铁化和泥化有关蚀变的遥感信息的重要方法。通过对KL变换后的特征矩阵进行分析,选择富集特征信息的主组分,对蚀变信息的提取又很大的帮助。在后面信息提取过程中已经使用。
(四)空间信息增强
空间信息增强是指通过改变图像空间特征或频率来增强图像上信息的手段,即改变图像的“粗糙”或“平滑”程度来增强特征信息的方法。工作中使用了方向滤波和平均值滤波。
1.方向滤波
方向滤波是梯度法边缘增强的一种,它通过指定的8个方向的滤波模块对图像按方向进行边缘增强。工作中主要使用在线性体的解译和统计中,滤波后的图像突出显示了某个方向的线性体特征,同时对与该方向正交的线性体进行模糊。如图3-11所示,7波段的图像在分别使用 个方向模板滤波后,分别突出显示了45°方向和135°方向的线性体。
图3-11 方向滤波前后图像对比
2.平滑滤波
当需要去除图像上的噪声时,往往使用平滑滤波或低通滤波,加强图像中的低频成分,减弱图像的高频成分,使图像由“粗糙”变得“光滑”。均值滤波就是一种典型的平滑滤波方法,即用局部范围内临域像元亮度均值代替中心原像元亮度值。工作中平滑滤波主要使用在遥感蚀变信息提取后,信息噪声的去除。如图3-12所示,提取的锈水河铅锌矿异常在平滑滤波后,杂乱细小的信息斑点被去除,信息成“块”成“带”出现,方便了对异常分布的分析。
图3-12 平滑滤波前后PCT分级效果对比
(五)彩色变换技术
彩色变换技术是指将彩色图像在不同的彩色坐标系统之间的变换,主要应用在不同遥感器的数据或不同性质的数据融合后彩色合成图像的产生。在图像融合上常使用IHS变换,其简式如下:
滇东北铅锌银矿床遥感地质与成矿预测
变换后RGB混色系统分离为代表空间信息的明度(I)和代表波谱信息的色别(H)、饱和度(S)。从公式可以看出,明度(I)是3个波段的平均亮度,融合时使用直方图匹配后的高分辨率波段代替I,与原来的H、S一起进行IHS变换的反变换,重新变换到RGB空间,这样图像既保证了高分辨率数据的参与,提高地面分辨能力,又保持了原来多光谱波段的光谱特征。其融合效果参见图3-5。
另外,项目工作中较常用的是RGB彩色合成,当图像的饱和度缺乏时,也通过IHS变换的方法,专门对变换后的饱和度分量(S)进行调整,反变换后的图像可解译性会明显提高。
㈤ Arcgis中 为什么要对配准后的数据进行重采样
因为经过配准的不同栅格的像元并不总是对齐的,因为像元大小可能不同,或者像元边界之间会有相对的偏移。当进行栅格合并时,空间分析必须为每一个输出像元指定对应的输入栅格的像元,这个过程就叫做重采样。
重采样的方法有最近邻发、search法、双线性内插法和立方卷积法。前两者适用于离散数据,后两者适用于连续数据。
㈥ 简述重采样的原理
重采样:就是根据一类象元的信息内插出另一类象元信息的过程。在遥感中,重采样是从高分辨率遥感影像中提取出低分辨率影像的过程。常用的重采样方法有最邻近内插法(nearest neighbor interpolation)、双线性内插法(bilinear interpolation)和三次卷积法内插(cubic convolution interpolation)。其中,最邻近内插法最为简单,计算速度快,但是视觉效应差;双线性插值会使图像轮廓模糊;三次卷积法产生的图像较平滑,有好的视觉效果,但计算量大,较费时。
㈦ 什么是重采样技术
重采样:就是根据一类象元的信息内插出另一类象元信息的过程。在遥感中,重采样是从高分辨率遥感影像中提取出低分辨率影像的过程。
常用的重采样方法有最邻近内插法(nearest neighbor interpolation)、双线性内插法(bilinear interpolation)和三次卷积法内插(cubic convolution interpolation)。其中,最邻近内插法最为简单,计算速度快,但是视觉效应差;双线性插值会使图像轮廓模糊;三次卷积法产生的图像较平滑,有好的视觉效果,但计算量大,较费时。
㈧ boosting和bootstrap区别
bootstrap、boosting是机器学习中几种常用的重采样方法。其中bootstrap重采样方法主要用于统计量的估计,boosting方法则主要用于多个子分类器的组合。bootstrap:估计统计量的重采样方法(推荐学习:Python视频教程)
bootstrap方法是从大小为n的原始训练数据集DD中随机选择n个样本点组成一个新的训练集,这个选择过程独立重复B次,然后用这B个数据集对模型统计量进行估计(如均值、方差等)。由于原始数据集的大小就是n,所以这B个新的训练集中不可避免的会存在重复的样本。
统计量的估计值定义为独立的B个训练集上的估计值θbθb的平均:
boosting:
boosting依次训练k个子分类器,最终的分类结果由这些子分类器投票决定。
首先从大小为n的原始训练数据集中随机选取n1n1个样本训练出第一个分类器,记为C1C1,然后构造第二个分类器C2C2的训练集D2D2,要求:D2D2中一半样本能被C1C1正确分类,而另一半样本被C1C1错分。
接着继续构造第三个分类器C3C3的训练集D3D3,要求:C1C1、C2C2对D3D3中样本的分类结果不同。剩余的子分类器按照类似的思路进行训练。
boosting构造新训练集的主要原则是使用最富信息的样本。
更多Python相关技术文章,请访问Python教程栏目进行学习!以上就是小编分享的关于boosting和bootstrap区别的详细内容希望对大家有所帮助,更多有关python教程请关注环球青藤其它相关文章!
㈨ 常用的数字图像重采样方法有那几种
最近邻域
二次线性
二乘线性
二次立方
B样条
lanzcos
hermite