『壹』 分類數據和順序數據的整理和圖示方法各有那些
對於分類數據:
(1)數據的整理方法有列出所分的類別,計算每一類別的頻數、頻率、比例、比率等
(2)圖示方法有條形圖和圓形圖
對於順序數據:
(1)數據的整理方法中包括所有的處理分類數據的方法,同時還可以計算累積頻數和累積頻率
(2)圖示方法包括累積分布圖和環形圖
1、聚類分析(Cluster Analysis)
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標准,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對於同一組數據進行聚類分析,所得到的聚類數未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究從變數群中提取共性因子的統計技術。因子分析就是從大量的數據中尋找內在的聯系,減少決策的困難。
因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發抽因法、拉奧典型抽因法等等。這些方法本質上大都屬近似方法,是以相關系數矩陣為基礎的,所不同的是相關系數矩陣對角線上的值,採用不同的共同性□2估值。在社會學研究中,因子分析常採用以主成分分析為基礎的反覆法。
3、相關分析(Correlation Analysis)
相關分析(correlation analysis),相關分析是研究現象之間是否存在某種依存關系,並對具體有依存關系的現象探討其相關方向以及相關程度。相關關系是一種非確定性的關系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產量,則X與Y顯然有關系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系。
4、對應分析(Correspondence Analysis)
對應分析(Correspondence analysis)也稱關聯分析、R-Q型因子分析,通過分析由定性變數構成的交互匯總表來揭示變數間的聯系。可以揭示同一變數的各個類別之間的差異,以及不同變數各個類別之間的對應關系。對應分析的基本思想是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。
5、回歸分析
研究一個隨機變數Y對另一個(X)或一組(X1,X2,…,Xk)變數的相依關系的統計分析方法。回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的自變數的多少,可分為一元回歸分析和多元回歸分析;按照自變數和因變數之間的關系類型,可分為線性回歸分析和非線性回歸分析。
6、方差分析(ANOVA/Analysis of Variance)
又稱「變異數分析」或「F檢驗」,是R.A.Fisher發明的,用於兩個及兩個以上樣本均數差別的顯著性檢驗。由於各種因素的影響,研究所得的數據呈現波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。方差分析是從觀測變數的方差入手,研究諸多控制變數中哪些變數是對觀測變數有顯著影響的變數。這個 還需要具體問題具體分析
『叄』 各種遙感數據分類方法比較
常用的遙感數據的專題分類方法有多種,從分類判別決策方法的角度可以分為統計分類器、神經網路分類器、專家系統分類器等;從是否需要訓練數據方面,又可以分為監督分類器和非監督分類器。
一、統計分類方法
統計分類方法分為非監督分類方法和監督分類方法。非監督分類方法不需要通過選取已知類別的像元進行分類器訓練,而監督分類方法則需要選取一定數量的已知類別的像元對分類器進行訓練,以估計分類器中的參數。非監督分類方法不需要任何先驗知識,也不會因訓練樣本選取而引入認為誤差,但非監督分類得到的自然類別常常和研究感興趣的類別不匹配。相應地,監督分類一般需要預先定義分類類別,訓練數據的選取可能會缺少代表性,但也可能在訓練過程中發現嚴重的分類錯誤。
1.非監督分類器
非監督分類方法一般為聚類演算法。最常用的聚類非監督分類方法是 K-均值(K-Means Algorithm)聚類方法(Duda and Hart,1973)和迭代自組織數據分析演算法(ISODATA)。其演算法描述可見於一般的統計模式識別文獻中。
一般通過簡單的聚類方法得到的分類結果精度較低,因此很少單獨使用聚類方法進行遙感數據專題分類。但是,通過對遙感數據進行聚類分析,可以初步了解各類別的分布,獲取最大似然監督分類中各類別的先驗概率。聚類分析最終的類別的均值矢量和協方差矩陣可以用於最大似然分類過程(Schowengerdt,1997)。
2.監督分類器
監督分類器是遙感數據專題分類中最常用的一種分類器。和非監督分類器相比,監督分類器需要選取一定數量的訓練數據對分類器進行訓練,估計分類器中的關鍵參數,然後用訓練後的分類器將像元劃分到各類別。監督分類過程一般包括定義分類類別、選擇訓練數據、訓練分類器和最終像元分類四個步驟(Richards,1997)。每一步都對最終分類的不確定性有顯著影響。
監督分類器又分為參數分類器和非參數分類器兩種。參數分類器要求待分類數據滿足一定的概率分布,而非參數分類器對數據的概率分布沒有要求。
遙感數據分類中常用的分類器有最大似然分類器、最小距離分類器、馬氏距離分類器、K-最近鄰分類器(K-Nearest neighborhood classifier,K-NN)以及平行六面體分類器(parallelepiped classifier)。最大似然、最小距離和馬氏距離分類器在第三章已經詳細介紹。這里簡要介紹 K-NN 分類器和平行六面體分類器。
K-NN分類器是一種非參數分類器。該分類器的決策規則是:將像元劃分到在特徵空間中與其特徵矢量最近的訓練數據特徵矢量所代表的類別(Schowengerdt,1997)。當分類器中 K=1時,稱為1-NN分類器,這時以離待分類像元最近的訓練數據的類別作為該像元的類別;當 K >1 時,以待分類像元的 K 個最近的訓練數據中像元數量最多的類別作為該像元的類別,也可以計算待分類像元與其 K 個近鄰像元特徵矢量的歐氏距離的倒數作為權重,以權重值最大的訓練數據的類別作為待分類像元的類別。Hardin,(1994)對 K-NN分類器進行了深入的討論。
平行六面體分類方法是一個簡單的非參數分類演算法。該方法通過計算訓練數據各波段直方圖的上限和下限確定各類別像元亮度值的范圍。對每一類別來說,其每個波段的上下限一起就形成了一個多維的盒子(box)或平行六面體(parallelepiped)。因此 M 個類別就有M 個平行六面體。當待分類像元的亮度值落在某一類別的平行六面體內時,該像元就被劃分為該平行六面體代表的類別。平行六面體分類器可以用圖5-1中兩波段的遙感數據分類問題來表示。圖中的橢圓表示從訓練數據估計的各類別亮度值分布,矩形表示各類別的亮度值范圍。像元的亮度落在哪個類別的亮度范圍內,就被劃分為哪個類別。
圖5-1 平行六面體分類方法示意圖
3.統計分類器的評價
各種統計分類器在遙感數據分類中的表現各不相同,這既與分類演算法有關,又與數據的統計分布特徵、訓練樣本的選取等因素有關。
非監督聚類演算法對分類數據的統計特徵沒有要求,但由於非監督分類方法沒有考慮任何先驗知識,一般分類精度比較低。更多情況下,聚類分析被作為非監督分類前的一個探索性分析,用於了解分類數據中各類別的分布和統計特徵,為監督分類中類別定義、訓練數據的選取以及最終的分類過程提供先驗知識。在實際應用中,一般用監督分類方法進行遙感數據分類。
最大似然分類方法是遙感數據分類中最常用的分類方法。最大似然分類屬於參數分類方法。在有足夠多的訓練樣本、一定的類別先驗概率分布的知識,且數據接近正態分布的條件下,最大似然分類被認為是分類精度最高的分類方法。但是當訓練數據較少時,均值和協方差參數估計的偏差會嚴重影響分類精度。Swain and Davis(1978)認為,在N維光譜空間的最大似然分類中,每一類別的訓練數據樣本至少應該達到10×N個,在可能的條件下,最好能達到100×N以上。而且,在許多情況下,遙感數據的統計分布不滿足正態分布的假設,也難以確定各類別的先驗概率。
最小距離分類器可以認為是在不考慮協方差矩陣時的最大似然分類方法。當訓練樣本較少時,對均值的估計精度一般要高於對協方差矩陣的估計。因此,在有限的訓練樣本條件下,可以只估計訓練樣本的均值而不計算協方差矩陣。這樣最大似然演算法就退化為最小距離演算法。由於沒有考慮數據的協方差,類別的概率分布是對稱的,而且各類別的光譜特徵分布的方差被認為是相等的。很顯然,當有足夠訓練樣本保證協方差矩陣的精確估計時,最大似然分類結果精度要高於最小距離精度。然而,在訓練數據較少時,最小距離分類精度可能比最大似然分類精度高(Richards,1993)。而且最小距離演算法對數據概率分布特徵沒有要求。
馬氏距離分類器可以認為是在各類別的協方差矩陣相等時的最大似然分類。由於假定各類別的協方差矩陣相等,和最大似然方法相比,它丟失了各類別之間協方差矩陣的差異的信息,但和最小距離法相比較,它通過協方差矩陣保持了一定的方向靈敏性(Richards,1993)。因此,馬氏距離分類器可以認為是介於最大似然和最小距離分類器之間的一種分類器。與最大似然分類一樣,馬氏距離分類器要求數據服從正態分布。
K-NN分類器的一個主要問題是需要很大的訓練數據集以保證分類演算法收斂(Devijver and Kittler,1982)。K-NN分類器的另一個問題是,訓練樣本選取的誤差對分類結果有很大的影響(Cortijo and Blanca,1997)。同時,K-NN分類器的計算復雜性隨著最近鄰范圍的擴大而增加。但由於 K-NN分類器考慮了像元鄰域上的空間關系,和其他光譜分類器相比,分類結果中「椒鹽現象」較少。
平行六面體分類方法的優點在於簡單,運算速度快,且不依賴於任何概率分布要求。它的缺陷在於:首先,落在所有類別亮度值范圍之外的像元只能被分類為未知類別;其次,落在各類別亮度范圍重疊區域內的像元難以區分其類別(如圖5-1所示)。
各種統計分類方法的特點可以總結為表5-1。
二、神經網路分類器
神經網路用於遙感數據分類的最大優勢在於它平等地對待多源輸入數據的能力,即使這些輸入數據具有完全不同的統計分布,但是由於神經網路內部各層大量的神經元之間連接的權重是不透明的,因此用戶難以控制(Austin,Harding and Kanellopoulos et al.,1997)。
神經網路遙感數據分類被認為是遙感數據分類的熱點研究領域之一(Wilkinson,1996;Kimes,1998)。神經網路分類器也可分為監督分類器和非監督分類器兩種。由於神經網路分類器對分類數據的統計分布沒有任何要求,因此神經網路分類器屬於非參數分類器。
遙感數據分類中最常用的神經網路是多層感知器模型(multi-layer percep-tron,MLP)。該模型的網路結構如圖5-2所示。該網路包括三層:輸入層、隱層和輸出層。輸入層主要作為輸入數據和神經網路輸入界面,其本身沒有處理功能;隱層和輸出層的處理能力包含在各個結點中。輸入的結構一般為待分類數據的特徵矢量,一般情況下,為訓練像元的多光譜矢量,每個結點代表一個光譜波段。當然,輸入結點也可以為像元的空間上下文信息(如紋理)等,或多時段的光譜矢量(Paola and Schowengerdt,1995)。
表5-1 各種統計分類器比較
圖5-2 多層感知器神經網路結構
對於隱層和輸出層的結點來說,其處理過程是一個激勵函數(activation function)。假設激勵函數為f(S),對隱層結點來說,有:
遙感信息的不確定性研究
其中,pi為隱層結點的輸入;hj為隱層結點的輸出;w為聯接各層神經之間的權重。
對輸出層來說,有如下關系:
遙感信息的不確定性研究
其中,hj為輸出層的輸入;ok為輸出層的輸出。
激勵函數一般表達為:
遙感信息的不確定性研究
確定了網路結構後,就要對網路進行訓練,使網路具有根據新的輸入數據預測輸出結果的能力。最常用的是後向傳播訓練演算法(Back-Propagation)。這一演算法將訓練數據從輸入層進入網路,隨機產生各結點連接權重,按式(5-1)(5-2)和(5-3)中的公式進行計算,將網路輸出與預期的結果(訓練數據的類別)相比較並計算誤差。這個誤差被後向傳播的網路並用於調整結點間的連接權重。調整連接權重的方法一般為delta規則(Rumelhart,et al.,1986):
遙感信息的不確定性研究
其中,η為學習率(learning rate);δk為誤差變化率;α為動量參數。
將這樣的數據的前向和誤差後向傳播過程不斷迭代,直到網路誤差減小到預設的水平,網路訓練結束。這時就可以將待分類數據輸入神經網路進行分類。
除了多層感知器神經網路模型,其他結構的網路模型也被用於遙感數據分類。例如,Kohonen自組織網路被廣泛用於遙感數據的非監督聚類分析(Yoshida et al.,1994;Schaale et al.,1995);自適應共振理論(Adaptive Resonance Theory)網路(Silva,S and Caetano,M.1997)、模糊ART圖(Fuzzy ART Maps)(Fischer,M.M and Gopal,S,1997)、徑向基函數(駱劍承,1999)等也被用於遙感數據分類。
許多因素影響神經網路的遙感數據分類精度。Foody and Arora(1997)認為神經網路結構、遙感數據的維數以及訓練數據的大小是影響神經網路分類的重要因素。
神經網路結構,特別是網路的層數和各層神經元的數量是神經網路設計最關鍵的問題。網路結構不但影響分類精度,而且對網路訓練時間有直接影響(Kavzoglu and Mather,1999)。對用於遙感數據分類的神經網路來說,由於輸入層和輸出層的神經元數目分別由遙感數據的特徵維數和總的類別數決定的,因此網路結構的設計主要解決隱層的數目和隱層的神經元數目。一般過於復雜的網路結構在刻畫訓練數據方面較好,但分類精度較低,即「過度擬合」現象(over-fit)。而過於簡單的網路結構由於不能很好的學習訓練數據中的模式,因此分類精度低。
網路結構一般是通過實驗的方法來確定。Hirose等(1991)提出了一種方法。該方法從一個小的網路結構開始訓練,每次網路訓練陷入局部最優時,增加一個隱層神經元,然後再訓練,如此反復,直到網路訓練收斂。這種方法可能導致網路結構過於復雜。一種解決辦法是每當認為網路收斂時,減去最近一次加入的神經元,直到網路不再收斂,那麼最後一次收斂的網路被認為是最優結構。這種方法的缺點是非常耗時。「剪枝法」(pruning)是另一種確定神經網路結構的方法。和Hirose等(1991)的方法不同,「剪枝法」從一個很大的網路結構開始,然後逐步去掉認為多餘的神經元(Sietsma and Dow,1988)。從一個大的網路開始的優點是,網路學習速度快,對初始條件和學習參數不敏感。「剪枝」過程不斷重復,直到網路不再收斂時,最後一次收斂的網路被認為最優(Castellano,Fanelli and Pelillo,1997)。
神經網路訓練需要訓練數據樣本的多少隨不同的網路結構、類別的多少等因素變化。但是,基本要求是訓練數據能夠充分描述代表性的類別。Foody等(1995)認為訓練數據的大小對遙感分類精度有顯著影響,但和統計分類器相比,神經網路的訓練數據可以比較少。
分類變數的數據維對分類精度的影響是遙感數據分類中的普遍問題。許多研究表明,一般類別之間的可分性和最終的分類精度會隨著數據維數的增大而增高,達到某一點後,分類精度會隨數據維的繼續增大而降低(Shahshahani and Landgrebe,1994)。這就是有名的Hughes 現象。一般需要通過特徵選擇去掉信息相關性高的波段或通過主成分分析方法去掉冗餘信息。分類數據的維數對神經網路分類的精度同樣有明顯影響(Battiti,1994),但Hughes 現象沒有傳統統計分類器中嚴重(Foody and Arora,1997)。
Kanellopoulos(1997)通過長期的實踐認為一個有效的ANN模型應考慮以下幾點:合適的神經網路結構、優化學習演算法、輸入數據的預處理、避免振盪、採用混合分類方法。其中混合模型包括多種ANN模型的混合、ANN與傳統分類器的混合、ANN與知識處理器的混合等。
三、其他分類器
除了上述統計分類器和神經網路分類器,還有多種分類器被用於遙感圖像分類。例如模糊分類器,它是針對地面類別變化連續而沒有明顯邊界情況下的一種分類器。它通過模糊推理機制確定像元屬於每一個類別的模糊隸屬度。一般的模糊分類器有模糊C均值聚類法、監督模糊分類方法(Wang,1990)、混合像元模型(Foody and Cox,1994;Settle and Drake,1993)以及各種人工神經網路方法等(Kanellopoulos et al.,1992;Paola and Schowengerdt,1995)。由於模糊分類的結果是像元屬於每個類別的模糊隸屬度,因此也稱其為「軟分類器」,而將傳統的分類方法稱為「硬分類器」。
另一類是上下文分類器(contextual classifier),它是一種綜合考慮圖像光譜和空間特徵的分類器。一般的光譜分類器只是考慮像元的光譜特徵。但是,在遙感圖像中,相鄰的像元之間一般具有空間自相關性。空間自相關程度強的像元一般更可能屬於同一個類別。同時考慮像元的光譜特徵和空間特徵可以提高圖像分類精度,並可以減少分類結果中的「椒鹽現象」。當類別之間的光譜空間具有重疊時,這種現象會更明顯(Cortijo et al.,1995)。這種「椒鹽現象」可以通過分類的後處理濾波消除,也可以通過在分類過程中加入代表像元鄰域關系的信息解決。
在分類過程中可以通過不同方式加入上下文信息。一是在分類特徵中加入圖像紋理信息;另一種是圖像分割技術,包括區域增長/合並常用演算法(Ketting and Landgrebe,1976)、邊緣檢測方法、馬爾可夫隨機場方法。Rignot and Chellappa(1992)用馬爾可夫隨機場方法進行SAR圖像分類,取得了很好的效果,Paul Smits(1997)提出了保持邊緣細節的馬爾可夫隨機場方法,並用於SAR圖像的分類;Crawford(1998)將層次分類方法和馬爾可夫隨機場方法結合進行SAR圖像分類,得到了更高的精度;Cortijo(1997)用非參數光譜分類對遙感圖像分類,然後用ICM演算法對初始分類進行上下文校正。
『肆』 常用的數據分析方法有哪些
常見的數據分析方法有哪些?
1.趨勢分析
當有大量數據時,我們希望更快,更方便地從數據中查找數據信息,這時我們需要使用圖形功能。所謂的圖形功能就是用EXCEl或其他繪圖工具來繪制圖形。
趨勢分析通常用於長期跟蹤核心指標,例如點擊率,GMV和活躍用戶數。通常,只製作一個簡單的數據趨勢圖,但並不是分析數據趨勢圖。它必須像上面一樣。數據具有那些趨勢變化,無論是周期性的,是否存在拐點以及分析背後的原因,還是內部的或外部的。趨勢分析的最佳輸出是比率,有環比,同比和固定基數比。例如,2017年4月的GDP比3月增加了多少,這是環比關系,該環比關系反映了近期趨勢的變化,但具有季節性影響。為了消除季節性因素的影響,引入了同比數據,例如:2017年4月的GDP與2016年4月相比增長了多少,這是同比數據。更好地理解固定基準比率,即固定某個基準點,例如,以2017年1月的數據為基準點,固定基準比率是2017年5月數據與該數據2017年1月之間的比較。
2.對比分析
水平對比度:水平對比度是與自己進行比較。最常見的數據指標是需要與目標值進行比較,以了解我們是否已完成目標;與上個月相比,要了解我們環比的增長情況。
縱向對比:簡單來說,就是與其他對比。我們必須與競爭對手進行比較以了解我們在市場上的份額和地位。
許多人可能會說比較分析聽起來很簡單。讓我舉一個例子。有一個電子商務公司的登錄頁面。昨天的PV是5000。您如何看待此類數據?您不會有任何感覺。如果此簽到頁面的平均PV為10,000,則意味著昨天有一個主要問題。如果簽到頁面的平均PV為2000,則昨天有一個跳躍。數據只能通過比較才有意義。
3.象限分析
根據不同的數據,每個比較對象分為4個象限。如果將IQ和EQ劃分,則可以將其劃分為兩個維度和四個象限,每個人都有自己的象限。一般來說,智商保證一個人的下限,情商提高一個人的上限。
說一個象限分析方法的例子,在實際工作中使用過:通常,p2p產品的注冊用戶由第三方渠道主導。如果您可以根據流量來源的質量和數量劃分四個象限,然後選擇一個固定的時間點,比較每個渠道的流量成本效果,則該質量可以用作保留的總金額的維度為標准。對於高質量和高數量的通道,繼續增加引入高質量和低數量的通道,低質量和低數量的通過,低質量和高數量的嘗試策略和要求,例如象限分析可以讓我們比較和分析時間以獲得非常直觀和快速的結果。
4.交叉分析
比較分析包括水平和垂直比較。如果要同時比較水平和垂直方向,則可以使用交叉分析方法。交叉分析方法是從多個維度交叉顯示數據,並從多個角度執行組合分析。
分析應用程序數據時,通常分為iOS和Android。
交叉分析的主要功能是從多個維度細分數據並找到最相關的維度,以探究數據更改的原因。
『伍』 數據分析方法一般分為哪三種
1、漏斗分析
漏斗分析是指通過數據分析找到有問題的業務環節,並對其優化。
漏斗分析兩大作用:其一,漏斗分析可以對各個業務階段的用戶、流量的變化進行監控,及時分析低轉化率的環節,找出流失的關鍵,並不斷優化。其二,漏斗分析可以根據不同的人群、渠道,進行差異化的分析,比如新渠道、新客戶,分析出最佳的和最差的,這樣能夠提高操作的准確性和效率。
3、對比分析法
對比分析法即對比數據,分析差別,可以直觀地看到某個方面的變化或差距,並能准確量化地表示這些變化或差距。對比分析既可以基於時間進行對比,也可以基於分類,如部門、地區、類別等進行對比。在工作中,我們會使用對比分析法比較多,比如,如上年的銷量對比、目標與實際對比等。我們在對比的過程中要注意要找相似的對比對象。比如,佛山的人口與上海的人口對比就沒有可比性,是毫無意義的。
『陸』 統計學兩組數據的比較選用哪種方法
統計學兩組數據的比較選用分析方法。
分析兩組間的變數關系用——典型相關分析法。
比較兩種東西的性能上的一些比較數據可以利用——單因素方差分析。主要看數據是以什麼形式表達的,如果是定量的,比如身高,可以用t檢驗,如果是其他非正態的或方差不齊的,可以使用秩和檢驗。如果是定性的,比如是否患病,可以用卡方檢驗。
統計學
是通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用范圍幾乎覆蓋了社會科學和自然科學的各個領域。