❶ 相關性分析方法與原則
(一)相關性分析方法
相關分析是對所抽查分等單元的三個等指數和對應該單元單位面積一年內的作物標准糧實際產量進行回歸分析。
海南耕地的標准耕作制度為一年兩熟制,所採用的分等單元標准糧實際產量公式為:標准糧=作物 1 單產 × 作物 1 產量比系數+作物 2 單產 × 作物 2 產量比系數。對於自然質量等指數、利用等指數、經濟等指數與實際標准糧產量的關系採用以省或縣(市)為單位從分布上進行整體線性回歸分析。
(二)相關性分析原則
(1)以標准耕作制度二級區或二級區內的典型單位,如省或縣(市)為單位,抽查分等單元。
(2)所抽查的分等單元應有代表性與差異性,能夠反映不同地形地貌、土壤、區位、灌排設施和經濟發展水平條件的差異。
(3)一般情況下,每個等別應至少抽查 10% 的分等單元,如果個別分等單元數量少且沒有代表性,可以低於該比例,甚至不抽查。
(4)作物實際單產應以前三年正常年景的平均產量為基礎。
(5)每個二級區或典型縣所選分等單元數量不能低於統計學相關分析中樣本數量的最低比例要求。
❷ 如何實現兩變數之間的相關性分析
1、首先,大家平時理解的變數是單緯的,而不是你說的多維的.因此,對spss而言,X1、X2、X3、Y1、Y2、Y3分別是6個變數.
2、spss的相關性分析中可以分別統計這6個變數間的相關性.通過他們之間相關性的計算,你或許可以得到你所說的X與Y之間的相關性,但這種相關性只是你推測的定性描述而已,是不能定量描述的.
3、主成分分析,目的是將分析對象的多個維度簡化為少數幾個維度,方便分析,這樣做的前提是維度很多且其中的多個維度之間有較強的相關性.而不是你想像的可以把X1、X2、X3降維成一個變數,因為只有三個維度,已經很少了,這三個維度可以做降維分析的可能性幾乎沒有.
4、回歸分析,只有一個因變數,可以有多個自變數,最終算得因變數與自變數間的回歸關系.
估計你只是自己想像了一個例子,實際中一般是不會有這樣的分析案例的.
❸ 簡述變數間的相關分析有哪些方法
《變數間的相關關系》的主要內容為採用定性和定量相結合的方法研究變數之間的相關關系,主要研究線性相關關系.主要概念有「相關關系」、「散點圖」、「回歸直線和回歸直線方程」、「相關系數」等。
變數之間除了函數關系外,還有相關關系。
例:
(1)商品銷售收入與廣告支出經費之間的關系
(2)糧食產量與施肥量之間的關系
(3)人體內脂肪含量與年齡之間的關系 不同點:函數關系是一種確定的關系;而 相關關系是一種非確定關系。
分類
按相關的形式分為線性相關和非線性相關
1、一種現象的一個數值和另一現象相應的數值在指教坐標系中確定為一個點,稱為線性相關。
2、按影響因素的多少分為單相關和復相關
3、如果研究的是一個結果標志同某一因素標志相關,就稱單相關。
4、如果分析若干因素標志對結果標志的影響,稱為復相關或多元相關。
以上內容參考:網路-相關分析
❹ 因子分析法和主成分分析法的區別與聯系
一、方式不同:
1、因子分析法:
通過從變數群中提取共性因子
2、主成分分析法:
通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。
二、應用不同:
1、因子分析法:
主要應用於市場調研領域,在市場調研中,研究人員關心的是一些研究指標的集成或者組合,這些概念通常是通過等級評分問題來測量的。
2、主成分分析法:
人口統計學、數量地理學、分子動力學模擬、數學建模、數理分析等學科中均有應用。
三、聯系:
因子分析法和主成分分析法都是統計分析方法,都要對變數標准化,並找出相關矩陣。
(4)不同分析方法之間的相關性擴展閱讀
主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。
因子分析法最早由英國心理學家C.E.斯皮爾曼提出。他發現學生的各科成績之間存在著一定的相關性,一科成績好的學生,往往其他各科成績也比較好,從而推想是否存在某些潛在的共性因子,或稱某些一般智力條件影響著學生的學習成績。因子分析可在許多變數中找出隱藏的具有代表性的因子。
❺ 如何分析三種試驗方法結果的相關性
分析:
統計學意義(p值)
結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變數的關聯是總體中各變數關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變數關聯有5%的可能是由於偶然性造成的。即假設總體中任意變數間均無關聯,我們重復類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變數關聯將等於或強於我們的實驗結果。(這並不是說如果變數間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變數存在關聯,重復研究和發現關聯的可能性與設計的統計學效力有關。)在許多研究領域,0.05的p值通常被認為是可接受錯誤的邊界水平。
如何判定結果具有真實的顯著性
在最後結論中判斷什麼樣的顯著性水平具有統計學意義,不可避免地帶有武斷性。換句話說,認為結果無效而被拒絕接受的水平的選擇具有武斷性。實踐中,最後的決定通常依賴於數據集比較和分析過程中結果是先驗性還是僅僅為均數之間的兩兩>比較,依賴於總體數據集里結論一致的支持性證據的數量,依賴於以往該研究領域的慣例。通常,許多的科學領域中產生p值的結果≤0.05被認為是統計學意義的邊界線,但是這顯著性水平還包含了相當高的犯錯可能性。結果0.05≥p>0.01被認為是具有統計學意義,而0.01≥p≥0.001被認為具有高度統計學意義。但要注意這種分類僅僅是研究基礎上非正規的判斷常規。
所有的檢驗統計都是正態分布的嗎?
並不完全如此,但大多數檢驗都直接或間接與之有關,可以從正態分布中推導出來,如t檢驗、f檢驗或卡方檢驗。這些檢驗一般都要求:所分析變數在總體中呈正態分布,即滿足所謂的正態假設。許多觀察變數的確是呈正態分布的,這也是正態分布是現實世界的基本特徵的原因。當人們用在正態分布基礎上建立的檢驗分析非正態分布變數的數據時問題就產生了,(參閱非參數和方差分析的正態性檢驗)。這種條件下有兩種方法:一是用替代的非參數檢驗(即無分布性檢驗),但這種方法不方便,因為從它所提供的結論形式看,這種方法統計效率低下、不靈活。另一種方法是:當確定樣本量足夠大的情況下,通常還是可以使用基於正態分布前提下的檢驗。後一種方法是基於一個相當重要的原則產生的,該原則對正態方程基礎上的總體檢驗有極其重要的作用。即,隨著樣本量的增加,樣本分布形狀趨於正態,即使所研究的變數分布並不呈正態。
1統計軟體的選擇
在進行統計分析時,作者常使用非專門的數理統計軟體Excel進行統計分析。由於Excel提供的統計分析功能十分有限,很難滿足實際需要。目前,國際上已開發出的專門用於統計分析的商業軟體很多,比較著名有SPSS(Statistical Package for Social Sciences)、SAS(Statistical Analysis System)、BMDP和STATISTICA等。其中,SPSS是專門為社會科學領域的研究者設計的(但是,此軟體在自然科學領域也得到廣泛應用);BMDP是專門為生物學和醫學領域研究者編制的統計軟體。目前,國際學術界有一條不成文的約定:凡是用SPSS和SAS軟體進行統計分析所獲得的結果,在國際學術交流中不必說明具體演算法。由此可見,SPSS和SAS軟體已被各領域研究者普遍認可。建議作者們在進行統計分析時盡量使用這2個專門的統計軟體。
2均值的計算
在處理實驗數據或采樣數據時,經常會遇到對相同采樣或相同實驗條件下同一隨機變數的多個不同取值進行統計處理的問題。此時,多數作者會不假思索地直接給出算術平均值和標准差。顯然,這種做法是不嚴謹的。在數理統計學中,作為描述隨機變數總體大小特徵的統計量有算術平均值、幾何平均值和中位數等。何時用算術平均值?何時用幾何平均值?以及何時用中位數?這不能由研究者根據主觀意願隨意確定,而要根據隨機變數的分布特徵確定。反映隨機變數總體大小特徵的統計量是數學期望,而在隨機變數的分布服從正態分布時,其總體的數學期望就是其算術平均值。此時,可用樣本的算術平均值描述隨機變數的大小特徵。如果所研究的隨機變數不服從正態分布,則算術平均值不能准確反映該變數的大小特徵。在這種情況下,可通過假設檢驗來判斷隨機變數是否服從對數正態分布。如果服從對數正態分布,則可用幾何平均值描述該隨機變數總體的大小。此時,就可以計算變數的幾何平均值。如果隨機變數既不服從正態分布也不服從對數正態分布,則按現有的數理統計學知識,尚無合適的統計量描述該變數的大小特徵。退而求其次,此時可用中位數來描述變數的大小特徵。
3相關分析中相關系數的選擇
在相關分析中,作者們常犯的錯誤是簡單地計算Pearson積矩相關系數,而且既不給出正態分布檢驗結果,也往往不明確指出所計算的相關系數就是Pearson積矩相關系數。常用的相關系數除有Pearson積矩相關系數外,還有Spearman秩相關系數和Kendall秩相關系數等。其中,Pearson積矩相關系數可用於描述2個隨機變數的線性相關程度(相應的相關分析方法稱為「參數相關分析」,該方法的檢驗功效高,檢驗結果明確);Spearman或Kendall秩相關系數用來判斷兩個隨機變數在二維和多維空間中是否具有某種共變趨勢,而不考慮其變化的幅度(相應的相關分析稱為「非參數相關分析」,該方法的檢驗功效較參數方法稍差,檢驗結果也不如參數方法明確)。各種成熟的統計軟體如SPSS、SAS等均提供了這些相關系數的計算模塊。在相關分析中,計算各種相關系數是有前提的。對於二元相關分析,如果2個隨機變數服從二元正態分布,或2個隨機變數經數據變換後服從二元正態分布,則可以用Pearson積矩相關系數描述這2個隨機變數間的相關關系(此時描述的是線性相關關系),而不宜選用功效較低的Spearman或Kendall秩相關系數。如果樣本數據或其變換值不服從正態分布,則計算Pearson積矩相關系數就毫無意義。退而求其次,此時只能計算Spearman或Kendall秩相關系數(盡管這樣做會導致檢驗功效的降低)。因此,在報告相關分析結果時,還應提供正態分布檢驗結果,以證明計算所選擇的相關系數是妥當的。需要指出的是,由於Spearman或Kendall秩相關系數是基於順序變數(秩)設計的相關系數,因此,如果所採集的數據不是確定的數值而僅僅是秩,則使用Spearman或Kendall秩相關系數進行非參數相關分析就成為唯一的選擇。
4相關分析與回歸分析的區別
相關分析和回歸分析是極為常用的2種數理統計方法,在地質學研究領域有著廣泛的用途。然而,由於這2種數理統計方法在計算方面存在很多相似之處,且在一些數理統計教科書中沒有系統闡明這2種數理統計方法的內在差別,從而使一些研究者不能嚴格區分相關分析與回歸分析。最常見的錯誤是,用回歸分析的結果解釋相關性問題。例如,作者將「回歸直線(曲線)圖」稱為「相關性圖」或「相關關系圖」;將回歸直線的R2(擬合度,或稱「可決系數」)錯誤地稱為「相關系數」或「相關系數的平方」;根據回歸分析的結果宣稱2個變數之間存在正的或負的相關關系。這些情況在國內極為普遍。
相關分析與回歸分析均為研究2個或多個隨機變數間關聯性的方法,但2種數理統計方法存在本質的差別,即它們用於不同的研究目的。相關分析的目的在於檢驗兩個隨機變數的共變趨勢(即共同變化的程度),回歸分析的目的則在於試圖用自變數來預測因變數的值。在相關分析中,兩個變數必須同時都是隨機變數,如果其中的一個變數不是隨機變數,就不能進行相關分析。這是相關分析方法本身所決定的。對於回歸分析,其中的因變數肯定為隨機變數(這是回歸分析方法本身所決定的),而自變數則可以是普通變數(規范的叫法是「固定變數」,有確定的取值)也可以是隨機變數。如果自變數是普通變數,採用的回歸方法就是最為常用的「最小二乘法」,即模型Ⅰ回歸分析;如果自變數是隨機變數,所採用的回歸方法與計算者的目的有關---在以預測為目的的情況下,仍採用「最小二乘法」,在以估值為目的的情況下須使用相對嚴謹的「主軸法」、「約化主軸法」或「Bartlett法」,即模型Ⅱ回歸分析。顯然,對於回歸分析,如果是模型Ⅰ回歸分析,就根本不可能回答變數的「相關性」問題,因為普通變數與隨機變數之間不存在「相關性」這一概念(問題在於,大多數的回歸分析都是模型Ⅰ回歸分析!)。此時,即使作者想描述2個變數間的「共變趨勢」而改用相關分析,也會因相關分析的前提不存在而使分析結果毫無意義。如果是模型Ⅱ回歸分析,鑒於兩個隨機變數客觀上存在「相關性」問題,但因回歸分析方法本身不能提供針對自變數和因變數之間相關關系的准確的檢驗手段,因此,若以預測為目的,最好不提「相關性」問題;若以探索兩者的「共變趨勢」為目的,建議作者改用相關分析。
❻ 如何用SPSS檢測兩組變數之間的的相關性一組變數有30個變數另外一組由9個變數!
無論線性相關還是非線性相關都要滿足有兩個變數變數里包括一組觀測值,且兩組變數中的觀測值一一對應,所謂相關就是看兩變數中這些數一一對應的程度,現在一個變數里9個觀測值,那麼可以選擇另一組中對應的9個觀測值進行相關檢驗。9個和30個沒法計算,求相關的軟體很多,可用excel 也可用公式自己算e(xy)-e(x)e(y)/(d(x)d(y))^1/2
❼ 相關性分析的概念及方法
相關分析就是根據一個因素(變數)與另一個因素(變數)的相關系數是否大於臨界值,判斷兩個因素是否相關。在相關的因素之間,根據相關系數大小判斷兩個因素關系的密切程度,相關系數越大,說明兩者關系越密切(何曉群,2002)。這種方法從總體上對問題可以有一個大致認識,但卻很難在錯綜復雜的關系中把握現象的本質,找出哪些是主要因素,哪些是次要因素,有時甚至得出錯誤結論。為此,提出使用數學上的偏相關分析與逐步回歸相結合的辦法來解決這類問題。
偏相關性分析基本原理是,若眾多因素都對某一因素都存在影響,當分析某一因素的影響大小時,把其他因素都限制在某一水平范圍內,單獨分析該因素對某一因素所帶來的影響,從而消除其他因素帶來的干擾。比如分析壓實作用(或埋深)對孔隙度和滲透率的影響時,便把岩石成分、粒度、膠結類型等都限制在一定范圍來單獨討論壓實作用,而數學上的偏相關分析恰恰就是解決這類問題的方法,偏相關系數的大小就代表了這種影響程度。結合多因素邊引入、邊剔除的逐步回歸分析方法,也可消除多個因素(自變數)間的相互干擾和多個因素對因變數的重復影響,保留其中的有用信息,挑選出對因變數影響較顯著的因素,剔除了一些次要因素,被挑選出的主要因素的標准回歸系數和偏回歸平方和的大小反映了各參數對因變數(充滿度)的影響大小。因此根據各因素(自變數)與因變數間的偏相關系數大小,結合標准回歸系數和偏回歸平方和,便可以將各因素對因變數的影響大小進行定量排序。其基本步驟如下:
第一步,找出所有可能對因變數產生影響的因素(或參數),同時對一些非數值型參數進行量化處理;
第二步,計算因變數與各參數間的簡單相關系數,根據這些簡單相關系數的大小,初步分析它們與因變數間的簡單相關關系;
第三步,計算因變數與各參數間的偏相關系數、標准回歸系數和偏回歸平方和;
第四步,根據偏相關系數的大小,再結合標准回歸系數和偏回歸平方和,綜合分析因變數與各參數間的關系密切程度,其值越大,關系越密切,影響越大,反之亦然。
❽ 分析空間相關性的方法主要有哪些
1、聚類分析(Cluster Analysis)
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標准,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對於同一組數據進行聚類分析,所得到的聚類數未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究從變數群中提取共性因子的統計技術。因子分析就是從大量的數據中尋找內在的聯系,減少決策的困難。
因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發抽因法、拉奧典型抽因法等等。這些方法本質上大都屬近似方法,是以相關系數矩陣為基礎的,所不同的是相關系數矩陣對角線上的值,採用不同的共同性□2估值。在社會學研究中,因子分析常採用以主成分分析為基礎的反覆法。
3、相關分析(Correlation Analysis)
相關分析(correlation analysis),相關分析是研究現象之間是否存在某種依存關系,並對具體有依存關系的現象探討其相關方向以及相關程度。相關關系是一種非確定性的關系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產量,則X與Y顯然有關系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系。
4、對應分析(Correspondence Analysis)
對應分析(Correspondence analysis)也稱關聯分析、R-Q型因子分析,通過分析由定性變數構成的交互匯總表來揭示變數間的聯系。可以揭示同一變數的各個類別之間的差異,以及不同變數各個類別之間的對應關系。對應分析的基本思想是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。
5、回歸分析
研究一個隨機變數Y對另一個(X)或一組(X1,X2,…,Xk)變數的相依關系的統計分析方法。回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的自變數的多少,可分為一元回歸分析和多元回歸分析;按照自變數和因變數之間的關系類型,可分為線性回歸分析和非線性回歸分析。
6、方差分析(ANOVA/Analysis of Variance)
又稱「變異數分析」或「F檢驗」,是R.A.Fisher發明的,用於兩個及兩個以上樣本均數差別的顯著性檢驗。由於各種因素的影響,研究所得的數據呈現波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。方差分析是從觀測變數的方差入手,研究諸多控制變數中哪些變數是對觀測變數有顯著影響的變數。這個 還需要具體問題具體分析