1. 方差分析的分類舉例
1、單因素方差分析:
是用來研究一個控制變數的不同水平是否對觀測變數產生了顯著影響。這里,由於僅研究單個因素對觀測變數的影響,因此稱為單因素方差分析。
例如,分析不同施肥量是否給農作物產量帶來顯著影響,考察地區差異是否影響婦女的生育率,研究學歷對工資收入的影響等。這些問題都可以通過單因素方差分析得到答案。
單因素方差分析的第一步是明確觀測變數和控制變數。例如,上述問題中的觀測變數分別是農作物產量、婦女生育率、工資收入;控制變數分別為施肥量、地區、學歷。
單因素方差分析的第二步是剖析觀測變數的方差。方差分析認為:觀測變數值的變動會受控制變數和隨機變數兩方面的影響。據此,單因素方差分析將觀測變數總的離差平方和分解為組間離差平方和和組內離差平方和兩部分,用數學形式表述為:SST=SSA+SSE。
單因素方差分析的第三步是通過比較觀測變數總離差平方和各部分所佔的比例,推斷控制變數是否給觀測變數帶來了顯著影響。
單因素方差分析基本步驟:
提出原假設;選擇檢驗統計量;計算檢驗統計量的觀測值和概率P值;給定顯著性水平,並作出決策。
2、雙因素方差分析
雙因素方差分析(Double factor variance analysis) 有兩種類型:一個是無交互作用的雙因素方差分析,它假定因素A和因素B的效應之間是相互獨立的,不存在相互關系;另一個是有交互作用的雙因素方差分析,它假定因素A和因素B的結合會產生出一種新的效應。
例如,若假定不同地區的消費者對某種品牌有與其他地區消費者不同的特殊偏愛,這就是兩個因素結合後產生的新效應,屬於有交互作用的背景;否則,就是無交互作用的背景。這里介紹無交互作用的雙因素方差分析。
雙因素方差分析的基本思想:通過分析研究中不同來源的變異對總變異的貢獻大小,從而確定可控因素對研究結果影響力的大小。
3、多因素方差分析
多因素方差分析實質也採用了統計推斷的方法,其基本步驟與假設檢驗完全一致 。
(1)提出原假設
多因素方差分析的第一步是明確觀測變數和若干個控制變數,並在此基礎上提出原假設。
多因素方差分析的原假設是:各控制變數不同水平下觀測變數各總體的均值無顯著性差異,控制變數各效應和交互作用效應同時為0,即控制變數和它們的交互作用沒有對觀測變數產生顯著影響。
(2)觀測變數方差的分解
在多因素方差分析中,觀測變數取值的變動會受到三個方面的影響:第一,控制變數獨立作用的影響,指單個控制變數獨立作用對觀測變數的影響;第二,控制變數交互作用的影響,指多個控制變數相互搭配後對觀測變數產生的影響;
第三,隨機因素的影響,主要指抽樣誤差帶來的影響。基於上述原則,多因素方差分析將觀測變數的總變差分解為(以兩個控制變數為例):SST=SSA+SSB+SSAB+SSE。
其中,SST為觀測變數的總變差;SSA、SSB分別為控制變數A、B獨立作用引起的變差;SSAB為控制變數A、B兩兩交互作用引起的變差;SSE為隨機因素引起的變差。通常稱SSA+SSB+SSAB為主效應,SSAB為N向(N-WAY)交互效應,SSE為剩餘。
(3)比較觀測變數總離差平方和各部分所佔的比例,計算檢驗統計量的觀測值和相伴概率P值
多因素方差分析的第三步是通過比較觀測變數總離差平方和各部分所佔的比例,推斷控制變數以及控制變數的交互作用是否給觀測變數帶來了顯著影響。
容易理解,在觀測變數總離差平方和中,如果SSA所佔比例較大,則說明控制變數A是引起觀測變數變動的主要因素之一,觀測變數的變動可以部分地由控制變數A來解釋;反之,如果SSA所佔比例較小,則說明控制變數A不是引起觀測變數變動的主要因素,觀測變數的變動無法通過控制變數A來解釋。對SSB和SSAB同理。
在多因素方差分析中,控制變數可以進一步劃分為固定效應和隨機效應兩種類型。其中,固定效應通常指控制變數的各個水平是可以嚴格控制的,它們給觀測變數帶來的影響是固定的;隨機效應是指控制變數的各個水平無法作嚴格的控制,它們給觀測變數帶來的影響是隨機的。一般來說,區分固定效應和隨機效應比較困難。
由於這兩種效應的存在,多因素方差分析模型也有固定效應模型和隨機效應模型之分。這兩種模型分解觀測變數變差的方式是完全相同的,主要差別體現在檢驗統計量的構造方面。多因素方差分析採用的檢驗統計量仍為F統計量。如果有A、B兩個控制變數,通常對應三個F檢驗統計量。
4.給定顯著性水平,並做出決策
給定顯著性水平,與檢驗統計量的相伴概率P值作比較。在固定效應模式中,如果FA的相伴概率P值小於或等於給定的顯著性水平,則應拒絕原假設,認為控制變數A不同水平下觀測變數各總體均值有顯著差異,控制變數A的各個效應不同時為0,控制變數A的不同水平對觀測變數產生了顯著影響;
相反,如果FA的相伴概率P值大於給定的顯著性水平,則不應拒絕原假設,認為控制變數A不同水平下觀測變數各總體均值無顯著差異,控制變數A的各個效應同時為0,控制變數A的不同水平對觀測變數沒有產生顯著影響。對控制變數B和A、B交互作用的推斷同理。在隨機模型中,應首先對A、B的交互作用是否顯著進行推斷,然後再分別依次對A、B的效應進行檢驗。
2. 方差分析中方差齊性時常用的多重比較檢驗方法有哪些
1、圖基法(Tukey's Method)又稱T多重比較法,是用來比較均值 和 (g≠h)的所有可能的兩兩差異的一種聯立檢驗( a simultaneous test) ( Tukey,1953)。目標是為所有兩兩比較構建100(1-α)%的置信區間。
這種方法的基礎是學生化的極差分布( studentized range distribution)。令r為從均值為μ、方差為σ2的正態分布中得到的一些獨立觀察的極差(即最大值減最小值),令v為誤差的自由度數目(多重比較中為N-G)。
2、謝弗法( Scheffé's method) 又稱S多重比較法,也為多重比較構建一個100(1 -α) %的聯立置信區間( Scheffé,1953,1959)。區間由下式給出:
表示自由度為G-1和N-G的F分布的100(1 -α)百分數點。
謝弗法更具有普適性,因為所有可能的對比都可用它來檢驗統計顯著性,
而且可為參數的相應線性函數構建置信區間
(2)五種方差分析方法擴展閱讀
圖基法和謝弗法的比較
作為兩種主要的多重比較方法,圖基法和謝弗法各有其優缺點,總結如下:
1、謝弗法可應用於樣本量不等時的多重比較,而原始的圖基法只適用於樣本量相同時的比較。
2、在比較簡單成對差異( simple pairwise differences)時,圖基法最具效力,給出更窄的置信區間,雖然它對於廣義比對( general contrasts) 也可適用。
3、與此相比,對於涉及廣義比對的比較,謝弗法更具效力,給出更窄的置信區間。
4、如果F檢驗顯著,那麼謝弗法將從所有可能的比對(contrasts)中至少檢測出一對比對是統計顯著的。
5、謝弗法應用起來更為方便,因為F分布表比圖基法中使用的學生化極差分布更容易得到。
6、正態性假定和同方差性假定對於圖基法比對於謝弗法更加重要
3. 單因素方差分析多重比較是指什麼
單因素方差分析多重比較是指:用來測試某一個控制變數的不同水平是否給觀察變數造成顯著差異和變動。
通過不同水平下,各總體均值服從方差相同的正態分布。所以方差分析就是研究不同水平下各個總體的均值是否有顯著的差異。
統計推斷方法是計算F統計量,進行F檢驗,總的變異平方和 SST,控制變數引起的離差SSA(Between Group離差平方和),另一部分隨機變數引起的SSE(組內Within Group離差平方和),SST=SSA+SSE。
多重比較檢驗:單因素方差分析只能夠判斷控制變數是否對觀察變數產生了顯著影響,多重比較檢驗可以進一步確定控制變數的不同水平對觀察變數的影響程度如何,那個水平顯著,哪個不顯著。
單因素方差分析多重比較有兩兩比較方法:
1、LSD法:實際上就是t檢驗的變形,只是在變異和自由度的計算上利用了整個樣本信息,因此仍然存在放大一類錯誤的問題。
2、Scheffe法:當各組人數不相等,或者想進行復雜的比較時,用此法較為穩妥。但它相對比較保守。
3、S-N-K法:是運用最廣泛的一種兩兩比較方法。它採用Student Range 分布進行所有各組均值間的配對比較。該方法保證在H0真正成立時總的α水準等於實際設定值,即控制了一類錯誤。
4、Tukey法:對一、二類問題控製得很好,首選。
5、Bonferroni法:LSD法的改進,有效控制假陽性。
4. 16種常用的數據分析方法-方差分析
方差分析(Analysis ofVariance,簡稱ANOVA),又稱「變異數分析」,又叫F檢驗。是R.A.Fisher發明的,用於兩個及兩個以上樣本均數差別的顯著性檢驗。
方差波動來源
由於各種因素的影響,研究所得的數據呈現波動狀,而方差分析的基本原理認為不同處理組的均數間的差別基本來源有兩個:一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。
用變數在各組的均值與總均值之偏差平方和的總和表示,記作SSb,組間自由度dfb。
用變數在各組的均值與該組內變數值之偏差平方和的總和表示,記作SSw,組內自由度dfw。
總偏差平方和 SSt = SSb +SSw。
方差分析應用場景
方差分析在工作場景中如何應用呢?看案例:
假如產品針對用戶提出了三種提高客單價的策略A、B、C,現在要評估3種策略對提高客單價的效果差異。
如何知道3種策略效果有什麼不同?最簡單的方法就是做一個實驗。
如:隨機挑選一部分用戶,然後把這些用戶分成三組A、B、C組,A組用戶使用A策略、B組用戶使用B策略、C組用戶使用C策略,
策略實施一段時間以後,分析3組分別的客單價水平。哪組平均客單價高,就說明哪組策略有效。
可是,這樣得出的結論是否有偏差呢?
當然有,出現偏差的來源:
其一是實驗的用戶是隨機挑選的,有可能客單價高的那部分用戶(如高價值用戶)集中出現在某一組中,造成這組的策略效果更好。
當然,按照方差原理的差別基本來源,還有可能由於策略執行過程中,實驗條件造成的策略結果差異。
為了排除實驗結果中,上述兩種來源造成的結果偏差,就需要使用方差分析去證做進一步證實。最終獲得更嚴謹、更有說服力的策略結論。
方差分析中的名詞解釋
方差:又叫均方,是標准差的平方,是表示變異的量。
因素:方差分析的研究變數;例如,研究裁判打分的差異,裁判就被稱為因素;
水平:因素中的內容稱為水平;例如,總共有3個裁判打分,則裁判因素的水平就是3;
觀測因素:又稱觀測變數,指對影響總體的因素;
控制因素:又稱控制變數,指影響觀測變數的因素;
方差分析的3 個假定基礎
1.每組樣本數據對應的總體應該服從正態分布;
正態檢驗主要有兩種大的方法,一種是統計檢驗的方法:主要有基於峰度和偏度的SW檢驗、基於擬合度的KS、CVM、AD檢驗;另一種是用描述的方法:Q-Q圖和P-P圖、莖葉圖,利用四分位數間距和標准差來判斷。
2.每組樣本數據對應的總體方差要相等,方差相等又叫方差齊性;
方差齊性的主要判斷方法有:方差比、Hartley檢驗、Levene檢驗、BF法。
3.每組之間的值是相互獨立的,就是A、B、C組的值不會相互影響。
單因素方差分析-F 檢驗
方差分析把總的變異分為組間變異和組內變異:
組間變異:各組的均數與總均數間的差異;
組內變異:每組的每個測量值與該組均數的差異
離差平方和為:SS總=SS組間+SS組內
F統計量可表述為:F=MS組間/MS組內。
F值結論理解:通過計算得到的F值就可以查到P值,P值小於0.05,則拒絕原假設,認為其是有統計學意義的。
案例:
某飲料生產企業研製出一種新型飲料。飲料的顏色共有四種,分別為橘黃色、粉色、綠色和無色透明。
這四種飲料的營養含量、味道、價格、包裝等可能影響銷售量的因素全部相同,先從地理位置相似、經營規模相仿的五家超級市場上收集了前一期該種飲料的銷售量情況
表中20個數據各不相同,原因可能有兩個方面:
一、銷售地點影響。相同顏色的飲料在不同超市的銷售量不同。案例中五個超市地理位置相似、經營規模相仿,因此把不同地點的銷售量差異做為隨機因素影響。
二、飲料顏色不同的影響。在同一超市不同顏色的飲料銷售量不同。即使營養成分、味道、價格、包裝等方面因素都相同,銷售量也不相同。
這種不同雖然有類似抽樣隨機性造成,但更可能是人們對不同顏色的偏愛造成的。
根據上述分析,把案例分析問題歸結為:檢驗飲料顏色對銷售量是否有影響。
分析過程
一、建立假設:原假設「顏色對銷售量沒有影響」
二、計算不同顏色飲料銷售量水平均值
無色飲料銷售量均值=136.6÷5=27.32箱
粉色飲料銷售量均值=147.8÷5=29.56箱
桔黃色飲料銷售量均值=132.2÷5=26.44箱
綠色飲料銷售量均值=157.3÷5=31.46箱
三、計算各種顏色飲料銷售量的總均值
各種顏色飲料銷售量總的樣本平均數=(136.6+147.8+132.2+157.3)÷20=28.695箱
四、計算離差平方和、F值
F值=組間方差/組內方差=76.8455/(4-1)/ 39.0840/(20-4)=10.486
五、算出P值,做出結論
P值=根據F值算出P值=0.000466
結論解讀:
P-值=0.000466<顯著水平標准=0.05,假設不成立,說明飲料的顏色對銷售量有顯著影響。