⑴ 食品感官檢驗常用方法
食品感官檢驗常用的方法有差別檢驗、標度和類別檢驗、分析和描述性檢驗等。差別檢驗主要是確定兩種產品之間是否存在感官差別。主要有5種類型,分別為成對比較檢驗、三點檢驗、三一三點檢驗、五中取二檢驗、「A」非「A」檢驗。這幾種類型在實際選擇時應根據實際檢驗情況加以選擇。標度和類別檢驗主要用於估計差別順序、差別大小和樣品應歸屬的類別和等級。標度和類別檢驗廣泛應用在估價產品一種或多種強度的強度、產品質量的評價。這種檢驗方法還可具體分為排序檢驗法、評估法、分等法、類別檢驗法、成對比較檢驗法等。
⑵ 我想考察不同產地的樣品中某一成分是否有差異該用什麼統計方法
檢驗差異的方法有三種,非參數秩和檢驗、卡方檢驗和方差分析。根據不同的數據類型選擇不同的方法。
非參數秩和檢驗用於定類-定序數據分析,例如不同地方人的考試成績等級是否存在差異,某一成分應該不存在等級增減情況,所以應該不能用這種方法。
卡方檢驗用於定類-定類數據分析,例如不同性別的人(男,女)患有高血壓(是,否)是否存在差異,主觀判斷提問者「成分差異應該也不是屬於這種??
方差分析用於定類-數值型數據分析,例如不同地方的人的身高是否存在差別,成分差異是否屬於數值型提者自己判斷一下?
因為不確定是哪種數據,保險起見附上卡方檢驗和方差分析的方法(使用軟體spss)
1、卡方檢驗
(1)操作:分析-描述統計-交叉表(統計量勾選卡方;單元格勾選百分比中的行)
(2)結果分析:先看顯著值P值,如果p小於0.05則認為存在顯著差異,大於0.05,則不存在顯著差異。如果存在顯著差異了,就看交叉表每個情況所佔的百分比,判斷誰比誰高或低。(一般來說顯著值就是皮爾遜卡方對應的顯著性,下表中為0.000,但是根據下圖藍色的框,如果有超過20%的期望計數小於5的話就不能看皮爾遜卡方的,這個時候要看費希爾確切概率,怎麼看呢?要回到之前操作那裡,做交叉表分析的時候,點擊右邊的「精確」然後在框裡面點擊「精確」這個時候就會出現費希爾確切概率,操作如下下圖,費希爾確切系數小於0.05則存在顯著差異,否則不存在顯著差異)
③多重比較
得出上述結論之後,不能簡單根據均值與標准差下定論,還需要看多重比較
兩兩比較,P<0.05存在顯著差異;P>0.05不存在顯著差異
④在多重比較表格得知哪兩個因素之間存在顯著差異之後,再回到描述表格,下結論:誰顯著小於(大於)誰(也可看均值圖)
⑶ 推斷統計的差異檢驗方法是什麼
推斷統計包括總體參數估計和假設檢驗。差異檢驗是「假設檢驗」的一種,用於檢測科學實驗中實驗組與對照組之間是否有差異以及差異是否顯著的方法。
⑷ 組間差異檢驗,終於有人講清楚了!
什麼是組間差異檢驗?就是組間的差異分析以及顯著性檢驗,應用統計學上的 假設檢驗 方法,檢驗組間是否有差異及其差異程度。坦率地講,所有的差異檢驗都基於一個假設:組間沒有差異,變數之間沒有關系(即原假設, )。上海交大王成老師也說方差分析其實研究的就是不同水平下是否有差異化的假設檢驗問題。而假設檢驗就是先對總體參數提出某種假設,然後利用樣本信息判斷假設是否成立的過程。
所以,本著負責的態度,在本文的開始我們有必要回顧一下《概率論與數理統計》中關於假設檢驗的基本概念。
其中 參數 這個概念最值得我們好好體會,因為今天的主角 組間差異檢驗 ,在這個水平上可以分為兩類:參數檢驗和非參數檢驗。那麼什麼叫參數檢驗和非參數檢驗,它們之間的區別是什麼呢。要理解前面的問題,首先需要明白統計推斷的概念。
統計推斷是研究如何利用樣本數據來推斷總體特徵的統計學方法,包括參數估計和假設檢驗兩大類。總體的參數一般是未知的,通常可以用樣本統計量來對總體的參數進行估計,例如可以用樣本均值對總體均值進行點估計,利用樣本均值的分布對總體均值進行區間估計,這些都稱為參數估計。
參數檢驗和非參數檢驗的區別:
那麼什麼時候用參數檢驗,什麼時候用非參數檢驗呢?非參數檢驗一般不直接用樣本觀察值作分析,統計量的計算基於原始數據在整個樣本中的秩次,丟棄了觀察值的具體數值,因此凡適合參數檢驗的資料,應首選參數檢驗。但是不清楚是否合適參數檢驗的資料,則應採用非參數檢驗。
此處也許大家期待作者帶我們溫習一下假設檢驗的4 個步驟(提出假設;構造檢驗統計量;根據顯著水平,確定臨界值和拒絕域;做出檢驗決策),但是帶有幾分傲氣的作者絕情地不為我們沒有學好的課程補刀,補課的事情讓我們自己去做,他轉而講自己認為重要的知識點:抽樣分布。
知道我們的研究對象整體處於什麼狀態,是一件非常重要的事情。三大抽樣分布( -分布、 分布、 -分布)和正態分布共同構成了現代數理統計學的基礎,其中,正態分布和 -分布是關於均值的分布; 分布、 -分布是關於方差的分布。很多同學做統計做了很多年,卻不知道為什麼幾乎每個方差分析都有 值。可見,統計學拼到最後拼的都是 基礎 。
離開分布,假設檢驗無從談起;離開假設檢驗,差異分析毫無根基。同樣地,出於人道主義,我們來重溫一下抽樣分布。
設 X 1 ,X 2 ,......X n 相互獨立, 都服從標准正態分布N(0,1), 則稱隨機變數χ 2 =X 1 2 +X 2 2 +......+X n 2 所服從的分布為自由度為 n 的 分布
設 服從標准正態分布N(0,1), 服從自由度為n的 分布,且 、 相互獨立,則稱變數 所服從的分布為自由度為n的 -分布
設 服從自由度為 的 分布, 服從自由度為 的 分布,且 、 相互獨立,則稱變數 所服從的分布為 分布,其中第一自由度為 ,第二自由度為 。一般滴,這里F就是均方之比。
不管是參數檢驗還是非參數檢驗,都要基於特定的分布來做假設檢驗。當總體分布已知時,例如總體服從正態分布,我們可以根據給定的顯著性水平(通常為0.01 或0.05)查表獲得臨界值。當總體分布未知時,可以先用Permutation test 構造經驗分布,再根據顯著性水平獲得臨界值。
傳統的統計量檢驗的方法是在檢驗之前確定顯著性水平 ,也就意味著事先確定了臨界值和拒絕域。這樣,不論檢驗統計量的值是大還是小,只要它的值落入拒絕域就拒絕原假設,否則就不拒絕原假設。這種給定顯著性水平的方法,無法給出觀測數據與原假設之間不一致程度的精確度量。要測量出樣本觀測數據與原假設中假設值的偏離程度,則需要計算pvalue值。pvalue 值,也稱為觀測到的顯著性水平,它表示為如果原假設 正確時得到實際觀測樣本結果的概率。pvalue 值越小,說明實際觀測到的數據與 之間的不一致的程度就越大,檢驗的結果就越顯著。
變數較多,判斷組間差異時需要多重檢驗的情況在宏基因組擴增子差異分析中十分常見。這種情況下,基於單次比較的檢驗標准將變得過於寬松,使得陽性結果中的錯誤率(FDR 值FalseDiscovery Rate)非常大(已經大到令人不可忍受的地步)。怎麼辦呢?最好的辦法就提高判斷的標准(p value),單次判斷的犯錯概率就會下降,總體犯錯的概率也將下降。在多重檢驗中提高判斷標準的方法,我們就稱之為 多重檢驗校正 。從1979 年以來,統計學家提出了多種多重檢驗校正的方法。相應地,對p值校正之後的叫法也不一樣,比如,FDR、Q value、Adjusted p-value,這個大家知道在多重檢驗時需要校正就行了,具體的用法作者有時間再教大家(這個作者真是皮啊~~)。
關於宏基因組或擴增子組間差異檢驗的理論知識就到這了,作者認為知道以上知識點是必要的,也告訴我們,今天我們討論的是統計推斷。換句話說,找差異,我們是專業的。
人民為了找差異,這才學會做統計。為了說明組間的數據差異很大,人民開發了許多沿用至今的圖畫,下面我們就一起來揭開這一幅幅有差異的畫面。
在數據科學家的工具箱里,這是一款經久不衰、常用常新的瑞士軍刀。幾乎只要想到差異分析,就會想到箱線圖。也開發出類箱線圖的工具比如小提琴圖(小提琴圖Violin plot)
一般有進化樹和層次聚類樹,如果你想表達對象之間的距離差異,最直觀的的也許就是樹狀圖了。為了用圖表示親緣關系,把分類單位擺在圖上樹枝頂部,根據分枝可以表示其相互關系,具有二次元和三次元。在數量分類學上用於表型分類的樹狀圖,稱為表型樹狀圖(phenogram),摻入系統的推論的稱為系統樹狀圖(cladogram)以資區別。
貼心的作者小朋友把實現這些圖形的常見R包列給大家,安裝後就能用啦
這里說的基於物種言下之意是通過統計分析,可以有針對性的找出分組間豐度變化差異顯著的物種,並得到差異物種在不同分組間的富集情況,同時,可以比較組內差異和組間差異的大小,判斷不同分組間的群落結構差異是否具有顯著意義。也就是說可以找出區別組間的一個biomarker。
這類檢驗一般只輸出p值,它的目的很簡單,就是檢驗比較組之間的相似性距離是否有差異。常用的分析方法有卡方檢驗、Student t檢驗、Wilcoxon秩和檢驗等等。
如果只有兩個樣本比較,適合用卡方檢驗 ,不過說實在的,檢驗出來的結果沒什麼可靠性,因為現階段16s研究不做重復實在「難以服眾」了。先不說價格便宜,做重復壓根沒有難度,就是從生物學、統計學角度考慮,也需要做重復。
如果是兩組樣本(至少3重復),可以試一下Student t,Welch『st以及Wilcoxon秩和檢驗 。Student t檢驗需要樣本符合正態分布,而且方差對齊。當組間樣本數不同,方差也不對齊的時候,Welch』s t檢驗是很好的選擇。
Wilcoxon秩和檢驗又叫Mann-Whitney U 檢驗,是基於變數排名的一種統計方法,不需要樣本符合正態分布,也不需要樣本方差對齊,是更為廣泛的檢驗方法,但同時也由於檢驗太寬松,容易帶來很多假陽性。
如果是多組樣本比較,可以選擇one way ANOVA、TURKEY以及Kruskal-Wallis H檢驗等方法 。one way ANOVA和TURKEY其實都是基於方差分析,只不過後者帶有後驗,可以知道兩個分組對整體差異的貢獻度。
Kruskal-Wallis H檢驗本質也是一種秩和檢驗,與前兩者的區別在於,它不需要樣本數和方差的對齊,應用更為廣泛。Kruskal-Wallis檢驗又被稱之為單因素非參數方差分析。
毫不客氣地講,一般秩和檢驗或置換檢驗屬於非參數檢驗。在這類差異檢驗中,有兩種集成方法特別值得我們注意:LEfSe 、metastats。
得到結果展示如下,差異體現在柱形圖和樹狀圖上。LDA值分布柱狀圖中展示了LDA Score大於設定值(默認設置為4)的物種,即組間具有統計學差異的Biomarker。展示了不同組中豐度差異顯著的物種,柱狀圖的長度代表差異物種的影響大小(即為 LDA Score)。
在進化分支圖中,由內至外輻射的圓圈代表了由門至屬(或種)的分類級別。在不同分類級別上的每一個小圓圈代表該水平下的一個分類,小圓圈直徑大小與相對豐度大小呈正比。著色原則:無顯著差異的物種統一著色為黃色,差異物種Biomarker跟隨組進行著色,紅色節點表示在紅色組別中起到重要作用的微生物類群,綠色節點表示在綠色組別中起到重要作用的微生物類群,若圖中某一組缺失,則表明此組中並無差異顯著的物種,故此組缺失。圖中英文字母表示的物種名稱在右側圖例中進行展示。
metastats結果給出差異物種的p值和q值(表中 的數據是假的!)
所謂基於距離也就是檢驗的是群落差異而不是某個物種。上面所提及的檢驗方法,其實都只能告訴大家,這些分組是否有顯著差異(可以簡單理解為有無)。那如果想同時知道這些差異的程度(可以簡單理解為多少)呢,那需要Anosim,Adonis以及MRPP等檢驗方法。這些方法不但可以輸出檢驗顯著性結果(p值),還有程度結果(R值),R值可以用來判斷分組貢獻度大小。Anosim、Adonis這些可用於多元統計檢驗的模型就非常適合了。要值得注意的是,Anosim本質是基於排名的演算法,其實與NMDS的配合效果最好。如果是PCoA分析,建議配合使用Adonis檢驗結果。
Anosim(Analysis of similarities)是一種非參數檢驗方法。它首先通過變數計算樣本間關系(或者說相似性),然後計算關系排名,最後通過排名進行置換檢驗判斷組間差異是否顯著不同於組內差異。這個檢驗有兩個重要的數值,一個是p值,可以判斷這種組間與組內的比較是否顯著;一個是R值,可以得出組間與組內比較的差異程度。Anosim用來檢驗組間的差異是否顯著大於組內差異,從而判斷分組是否有意義,Anosim分析使用R vegan包anosim函數,一般基於Bray-Curtis距離值的秩次進行組間差異顯著行檢驗,詳細計算過程可查看 Anosim 。
該方法主要有兩個數值結果:一個是R,用於不同組間否存在差異;一個是P,用於說明是否存在顯著差異。以下分別對兩個數值進行說明:
R值的計算公式如下:
rB:組間差異性秩的平均值(mean rank of between group dissimilarities)
rW:組內差異性秩的平均值(mean rank of within group dissimilarities)
n:總樣本個數(the number of samples)
R的范圍為[-1,1]
R>0說明組間差異大於組內差異,R<0組間差異小於組內差異。
R只是組間是否有差異的數值表示,並不提供顯著性說明。
P值則說明不同組間差異是否顯著,該P值通過置換檢驗(Permutation Test)獲得。
置換檢驗大致原理:(假設原始分組為實驗組和對照組)
1、對所有樣本進行隨機分組,即實驗組和對照組。
2、計算當前分組時的R值,即為Ri。
3、重復當前操作N次,對所有Ri及原始R從大到小排序,R所處的位置除以N即為置換檢驗P值。
ADONIS又稱置換多因素方差分析(permutational MANOVA)或非參數多因素方差分析(nonparametric MANOVA),是一種基於Bray-Curtis距離的非參數多元方差分析方法。它與Anosim的用途其實差不多,也能夠給出不同分組因素對樣品差異的解釋度(R值)與分組顯著性(P值)。不同點是應用的檢驗模型不同,ADONIS本質是基於F統計量的方差分析,所以很多細節與上述方差分析類似。該方法可分析不同分組因素對樣本差異的解釋度,並使用置換檢驗對分組的統計學意義進行顯著性分析。ADONIS分析使用R vegan包adonis函數進行分析,詳細計算過程可 adonis
MRPP分析與Anosim類似,但是MRPP是基於Bray-Curtis的參數檢驗,用於分析組間微生物群落結構的差異是否顯著,通常配合PCA、PCoA、NMDS等降維圖使用,MRPP分析使用R vegan包mrpp函數,詳細計算過程可查看 MRPP
分子方差分析法 (AMOVA)與ANOVA類似,是基於加權或非加權Unifrac距離矩陣,檢驗不同組間差異顯著性的非參數分析方法。一般基於Unifrac距離,使用mothur軟體amova函數進行組間差異分析,詳細計算過程可查看 Amova
Mantel test,Mantel test 是對兩個矩陣相關關系的檢驗,顧名思義,是一種檢驗。既然是檢驗就得有原假設,它的原假設是兩個矩陣見沒有相關關系。檢驗過程如下:兩個矩陣都對應展開,變數兩列,計算相關系數(理論上什麼相關系數都可以計算,但常用pearson相關系數),然後其中一列或兩列同時置換,再計算一個值,permutation 成千上萬次,看實際的r值在所得r值分布中的位置,如果跟隨機置換得到的結果站隊較近,則不大相關,如果遠遠比隨機由此得到顯著性。詳細計算過程可查看 Mantel test
作者實在太懶,堅持別人已經說過的話不願再說,只要抄過來就好了,在文章的最後他把趙小胖的一段話原版搬了過來:
無論你從事何種領域的科學研究還是統計調查,顯著性檢驗作為判斷兩個乃至多個數據集之間是否存在差異的方法被廣泛應用於各個科研領域。筆者作為科研界一名新人也曾經在顯著性檢驗方面吃過許多苦頭。後來醉心於統計理論半載有餘才摸到顯著性檢驗的皮毛,也為顯著性檢驗理論之精妙,品種之繁多,邏輯之嚴謹所折服。在此,特寫下這篇博文,以供那些仍然掙扎在顯著性檢驗泥潭的非統計專業的科研界同僚們參考。由於筆者本人也並非統計專業畢業,所持觀點粗陋淺鄙,貽笑大方之處還望諸位業界前輩,領域翹楚不吝賜教。小可在此謝過諸位看官了。
參考:
⑸ 差異分析的檢驗方法
眾所周知,當你所自己今年比去年更優秀的時候是不可以隨便吹牛的,請把你在上發文的頻率以及質量擺出來!
面對今年和去年的數據,或許你需要一個統計檢驗的方法...
也就是方差相等,在t檢驗和方差分析中,都需要滿足這一前提條件。在兩組和多組比較中,方差齊性的意思很容易理解,無非就是比較各組的方差大小,看看各組的方差是不是差不多大小,如果差別太大,就認為是方差不齊,或方差不等。如果差別不大,就認為方差齊性或方差相等。當然,這種所謂的差別大或小,需要統計學的檢驗,所以就有了方差齊性檢驗。
在t檢驗和方差分析中,要求樣本是來自正態分布的樣本。以此為前提才可以對樣本的均值進行統計檢驗。檢驗的目的是判斷這兩個樣本是否來自於同一個總體的隨機抽樣結果還是來自完全不同的樣本。另外需要注意的是,如果樣本量大於30,此時樣本的均值也近似服從正態分布,這是我們也可以使用t檢驗。
組間差異檢驗,終於有人講清楚了!
參數檢驗和非參數檢驗的區別:
1 參數檢驗是針對參數做的假設,非參數檢驗是針對總體分布情況做的假設,這個是區分參數檢驗和非參數檢驗的一個重要特徵。 例如兩樣本比較的t 檢驗是判斷兩樣本分別代表的總體的均值是否具有差異,屬於參數檢驗。而兩樣本比較的秩和檢驗(wilcoxcon 檢驗及Mann-Whitney 檢驗)是判斷兩樣本分別代表的總體的位置有無差別(即兩總體的變數值有無傾向性的未知偏離),自然屬於非參數檢驗。
2 二者的根本區別在於參數檢驗要利用到總體的信息(總體分布、總體的一些參數特徵如方差),以總體分布和樣本信息對總體參數作出推斷;非參數檢驗不需要利用總體的信息(總體分布、總體的一些參數特徵如方差),以樣本信息對總體分布作出推斷。
3,參數檢驗只能用於等距數據和比例數據,非參數檢驗主要用於記數數據。也可用於等距和比例數據,但精確性就會降低。
如何理解非參數檢驗
參數檢驗 通常是假設 總體服從正態分布,樣本統計量服從T分布 的基礎之上,對總體分布中一些未知的參數,例如總體均值、總體方差和總體標准差等進行統計推斷。如果總體的分布情況未知,同時樣本容量又小,無法運用中心極限定理實施參數檢驗,推斷總體的集中趨勢和離散程度的參數情況。這時,可以用非參數檢驗,非參數檢驗對總體分布不做假設,直接從樣本的分析入手推斷總體的分布。
與參數檢驗相比,非參數檢驗適用范圍廣,特別適用於小樣本數據、總體分布未知或偏態、方差不齊及混合樣本等各類型數據。
非參數檢驗應用廣,但參數檢驗精確度更高。
採用SPSS進行各項檢驗
方差和T檢驗 的區別在於,對於T檢驗的X來講,其只能為2個類別比如男和女。如果X為3個類別比如本科以下,本科,本科以上;此時只能使用方差分析。
方差分析(Analysis of Variance,簡稱ANOVA) ,又稱「變異數分析」,是R.A.Fisher發明的,用於兩個及兩個以上樣本均數差別的顯著性檢驗。
均為無序分類變數
① 卡方檢驗
卡方檢驗常用於分析無序分類變數之間的相關性,也可以用於分析二分類變數之間的關系。但是該檢驗只能分析相關的統計學意義,不能反映關聯強度。因此,我們常聯合Cramer's V檢驗提示關聯強度。
② Fisher精確檢驗
Fisher精確檢驗可以用於檢驗任何R*C數據之間的相關關系,但最常用於分析2*2數據,即兩個二分類變數之間的相關性。與卡方檢驗只能擬合近似分布不同的是,Fisher精確檢驗可以分析精確分布,更適合分析小樣本數據。但是該檢驗與卡方檢驗一樣,只能分析相關的統計學意義,不能反映關聯強度。
(1)從總體中隨機抽取容量為n的一切可能個樣本的平均數之平均數,等於總體的平均數。
(2)從正態總體中,隨機抽取的容量為n的一切可能 樣本平均數 的分布 也呈正態分布。
(3)雖然總體不是正態分布,如果樣本容量較大,反映總體μ和σ的 樣本平均數 的抽樣分布,也接近於正態分布。
原始數據比較符合正態分布,那麼推薦使用T檢驗,如果偏離較大,那麼推薦使用非參數檢驗,如果樣本量較大,那麼兩種檢驗方法都是可以的。