Ⅰ 實驗數據如何進行統計學分析
分析方法太多了
我替別人做這類的數據分析蠻多的
Ⅱ 如何進行臨床試驗數據統計分析
統計學方法的正確抉擇
一。
統計方法抉擇的條件
在臨床科研工作中,正確地抉擇統計分析方法,應充分考慮科研工作者的分析目的、臨床科研設計方法、搜集到的數據資料類型、數據資料的分布特徵與所涉及的數理統計條件等。
其中任何一個問題沒考慮到或考慮有誤,都有可能導致統計分析方法的抉擇失誤。
此外,統計分析方法的抉擇應在科研的設計階段來完成,而不應該在臨床試驗結束或在數據的收集工作已完成之後。
對臨床科研數據進行統計分析和進行統計方法抉擇時,應考慮下列因素:
1.分析目的
對於臨床醫生及臨床流行病醫生來說,在進行統計分析前,一定要明確利用統計方法達到研究者的什麼目的。
一般來說,統計方法可分為描述與推斷兩類方法。
一是統計描述(descriptivestatistics),二是統計推斷(inferentialstatistics)。
統計描述,即利用統計指標、統計或統計表,對數據資料所進行的最基本的統計分析,使其能反映數據資料的基本特徵,有利於研究者能准確、全面地了解數據資料所包涵的信息,以便做出科學的推斷。
統計表,如頻數表、四格表、列聯表等;
統計,如直方、餅,散點等;
統計指標,如均數、標准差、率及構成比等。
統計推斷,即利用樣本所提供的信息對總體進行推斷(估計或比較),其中包括參數估計和假設檢驗,如可信區間、t檢驗、方差分析、c2檢驗等,如要分析甲葯治療與乙葯治療兩組的療效是否不相同、不同地區某病的患病率有無差異等。
還有些統計方法,既包含了統計描述也包含了統計推斷的內容,如不同變數間的關系分析。
相關分析,可用於研究某些因素間的相互聯系,以相關系數來衡量各因素間相關的密切程度和方向,如高血脂與冠心病、慢性宮頸炎與宮頸癌等的相關分析;
回歸分析,可用於研究某個因素與另一因素(變數)的依存關系,即以一個變數去推測另一變數,如利用回歸分析建立起來的回歸方程,可由兒童的年齡推算其體重。
2.資料類型
資料類型的劃分現多採用國際通用的分類方法,將其分為兩類:數值變數(numericalvariable)資料和分類變數(categoricalvariable)資料。
數值變數是指其值是可以定量或准確測量的變數,其表現為數值大小的不同;
而分類變數是指其值是無法定量或不能測量的變數,其表現沒有數值的大小而只有互不相容的類別或屬性。
分類變數又可分為無序分類變數和有序分類變數兩小類,無序分類變數表現為沒有大小之分的屬性或類別,如:性別是兩類無序分類變數,血型是四類無序分類變數;
有序分類變數表現為各屬性或類別間有程度之分,如:臨床上某種疾病的「輕、中、重」,治療結果的「無效、顯效、好轉、治癒」。
由此可見,數值變數資料、無序分類變數資料和有序分類變數資料又可叫做計量資料、計數資料和等級資料。
資料類型的劃分與統計方法的抉擇有關,在多數情況下不同的資料類型,選擇的統計方法不一樣。
如數值變數資料的比較可選用t檢驗、u檢驗等統計方法;
而率的比較多用c2檢驗。
值得注意的是,有些臨床科研工作者,常常人為地將數值變數的結果轉化為分類變數的臨床指標,然後參與統計分析,如患者的血紅蛋白含量,研究者常用正常、輕度貧血、中度貧血和重度貧血來表示,這樣雖然照顧了臨床工作的習慣,卻損失了資料所提供的信息量。
換言之,在多數情況下,數值變數資料提供的信息量最為充分,可進行統計分析的手段也較為豐富、經典和可靠,與之相比,分類變數在這些方面都不如數值變數資料。
因此,在臨床實驗中要盡可能選擇量化的指標反映實驗效應,若確實無法定量時,才選用分類數據,通常不宜將定量數據轉變成分類數據。
3.設計方法
在眾多的臨床科研設計方法中,每一種設計方法都有與之相適應的統計方法。
在統計方法的抉擇時,必須根據不同的臨床科研設計方法來選擇相應的統計分析方法。
如果統計方法的抉擇與設計方法不一致,統計分析得到的任何結論都是錯誤的。
在常用的科研設計方法中,有成組設計(完全隨機設計)的t檢驗、配對t檢驗、成組設計(完全隨機設計)的方差分析、配伍設計(隨機區組設計)的方差分析等,都是統計方法與科研設計方法有關的佐證。
因此,應注意區分成組設計(完全隨機設計)與配對和配伍設計(隨機區組設計),在成組設計中又要注意區別兩組與多組設計。
最常見的錯誤是將配對或配伍設計(隨機區組設計)的資料當做成組設計(完全隨機設計)來處理,如配對設計的資料使用成組t檢驗、配伍設計(隨機區組設計)使用成組資料的方差分析;
或將三組及三組以上的成組設計(完全隨機設計)資料的比較採用多個t檢驗、三個或多個率的比較採用四格表的卡方檢驗來進行比較,都是典型的錯誤。
如下表:
表1常見與設計方法有關的統計方法抉擇錯誤
設計方法錯誤的統計方法正確統計方法
兩個均數的比較(成組設計、完全隨機設計)成組設計的t檢驗、成組設計的秩和檢驗
多個均數的比較(成組設計、完全隨機設計)多個成組設計的t檢驗完全隨機設計的方差分析及q檢驗、完全隨機設計的秩和檢驗及兩兩比較
數值變數的配對設計成組設計的t檢驗配對t檢驗、配對秩和檢驗
隨機區組設計(配伍設計)多個成組設計的t檢驗、完全隨機設計的方差分析隨機區組設計的方差分析及q檢驗、隨機區組設計的秩和檢驗及兩兩比較
交叉設計成組設計的t檢驗、配對t檢驗、配對秩和檢驗交叉設計的方差分析、交叉設計的秩和檢驗
4.分布特徵及數理統計條件
數理統計和概率論是統計的理論基礎。
每種統計方法都要涉及數理統計公式,而這些數理統計公式都是在一定條件下推導和建立的。
也就是說,只有當某個或某些條件滿足時,某個數理統計公式才成立,反之若不滿足條件時,就不能使用某個數理統計公式。
在數理統計公式推導和建立的條件中,涉及最多的是數據的分布特徵。
數據的分布特徵是指數據的數理統計規律,許多數理統計公式都是在特定的分布下推導和建立的。
若實際資料服從(符合)某種分布,即可使用該分布所具有的數理統計規律來分析和處理該實際資料,反之則不能。
在臨床資料的統計分析過程中,涉及得最多的分布有正態分布、偏態分布、二項分布等。
許多統計方法對資料的分布有要求,如:均數和標准差、t和u檢驗;
方差分析都要求資料服從正態分布,而中位數和四分位數間距、秩和檢驗等,可用於不服從正態分布的資料。
所以,臨床資料的統計分析過程中,應考慮資料的分布特徵,最起碼的要求是熟悉正態分布與偏態分布。
例如:在臨床科研中,許多資料的描述不考慮資料的分布特徵,而多選擇均數與標准差。
如某婦科腫瘤化療前的血象值,資料如下表:
某婦科腫瘤化療前的血象值
指標名例數均數標准差偏度系數P值峰度系數P值
血紅蛋白(g/L)98111.9918.820.1800.4590.0250.958
血小板(×109/L)98173.5887.111.3530.0001.8430.000
白細胞(×109/L)986.79302.7671.2070.0001.2020.013
從上結果可見,若只看三項指標的均數和標准差,臨床醫生也許不會懷疑有什麼問題。
但是經正態性檢驗,病人的血紅蛋白服從正態分布,而血小板和白細胞兩項指標的偏度和峰度系數均不服從正態分布(P<0.05)。
因此,描述病人的血小板和白細胞平均水平正確的指標是中位數,而其變異程度應使用四分位數間距。
除了數據的分布特徵外,有些數理統計公式還有其它一些的條件,如t檢驗和方差分析的方差齊性、卡方檢驗的理論數(T)大小等。
總之,對於臨床科研工作者來說,為正確地進行統計方法的抉擇,首先要掌握或熟悉上述影響統計方法抉擇因素;
其次,還應熟悉和了解常用統計方法的應用條件。
二。
數據資料的描述
統計描述的內容包括了統計指標、統計和表,其目的是使數據資料的基本特徵更加清晰地表達。
本節只討論統計指標的正確選用,而統計表的正確使用請參閱其他書籍。
1.數值變數資料的描述
描述數值變數資料的基本特徵有兩類指標,一是描述集中趨勢的指標,用以反映一組數據的平均水平;
二是描述離散程度的指標,用以反映一組數據的變異大小。
各指標的名稱及適用范圍等見表2。
表2描述數值變數資料的常用指標
指標名稱用途適用的資料
均數(X——)
描述一組數據的平均水平,集中位置正態分布或近似正態分布
中位數(M)與均數相同偏態分布、分布未知、兩端無界
幾何均數(G)與均數相同對數正態分布,等比資料
標准差(S)
描述一組數據的變異大小,離散程度
正態分布或近似正態分布
四分位數間距
(QU-QL)與標准差相同偏態分布、分布未知、兩端無界
極差(R)與標准差相同觀察例數相近的數值變數
變異系數(CV)與標准差相同比較幾組資料間的變異大小
從表中可看出,均數與標准差聯合使用描述正態分布或近似正態分布資料的基本特徵;
中位數與四分位數間距聯合使用描述偏態分布或未知分布資料的基本特徵。
這些描述指標應用時,最常見的錯誤是不考慮其應用條件的隨意使用,如:用均數和標准差描述偏態分布、分布未知或兩端無界的資料,這是目前在臨床研究文獻中較為普遍和典型的錯誤。
Ⅲ 我的實驗應該用什麼統計方法檢測
方差分析和回歸分析
樣品越多,分析越准確
Ⅳ 實驗心理學 統計分析方法有哪些
統計檢驗方法很多啊,如參數檢驗當中的t檢驗、z檢驗、非參數檢驗當中的秩和檢驗、卡方檢驗;相關分析、回歸分析、logistics回歸分析、生存分析等等。
Ⅳ 如何分析三種試驗方法結果的相關性
分析:
統計學意義(p值)
結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變數的關聯是總體中各變數關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變數關聯有5%的可能是由於偶然性造成的。即假設總體中任意變數間均無關聯,我們重復類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變數關聯將等於或強於我們的實驗結果。(這並不是說如果變數間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變數存在關聯,重復研究和發現關聯的可能性與設計的統計學效力有關。)在許多研究領域,0.05的p值通常被認為是可接受錯誤的邊界水平。
如何判定結果具有真實的顯著性
在最後結論中判斷什麼樣的顯著性水平具有統計學意義,不可避免地帶有武斷性。換句話說,認為結果無效而被拒絕接受的水平的選擇具有武斷性。實踐中,最後的決定通常依賴於數據集比較和分析過程中結果是先驗性還是僅僅為均數之間的兩兩>比較,依賴於總體數據集里結論一致的支持性證據的數量,依賴於以往該研究領域的慣例。通常,許多的科學領域中產生p值的結果≤0.05被認為是統計學意義的邊界線,但是這顯著性水平還包含了相當高的犯錯可能性。結果0.05≥p>0.01被認為是具有統計學意義,而0.01≥p≥0.001被認為具有高度統計學意義。但要注意這種分類僅僅是研究基礎上非正規的判斷常規。
所有的檢驗統計都是正態分布的嗎?
並不完全如此,但大多數檢驗都直接或間接與之有關,可以從正態分布中推導出來,如t檢驗、f檢驗或卡方檢驗。這些檢驗一般都要求:所分析變數在總體中呈正態分布,即滿足所謂的正態假設。許多觀察變數的確是呈正態分布的,這也是正態分布是現實世界的基本特徵的原因。當人們用在正態分布基礎上建立的檢驗分析非正態分布變數的數據時問題就產生了,(參閱非參數和方差分析的正態性檢驗)。這種條件下有兩種方法:一是用替代的非參數檢驗(即無分布性檢驗),但這種方法不方便,因為從它所提供的結論形式看,這種方法統計效率低下、不靈活。另一種方法是:當確定樣本量足夠大的情況下,通常還是可以使用基於正態分布前提下的檢驗。後一種方法是基於一個相當重要的原則產生的,該原則對正態方程基礎上的總體檢驗有極其重要的作用。即,隨著樣本量的增加,樣本分布形狀趨於正態,即使所研究的變數分布並不呈正態。
1統計軟體的選擇
在進行統計分析時,作者常使用非專門的數理統計軟體Excel進行統計分析。由於Excel提供的統計分析功能十分有限,很難滿足實際需要。目前,國際上已開發出的專門用於統計分析的商業軟體很多,比較著名有SPSS(Statistical Package for Social Sciences)、SAS(Statistical Analysis System)、BMDP和STATISTICA等。其中,SPSS是專門為社會科學領域的研究者設計的(但是,此軟體在自然科學領域也得到廣泛應用);BMDP是專門為生物學和醫學領域研究者編制的統計軟體。目前,國際學術界有一條不成文的約定:凡是用SPSS和SAS軟體進行統計分析所獲得的結果,在國際學術交流中不必說明具體演算法。由此可見,SPSS和SAS軟體已被各領域研究者普遍認可。建議作者們在進行統計分析時盡量使用這2個專門的統計軟體。
2均值的計算
在處理實驗數據或采樣數據時,經常會遇到對相同采樣或相同實驗條件下同一隨機變數的多個不同取值進行統計處理的問題。此時,多數作者會不假思索地直接給出算術平均值和標准差。顯然,這種做法是不嚴謹的。在數理統計學中,作為描述隨機變數總體大小特徵的統計量有算術平均值、幾何平均值和中位數等。何時用算術平均值?何時用幾何平均值?以及何時用中位數?這不能由研究者根據主觀意願隨意確定,而要根據隨機變數的分布特徵確定。反映隨機變數總體大小特徵的統計量是數學期望,而在隨機變數的分布服從正態分布時,其總體的數學期望就是其算術平均值。此時,可用樣本的算術平均值描述隨機變數的大小特徵。如果所研究的隨機變數不服從正態分布,則算術平均值不能准確反映該變數的大小特徵。在這種情況下,可通過假設檢驗來判斷隨機變數是否服從對數正態分布。如果服從對數正態分布,則可用幾何平均值描述該隨機變數總體的大小。此時,就可以計算變數的幾何平均值。如果隨機變數既不服從正態分布也不服從對數正態分布,則按現有的數理統計學知識,尚無合適的統計量描述該變數的大小特徵。退而求其次,此時可用中位數來描述變數的大小特徵。
3相關分析中相關系數的選擇
在相關分析中,作者們常犯的錯誤是簡單地計算Pearson積矩相關系數,而且既不給出正態分布檢驗結果,也往往不明確指出所計算的相關系數就是Pearson積矩相關系數。常用的相關系數除有Pearson積矩相關系數外,還有Spearman秩相關系數和Kendall秩相關系數等。其中,Pearson積矩相關系數可用於描述2個隨機變數的線性相關程度(相應的相關分析方法稱為「參數相關分析」,該方法的檢驗功效高,檢驗結果明確);Spearman或Kendall秩相關系數用來判斷兩個隨機變數在二維和多維空間中是否具有某種共變趨勢,而不考慮其變化的幅度(相應的相關分析稱為「非參數相關分析」,該方法的檢驗功效較參數方法稍差,檢驗結果也不如參數方法明確)。各種成熟的統計軟體如SPSS、SAS等均提供了這些相關系數的計算模塊。在相關分析中,計算各種相關系數是有前提的。對於二元相關分析,如果2個隨機變數服從二元正態分布,或2個隨機變數經數據變換後服從二元正態分布,則可以用Pearson積矩相關系數描述這2個隨機變數間的相關關系(此時描述的是線性相關關系),而不宜選用功效較低的Spearman或Kendall秩相關系數。如果樣本數據或其變換值不服從正態分布,則計算Pearson積矩相關系數就毫無意義。退而求其次,此時只能計算Spearman或Kendall秩相關系數(盡管這樣做會導致檢驗功效的降低)。因此,在報告相關分析結果時,還應提供正態分布檢驗結果,以證明計算所選擇的相關系數是妥當的。需要指出的是,由於Spearman或Kendall秩相關系數是基於順序變數(秩)設計的相關系數,因此,如果所採集的數據不是確定的數值而僅僅是秩,則使用Spearman或Kendall秩相關系數進行非參數相關分析就成為唯一的選擇。
4相關分析與回歸分析的區別
相關分析和回歸分析是極為常用的2種數理統計方法,在地質學研究領域有著廣泛的用途。然而,由於這2種數理統計方法在計算方面存在很多相似之處,且在一些數理統計教科書中沒有系統闡明這2種數理統計方法的內在差別,從而使一些研究者不能嚴格區分相關分析與回歸分析。最常見的錯誤是,用回歸分析的結果解釋相關性問題。例如,作者將「回歸直線(曲線)圖」稱為「相關性圖」或「相關關系圖」;將回歸直線的R2(擬合度,或稱「可決系數」)錯誤地稱為「相關系數」或「相關系數的平方」;根據回歸分析的結果宣稱2個變數之間存在正的或負的相關關系。這些情況在國內極為普遍。
相關分析與回歸分析均為研究2個或多個隨機變數間關聯性的方法,但2種數理統計方法存在本質的差別,即它們用於不同的研究目的。相關分析的目的在於檢驗兩個隨機變數的共變趨勢(即共同變化的程度),回歸分析的目的則在於試圖用自變數來預測因變數的值。在相關分析中,兩個變數必須同時都是隨機變數,如果其中的一個變數不是隨機變數,就不能進行相關分析。這是相關分析方法本身所決定的。對於回歸分析,其中的因變數肯定為隨機變數(這是回歸分析方法本身所決定的),而自變數則可以是普通變數(規范的叫法是「固定變數」,有確定的取值)也可以是隨機變數。如果自變數是普通變數,採用的回歸方法就是最為常用的「最小二乘法」,即模型Ⅰ回歸分析;如果自變數是隨機變數,所採用的回歸方法與計算者的目的有關---在以預測為目的的情況下,仍採用「最小二乘法」,在以估值為目的的情況下須使用相對嚴謹的「主軸法」、「約化主軸法」或「Bartlett法」,即模型Ⅱ回歸分析。顯然,對於回歸分析,如果是模型Ⅰ回歸分析,就根本不可能回答變數的「相關性」問題,因為普通變數與隨機變數之間不存在「相關性」這一概念(問題在於,大多數的回歸分析都是模型Ⅰ回歸分析!)。此時,即使作者想描述2個變數間的「共變趨勢」而改用相關分析,也會因相關分析的前提不存在而使分析結果毫無意義。如果是模型Ⅱ回歸分析,鑒於兩個隨機變數客觀上存在「相關性」問題,但因回歸分析方法本身不能提供針對自變數和因變數之間相關關系的准確的檢驗手段,因此,若以預測為目的,最好不提「相關性」問題;若以探索兩者的「共變趨勢」為目的,建議作者改用相關分析。
Ⅵ elisa試驗結果數據怎麼統計分析
可以分析
1.不同時期抗體水平的變化(OD值),即對照組與實驗組有無區別(統計學上的區別)。
2.分析個體動物抗體水平達到明顯高於對照組的時間差異,用方差分析先看總體上有無差異,然後兩比較,看出現差異的每對之間是否由於一些相同的因素而導致了差異的出現,如年齡、性別、體重。
3.影響抗體產生的因素很多,如注射的部位、注射時的情況(准確與與否,量的多少等)、有無使用佐劑、佐劑的配製好壞、免疫的頻率、動物的健康狀況等均可影響抗體的產生,細致的分析需要做好這些詳細的記錄,這樣在後面的分析當中才能排除一些技術上的因素,隨機誤差等,真正的分析出動物怎樣的本身性質因素導致了抗體的產生差異。
Ⅶ 如何對兩種不同實驗方法測定同一指標的數據進行統計學分析
首先要判斷兩組數據是否是正態分布資料,兩組是否方差齊,
然後可以計算兩組的均數進行t檢驗
如果不滿足正態分數,需要進行數據變換
實在不行的話,最後用秩和檢驗
Ⅷ 請問試驗設計與統計學的關系是什麼
試驗設計是統計學中數理統計的一個分支。
從20世紀20年代費希爾(R.A.Fisher)在農業生產中使用試驗設計方法以來,試驗設計方法已經得到廣泛的發展,統計學家們發現了很多非常有效的試驗設計技術。
20世紀50年代,日本統計學家田口玄一將試驗設計中應用最廣的正交設計表格化,在方法解說方面深入淺出為試驗設計的更廣泛使用作出了眾所周知的貢獻。
(8)試驗方法統計分析擴展閱讀
一個實驗的設計,即對實驗的一種安排,需要考慮實驗所要解決的問題類型、對結論賦予何種程度的普遍性、希望以多大功效作檢驗、試驗單元的齊性、每次試驗的耗資耗時等方面,選取適當的因子和相應的水平,從而給出實驗實施的具體程序和數據分析的框架。
所謂試驗的統計設計,就是設計試驗的過程,使得收集的數據適合於用統計方法分析,得出有效的和客觀的結論。如果想從數據作出有意義的結論,用統計方法作試驗設計是必要的。當問題涉及到受試驗誤差影響的數據時,只有統計方法才是客觀的分析方法。
參考資料來源:網路-試驗設計
Ⅸ 請教一個統計學方面的問題:曠場試驗數據的統計方法
可以做最簡單的假設檢驗,測試,實驗前和後,兩組數據的平均水平是相同的
Ⅹ 常用統計分析方法
數據分析師針對不同業務問題可以製作各種具體的數據模型去分析問題,運用各種分析方法去探索數據,這里介紹最常用的三種分析方法,希望可以對您的工作有一定的的幫助
文中可視化圖表均使用DataFocus數據分析工具製作。
1.相關分析
相關分析顯示變數如何與另一個變數相關。例如,它顯示了計件工資是否會帶來更高的生產率。
2.回歸分析
回歸分析是對一個變數值與另一個變數值之間差異的定量預測。回歸模擬依賴變數和解釋變數之間的關系,這些變數通常繪制在散點圖上。您還可以使用回歸線來顯示這些關系是強還是弱。
另請注意,散點圖上的異常值非常重要。例如,外圍數據點可能代表公司最關鍵供應商或暢銷產品的輸入。但是,回歸線的性質通常會讓您忽略這些異常值。
3.假設檢驗
假設檢驗是基於某些假設並從樣本到人口的數理統計中的統計分析方法。主要是為了解決問題的需要,對整體研究提出一些假設。通常,比較兩個統計數據集,或者將通過采樣獲得的數據集與來自理想化模型的合成數據集進行比較。提出了兩個數據集之間統計關系的假設,並將其用作理想化零假設的替代方案。建議兩個數據集之間沒有關系。
在掌握了數據分析的基本圖形和分析方法之後,數據分析師認為有一點需要注意:「在沒有確認如何表達你想要解決的問題之前,不要開始進行數據分析。」簡而言之,如果您無法解釋您試圖用數據分析解決的業務問題,那麼沒有數據分析可以解決問題。