『壹』 數據分析之描述性分析
SPSS的模塊按功能可以分為三部分:描述性分析、推斷性分析、探索性分析。 1.描述性分析主要是對所收集的數據進行分析,得出反映客觀現象的各種數量特徵的一種分析方法,它包括數據的集中趨勢分析、數據離散程度分析、數據的頻數分布分析等,描述性分析是對數據進一步分析的基礎。 2.推斷性分析是研究如何根據樣本數據來推斷總體樣本數量特徵,它是在對樣本數據進行描述統計分析的基礎上,對研究總體的數量特徵做出推斷。常見的分析方法有假設檢驗、相關分析、回歸分析、時間序列分析等方法。 3.探索性分析主要是通過一些分析方法從大量的數據中發現未知且有價值信息的過程,它不受研究假設和分析模型的限制,盡可能地尋找變數之間的關聯性。常見的分析方法有聚類分析、因子分析、對應分析等方法。頻率分析主要通過頻數分布表、條形圖和直方圖,以及集中趨勢和離散趨勢的各種統計量來描述數據的分布特徵,以便我們隊數據的分布特徵形成初步的認識,才能發現隱含在數據背後的信息,為後續數據分析提供方向和依據。 頻率分析包括分類變數的頻率分析和連續變數的頻率分析。在SPSS里都採用頻率表來做頻率分析。對於連續變數數據的分析,描述的統計量包括百分位值、集中趨勢、離散趨勢和數據分布特徵。 1.百分位值 百分位值主要用於對連續變數數據離散程度的測量,常用的百分位值是四分位數。它是將變數中的數據從小到大排序後,用三個數據點將數據分為四等份,與這三個點相對應的數值稱為四分位數。由於是等分整個數據,這三個數據點分別位於數據的25%(第一四分位數)、50%(第二四分位數,也就是常用的中位數)和75%(第三四分位數)的位置。 2.集中趨勢 集中趨勢反映了數據向其中心值聚集的程度,是對數據一般水平的概括性度量,主要通過平均值、中位數和眾數來表示。 3.離散趨勢 離散趨勢反映了數據遠離中心值的程度,是衡量集中趨勢值對整個數據的代表程度。數據的離散度越大,說明集中趨勢值的代表性越低;反之,數據的離散程度越接近於0,說明集中趨勢值的代表性越高。數據的離散程度主要通過范圍、標准差和方差來表示。 4.分布特徵 對於連續變數,在樣本量較大的情況下,研究若你有會提出假設,認為數據應當服從某種分布,每種分布都可以採用一系列的指標來描述數據離散分布的程度。在圖形的顯示上,對於分類數據,如果需要了解數據分布,則可以選擇條形圖;如果需要了解數據結構,則選擇餅圖;而對於連續數據,選擇直方圖。 條形圖和直方圖的區別: (1)條形圖用於展示分類數據,直方圖用於展示連續數據; (2)條形圖是用條形的長度表示各類別頻數的多少,直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或頻率,寬度表示各組的組距; (3)直方圖分組數據具有連續性,所以直方圖的各矩形通常是連續排列的,而條形圖表示分類數據,則是分開排列; 描述分析與頻率分析的不同之處在於: (1)描述分析提供的統計量僅適用於連續變數,頻率分析既可用於分析連續變數,也可用於分析分類變數; (2)描述分析無相應統計圖繪制輸出,並且提供計算的統計量也相對較少。 但在描述性分析里可以進行Z標准化。 交叉表示一種行列交叉的分類匯總表格,行和列上至少各有一個分類變數,行和列的交叉處可以對數據進行多種匯總計算,如求和、平均值、計數等。交叉表分析是用於分析兩個或兩個以上分類變數之間的關聯關系,以交叉表格的形式進行分類變數間關系的對比分析。它的原理是從數據的不同角度綜合進行分組細分,以進一步了解數據的構成、分布特徵,它是描述分析常用方法之一。類似於EXcel的數據透視表。 頻率分析、描述分析都是對單個變數進行分析,交叉表可以對多個變數在不同取值情況下的數據分布情況進行分析。從而進一步分析變數之間的相互影響和關系。 在SPSS里,多選題也稱為多重響應集,意為使用多個變數記錄答案,其中每個個案可以給出多個答案。 多選題數據錄入的方式有兩種:二分法和多重分類法。 (1)二分法:把每一個相應選項定義為一個變數,每一個變數值均做這樣的定義——「0」代表未選,「1」代表選中,即對於被調查者選中的選項錄入1,對未選的選項錄入0。 (2)多重分類法:事先定義錄入的數值,比如1,2,3,4,5分別代表選項A、B、C、D、E,並且根據多選題限選的項數確定應錄入的變數個數。例如限選3項,那麼需要設立3個變數,如果調查者在該題選ACD,則在3個變數下分別錄入1、3、4。 在通常情況下,如果多選題沒有限定選項個數,並且選項個數不多時,可以採用二分法錄入。如果對選項的個數加以限定,則改用多重分類法進行錄入。 常見的表格類型有疊加表、交叉表和嵌套表。 (1)疊加表 同一張表中有多個同類變數的描述分析結果,可以簡單地理解為對每個變數分別做同樣的分析,然後將結果拼接在一起。 (2)交叉表 它是一種行列交叉的分類匯總表格,行和列上至少各有一個分類變數,行和列的交叉處可以對數據進行多種匯總計算,如計數、百分比、求和、平均值等。 (3)嵌套表 它是指多個變數放置在同一個表格維度中,也就是說,分析維度是由兩個及以上變數的各種類別組合而成的。嵌套表主要應用在需要展現較多的統計指標時,能夠使結果更為美觀和緊湊。 我的博客即將搬運同步至騰訊雲+社區,邀請大家一同入駐:https://cloud.tencent.com/developer/support-plan?invite_code=16uhfxjtsalsw『貳』 心理學實驗設計問題:2×2×3混合實驗設計分析方法
分析多個變數的關系一般使用ANOVA(ANalysis Of VAriance)
分析每一個變數的個體作用(main effect)時,對比其他變數控制相同的那幾組
分析兩個或三個變數的相互作用(interaction)時,參考下面的
2x2x3
A
B
C
AxB
AxC
BxC
AxBxC
可以使用一些軟體輔助,比如SSPS,用ANOVA去對比組內和組件差異
『叄』 統計分析方法 有哪些統計分析方法
1、描述統計。描述性統計是指運用製表和分類,圖形以及計筠概括性數據來描述數據的集中趨勢、離散趨勢、偏度、峰度。
(1)缺失值填充:常用方法:剔除法、均值法、最小鄰居法、比率回歸法、決策樹法。
(2)正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
2、假設檢驗
(1)參數檢驗。參數檢驗是在已知總體分布的條件下(一股要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗 。U驗 使用條件:當樣本含量n較大時,樣本值符合正態分布。T檢驗 使用條件:當樣本含量n較小時,樣本值符合正態分布。單樣本t檢驗:推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常為理論值或標准值)有無差別;配對樣本t檢驗:當總體均數未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似;兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用。
(2)非參數檢驗。非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一股性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。適用情況:順序類型的數據資料,這類數據的分布形態一般是未知的。雖然是連續數據,但總體分布形態未知或者非正態;體分布雖然正態,數據也是連續類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。
3、信度分析
檢査測量的可信度,例如調查問卷的真實性。分類:
(1)外在信度:不同時間測量時量表的一致性程度,常用方法重測信度
(2)內在信度;每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度。
4、列聯表分析。用於分析離散變數或定型變數之間是否存在相關。
對於二維表,可進行卡方檢驗,對於三維表,可作Mentel-Hanszel分層分析。列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變數的相關檢驗。
5、相關分析
研究現象之間是否存在某種依存關系,對具體有依存關系的現象探討相關方向及相關程度。
(1)單相關: 兩個因素之間的相關關系叫單相關,即研究時只涉及一個自變數和一個因變數;
(2)復相關 :三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變數和因變數相關;
(3)偏相關:在某一現象與多種現象相關的場合,當假定其他變數不變時,其中兩個變數之間的相關關系稱為偏相關。
6、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。
(1)單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關系
(2)多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變數的關系,同時考慮多個影響因素之間的關系
(3)多因素無交互方差分析:分析多個影響因素與響應變數的關系,但是影響因素之間沒有影響關系或忽略影響關系
(4)協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分祈結果的准確度。協方差分析主要是在排除了協變數的影響後再對修正後的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法,
『肆』 SPSS-描述性分析
step1:單擊【文件】-【打開】-【數據】,彈出【打開數據】對話框。在左上角的【查找范圍】找到文件所在位置,下方【文件類型】右早岩侍側下拉菜單中根據文件類型選擇對應的類型。本文導入的是CSV文件,如下圖1-1,單擊【打開】,進入【文本導入向導】對話框。
step2:在彈出的【文本導入向導-第1/6步】對話框中(圖1-2),觀察一下各變數間的安排方式,單擊【下一步】。step3:在彈出的【文本導入向導-第2/6步】對話框中,根據本例變數的安排方式選擇【分隔】,文件開頭是否包含變數名稱選擇【否】,如圖1-3,單擊【下一步】。step4:在彈出的【文本導入向導-第3/6步】對話框中,進行個案設置,保持默認設置即可,單擊【下一步】,如圖1-4。step5:在彈出的【文本導入向導-第4/6步】對話框中,SPSS根據導入數據特點,自動勾選【製表符】分隔符,如圖1-5,單擊【下一步】。
step6:在彈出的【文本導入向導-第5/6步】對話框中,選中【數據預覽】下的變數列,然後依次分別設置【變數名稱】和數據格式。單擊【下一步】;在彈出的【文本導入向導-第6/6步】對話框中,可根據需要,選擇是否保存剛才設置過的格式或者獲得導入過程的語法,單擊【完成】,就成功導入SPSS了。
step1:單擊【轉換】-【計算變數】,彈出【計算變數】對話框。在左上角的【目標變數】中輸入計劃生成的變數『AGE』,在右側【函數組】下拉菜單中找到所需的函數,本例中選擇『抽取日期』,在【函數和特殊變數】下選擇『Xdate.Year』,右上方【數字表達式】框中輸入『2020-XDATE.YEAR(BIRTHDAY)』,如圖2-1,單擊【確定】。返回『數據視圖』,可以看到生成了行的一列變數『AGE』,如圖2-2。
step1:單擊【數據】-【標識重復個案】,彈出【標識重復個案對話框】,將變數'USERID'移到右側框中,單擊【確定】。此後可以看到『數據視圖』中多了變數——『最後一個基本個案』,其中1代表非重復數據棗敬,0代表重復數據,選中此列,滑鼠右擊,在彈出的菜單中選擇【升序排列】,可以看到最小值也為1,說明不存在重復項。由於該列變數在陸吵分析時無用,可以刪除。
step1:單擊【分析】 -【描述統計】-【描述】,打開【 描述性】對話框,將『AGE』變數移到右側 【變數】框中,勾選下方的【將標准化得分另存為變數(Z)】,如圖3-3,單擊【確定】。返回『數據視圖』,看到多出變數『ZAG』,本例中ZAG的絕對值大於2的視為異常值(將±2δ 以外的數據視為異常值),如圖3-4。
step2:單擊【分析】 -【描述統計】-【探索】,打開【 探索】對話框,將『ZAGE』變數移到右側 【因變數列表】框中,勾選下方的【統計量】,如圖3-5,單擊【確定】。輸出圖3-6,根據圖3-6中統計量可知:樣本總計101535個,有效值共計32075個,存在缺失值;極大值和極小值的絕對值大於2,存在異常值。
step3:單擊【數據】 -【選擇個案】,打開【 選擇個案】對話框,勾選右側【選擇】下的【如果條件滿足(C)】項,如圖3-7,【輸出】下方根據需要勾選,本例勾選【過了掉未選定的個案】,單擊【如果(I)...】,進入【選擇個案:if】對話框。在公式框中輸入『ABS(ZAGE) <= 2&AGE ~= 0』,將缺失值和異常值過濾掉。如圖3-8.此後可以看到『數據視圖』中多了變數——『filter_$,其中1代表被選擇,0代表未被選擇。如圖3-9.
step1:分組前,先查看一下篩選後的數據情況,單擊【分析】-【描述統計】-【頻率】,進入【頻率】對話框,將『AGE』移到中間變數框中,點擊右側【統計量】,選擇【眾數】、【最小值】、【最大值】,點擊【繼續】如圖3-10;點擊【圖表】,勾選【直方圖】,見圖3-11,點擊【繼續】,單擊【確定】。從輸出結果可以看到,有效值有30201個,年齡最小18歲,最大59歲,同年齡人數最多的是33歲;年齡分布基本服從正態分布。
step2:單擊【轉換】 -【重新編碼為不同變數】,打開【 重新編碼為其他變數】對話框,將『AGE』變數移到中間框中,在右側【輸出變數】-【名稱】下輸入『AGE_GROUPS』,點擊【更改】,如圖3-13。點擊【舊值和新值】,進入【 重新編碼為其他變數:舊值和新值】,將年齡劃分為不同的范圍,每個年齡段賦予一個新值,如50歲以上的人,在左下角【范圍,從值到最高】下輸入50,【新值】下輸入4,點擊【添加】,如圖3-14,單擊【繼續】,返回原對話框,單擊【確定】。進入『數據視圖』界面,生成一列變數『AGE_GROUPS』,如圖3-15.
step3:單擊【數據】 -【定義變數屬性】,打開【 定義變數屬性】對話框將『AGE_GROUPS』變數移到【要掃描的變數】中,如圖3-16,單擊【繼續】,在【標簽】列中輸入自定義標簽,如圖3-17。返回『數據視圖』,單擊右上角標簽轉換按鈕,變數值標簽發生了改變,如圖3-18.
step1:單擊【分析】 -【表】-【設定表】,進入【設定表格】對話框,依次將性別和年齡分組變數移到行,結果如圖4-1,點擊【類別位置】下的下拉菜單,選擇【列中的行標簽】(圖4-2);再依次選中表中的『AGE_GROUPS'和'SEX',單擊滑鼠右鍵,在彈出的子菜單中,見圖4-3,取消【顯示變數標簽】前的勾選。點擊【定義】下的【摘要與統計】,進入【摘要與統計】對話框,在該對話框中,將左側【統計量】下的』列N%』和』行N%』移到右側【顯示】中。見圖4-4,單擊【應用選擇】,返回【設定表格】對話框。
step2:選中表中的『AGE_GROUPS',點擊【定義】下的【分類和總計】,進入【分類和總計】對話框,選中30~39歲標簽,單擊【添加小計】,在彈出的【定義小計】對話框中輸入『中青年』,將18~39歲的用戶定義為中青年,同樣方法,設置40~59歲的為中老年,見圖4-4,單擊【應用】,返回【設定表格】對話框,單擊【確定】。
step1:選中輸出的表格,滑鼠右鍵,在彈出的子菜單中選擇【導出】,見圖4-5,進入【導出輸入】對話框,在左側文檔類型下拉子菜單中選擇想要輸出的文件類型,中間【瀏覽】選擇文件保存位置,如圖4-6,單擊【確定】
行N%數據體現了在不同年齡段下的男女人數比例:隨著年齡段增大,女性佔比逐漸降低。中青年群體中,男女佔比基本持平,分別為49.5%和50.5%,而中老年群體,男性佔比遠高於女性,分別為62.2%和37.8%。列N%數據體現了在不同性別下,各年齡段的用戶人數比例。男性用戶中,人數佔比由高到低的年齡段依次是30~39歲(43.2%),40~49歲(28.4%),18~29歲(15.3%)和50歲以上(13.1%)。而女性用戶中,人數佔比由高到低年齡段依次是30~39歲(48.5%),18~29歲(21.8%),40~49歲(20.9%)和50歲以上(8.8%)。 由此可見,女性用戶相比男性用戶總體更加趨向年輕,18~39歲的女性用戶佔了女性總用戶的70%以上,而30~49歲的男性用戶佔了男性總用戶的70%以上。