① 數據分析中的變數分類
數據分析中的變數分類
數據分析工作每天要面對各種各樣的數據,每種數據都有其特定的含義、使用范圍和分析方法,同一個數據在不同環境下的意義也不一樣,因此我們想要選擇正確的分析方法,得出正確的結論,首先要明確分析目的,並准確理解當前的數據類型及含義。統計學中的變數指的是研究對象的特徵,我們有時也稱為屬性,例如身高、性別等。每個變數都有變數值,變數值就是我們分析的內容,它是沒有含義的,只是一個參與計算的數字,所以我們主要關注變數的類型,不同的變數類型有不同的分析方法。
變數主要是用來描述事物特徵,那麼按照描述的粗劣,有以下兩種劃分方法:
按基本描述劃分【定性變數】:也稱為名稱變數、品質變數、分類變數,總之就是描述事物特性的變數,目的是將事物區分成互不相容的不同組別,變數值多為文字或符號,在分析時,需要轉化為特定含義的數字。
定性變數可以再細分為:
有序分類變數:描述事物等級或順序,變數值可以是數值型或字元型,可以進而比較優劣,如喜歡的程度:很喜歡、一般、不喜歡
無序分類變數:取值之間沒有順序差別,僅做分類,又可分為二分類變數和多分類變數 二分類變數是指將全部數據分成兩個類別,如男、女,對、錯,陰、陽等,二分類變數是一種特殊的分類變數,有其特有的分析方法。 多分類變數是指兩個以上類別,如血型分為A、B、AB、O
【定量變數】:也稱為數值型變數,是描述事物數字信息的變數,變數值就是數字,如長度、重量、產量、人口、速度和溫度。
定量變數可以再細分連續型變數:在一定區間內可以任意取值,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。如身高、繩子的長度等。
離散型變數:值只能用自然數或整數單位計算,其數值是間斷的,相鄰兩個數值之間不再有其他數值,這種變數的取值一般使用計數方法取得。
按照精確描述劃分【定類變數】
測量事物類別或屬性,各類支架沒有順序或等級,實際上也就是上面說的無序分類變數,所包含的數據信息很少,只能計算頻數和頻率,是最低層次的一種變數
【定序變數】
測量事物之間的等級或順序,就是上述的有序分類變數,由於它的變數值可以是數值型或字元型,並且可以反映等級之間的優劣,除了可以計算頻數和頻率之外,還可以計算累計頻率,因此數據包含的信息多於定類變數。
【定距變數】
測量事物的類別或順序之間的間距,它不但具有定類和定序變數的特點,還能計算類別之間的差距,可以進行加減運算,數據包含的信息高於前兩種
【定比變數】 測量事物類別比值,和定距變數相比,它不但可以進行加減運算,還可以進行乘除運算,包含的數據信息最多,是最高級的變數。
上面這四種變數可以從淺到深精確的描述事物,四種變數級別從低到高,高層次變數可以向低層次轉化,代價是損失部分數據信息,但是低層次變數無法向高層次轉化,這會得出錯誤結果。
按照變數的取值劃分前面兩種分類方法都是從變數對事物的描述角度出發進行分類,一旦對事物描述確定下來,那麼變數的取值也就相應確定下來了,比如定性變數的取值只能是某屬性下的計數,比如人數、客戶數等,因此只能取特定的值,數值是離散的。而定量變數可以取某屬性下的任意值,變數值即可連續也可離散,比如身高、體重、銷售額等。連續型數值和離散型數值的分析方法是不同的,因此從統計學角度,又經常劃分為連續型變數和定性變數(分類變數)
關於變數的類型及取值方法,可以歸納為下表
以上是小編為大家分享的關於數據分析中的變數分類的相關內容,更多信息可以關注環球青藤分享更多干貨
② 在spss軟體中區分變數的度量
SPSSAU在每個分析方法頁面都標注了適合該分析方法的數據類型,並區分了X/Y。可以根據分析方法選擇頁面快速選擇出適合自己數據的方法,結合spssau的智能文字分析,快速完成分析。
可以登錄SPSSAU官網查看更多信息。
③ 基礎統計學(2) 集中趨勢和分散度的測量
mode(眾數):
集合中數量出現最多的數,一般用於用於定類變數和定序變數測量
一個集合中可能會有多個眾數
median(中位數):
數量為奇數的集合中的元素順序排列,排在中間的數;
數量為偶數的集合中的元素順序排列,排在中間的2個數的和除以2
mean(平均數):
什麼時候用哪種方法來測量集合的集中趨勢呢? 根據測量級別
分類變數:
使用mode(眾數)
定量變數:
使用median(中位數)或mean(平均數).
如果集合中有影響數值的異常值(特別大或特別小),或者是偏態分布,使用median(中位數)
其他時候用平均數
這些指標是用來測量數據離散情況
range(范圍誤差): 最大值(max) - 最小值(min)
interquartile(四分距): IQR = Q3-Q1
這里還涉及到異常值的計算,小於某值的數據(特別小的數據),大於某值的數據(特別大的數據)
小值的臨界點 Q1 - 1.5*(IQR) , 小於該值的數被當做異常值(統計時忽略)
大值的臨界點Q3 + 1.5*(IQR), 大於該值的數被當做異常值(統計時忽略)
box plot(箱型圖):
箱型圖很好的描述了數據的集中性、離散度以及異常值
Variance(方差):
Standard deviation(標准差): 表示數據與平均值的平均距離
方差和標准差同樣是用來測量數據的可變度的,他們數值越大,離散度、變化度就越大。
某個數與平均數的差有多少個標准差就是這個數的Z分數(Z-scores)
集合中所有數據的Z-scores之和為0
貝爾曲線(正態)分布圖:
上圖特徵:
若向右傾斜(右側大量異常數據),或左傾斜(左側大量異常數據)分布圖滿足以下特點
Z-score是對變數的一種標准化。讓我們很容易地觀察一個數據是 普遍 的還是 異常 的.
變數的測量方法有哪些:
1.繪制散點圖2.計算相關系數:對不同類型的變數數據,應採用不同的相關系數來度量。
⑤ 分類變數離散趨勢的測量方法主要有哪些
極差(Range)
極差組數據值(xmax)與值(xmin)差通用 R 表示
於總體數據言極差變數變化范圍或幅度故稱全距
組距數列極差≈高組限-低組限
優缺點:計算簡便、含義直觀、容易理解未考慮數據間布情況能充說明全部數據差異程度
四位差
第3四位數(Q3)與第1四位數(Q1)差用Qd表示計算公式:
實質兩端各掉四數據極差表示佔全部數據半間數據離散程度
四位差越表示數據離散程度越
定程度極差種改進避免極端值干擾數據差異反映仍充
四位差種順序統計量適用於定序數據定量數據尤其用位數測度數據集趨勢.
平均差——各數據與其均值離差絕值算術平均數反映各數據與其均值平均差距通A.D表示平均差含義清晰能全面反映數據離散程度取離差絕值進行平均數處理夠便數性質優
差(Variance)概念計算
差各數據與其均值離差平算術平均數.
標准差比差更容易理解社經濟現象統計析標准差比差應用更普遍經用作測度數據與均值差距標准尺度
離散系數極差、四位差、平均差或標准差等變異指標與算術平均數比率相數形式表示變異程度
極差與算術平均數比極差系數
平均差與算術平均數比平均差系數
用離散系數標准差計算稱標准差系數:
離散系數說明數據離散程度其平均數代表性差;反亦.