Ⅰ 如何對用戶進行聚類分析
需要搜集用戶的哪些特徵?
聚類分析變數選擇的原則是:在哪些變數組合的前提,使得類別內部的差異盡可能的小,即同質性高,類別間的差異盡可能的大,即同質性低,並且變數之間不能存在高度相關。
常用的用戶特徵變數有:
①
人口學變數:如年齡、性別、婚姻、教育程度、職業、收入等。通過人口學變數進行分類,了解每類人口的需求有何差異。
②
用戶目標:如用戶為什麼使用這個產品?為什麼選擇線上購買?了解不同使用目的的用戶的各自特徵,從而查看各類目標用戶的需求。
③
用戶使用場景:用戶在什麼時候,什麼情況下使用這個產品?了解用戶在各類場景下的偏好/行為差異。
④
用戶行為數據:如使用頻率,使用時長,客單價等。劃分用戶活躍等級,用戶價值等級等。
⑤
態度傾向量表:如消費偏好,價值觀等,看不同價值觀、不同生活方式的群體在消費取向或行為上的差異。
需要多少樣本量?
沒有限制,通常情況下與實際應用有關,如果非要加一個理論的限制,通常認為,樣本的個數要大於聚類個數的平方。
①如果需要聚類的數據量較少(<100),那麼三種方法(層次聚類法,K-均值聚類法,兩步聚類法)都可以考慮使用。優先考慮層次聚類法,因為層次聚類法產生的樹狀圖更加直觀形象,易於解釋,並且,層次聚類法提供方法、距離計算方式、標准化方式的豐富程度也是其他兩種方法所無法比擬的。
②如果需要聚類的數據量較大(>1000),應該考慮選擇快速聚類別法或者兩步聚類法進行。
③如果數據量在100~1000之間,理論上現在的計算條件是可能滿足任何聚類方法的要求的,但是結果的展示會比較困難,例如不可能再去直接觀察樹狀圖了。
應用定量方法還是定性方法?
聚類分析是一種定量分析方法,但對聚類分析結果的解釋還需要結合定性資料討論。
1.聚類分析的定義與用途
聚類分析(Cluster Analysis)是一種探索性的數據分析方法,根據指標/變數的數據結構特徵,對數據進行分類,使得類別內部的差異盡可能的小,即同質性高,類別間的差異盡可能的大,即同質性低。
2.聚類分析的方法
①層次聚類法(Hierarchical),也叫系統聚類法。既可處理分類變數,也可處理連續變數,但不能同時處理兩種變數類型,不需要指定類別數。聚類結果間存在著嵌套,或者說層次的關系。
②K-均值聚類法(K-Means Cluster),也叫快速聚類法。針對連續變數,也可處理有序分類變數,運算很快,但需要指定類別數。K-均值聚類法不會自動對數據進行標准化處理,需要先自己手動進行標准化分析。
③兩步聚類法(Two-Step Cluster):可以同時處理分類變數和連續變數,能自動識別最佳的類別數,結果比較穩定。如果只對連續變數進行聚類,描述記錄之間的距離性時可以使用歐氏(Euclidean)距離,也可以使用對數似然值(Log-likelihood),如果使用前者,則該方法和傳統的聚類方法並無太大區別;但是若進行聚類的還有離散變數,那麼就只能使用對數似然值來表述記錄間的差異性。當聚類指標為有序類別變數時,Two-Step Cluster出來的分類結果沒有K-means cluster的明晰,這是因為K-means演算法假定聚類指標變數為連續變數。
3.聚類分析的步驟
①確定研究目的:研究問題關注點有哪些、是否有先驗分類數…
②問卷編制:態度語句李克特項目、有序類別…
③確定分析變數:問卷變數的類型,連續or分類,有序類別or無序類別、是否納入後台數據,變數間相關性低…
④聚類分析:聚類分析方法選擇、數據標准化方法、聚類類別數確定…
⑤結果檢驗:類別間差異分析、是否符合常理…
⑥聚類結果解釋:類別的命名、類別間的差異、結合定性資料解釋…
Ⅱ 常用的統計分析方法總結(聚類分析、主成分分析、因子分析)
1. 系統聚類法 :由N類--1類
2. 分解法 :由1類---N類
3. K-均值法 :事先在聚類過程中確定在K類,適用於數據量大的數據
4. 有序樣品的聚類 :N個樣品排序,次序相鄰的樣品聚成一類
5. 模糊聚類法 :模糊數學的方法,多用於定性變數
6. 加入法 :樣品依次加入,全部加入完得到聚類圖。
a.夾角餘弦
b.相關系數
a.常用的類間距離定義有8種之多,與之相應的 系統聚類法 也有8種,分別為
a. 中間距離法
b. 最短距離法 :類與類之間的距離最近兩個樣品的距離。
c. 最長距離法 :類與類之間的距離最遠兩個樣品的距離。【先距離最短,後距離最遠合並】
d. 類平均法 :兩類元素中任兩個樣品距離的平均。
e. 重心法 :兩個重心xp 和xq 的距離。
f. 可變類平均法
e. 離差平方和法(Ward法) : 該方法的基本思想來自於方差分析,如果分類正確,同 類樣品的離差平方和應當較小,類與類的離差平方和較大。 具體做法是先將 n 個樣品各自成一類,然後每次縮小一類,每 縮小一類,離差平方和就要增大,選擇使方差增加最小的兩 類合並,直到所有的樣品歸為一類為止。
a. 最短距離法的主要缺點是它有鏈接聚合的趨勢,容易形 成一個比較大的類,大部分樣品都被聚在一類中,所以最短 距離法的聚類效果並不好,實際中不提倡使用。
b. 最長距離法克服了最短距離法鏈接聚合的缺陷,兩類合 並以後與其他類的距離是原來兩個類中的距離最大者,加大 了合並後的類與其他類的距離。
a. 定義 :主成分分析(Principal Component Analysis,簡記 PCA)是將 多個指標化為少數幾個綜合指標的一種統計分析方法 ,通常我們把轉化成的綜合指標稱為主成分。
b. 本質:降維
c. 表達 :主成分為原始變數的線性組合
d. 即信息量在空間降維以後信息量沒有發生改變,所有主成分的方差之和與原始的方差之和
e. 多個變數之間有一定的相關性,利用原始變數 的線性組合形成幾個綜合指標(主成分),在保留原始變數主要信息的前提下起到降維與簡化問題的作用。
f. 累積貢獻率一般是 85% 以上
(1)每一個主成分都是各 原始變數的線性組合
(2)主成分的數目大大少於原始變數的數目
(3)主成分保留了原始變數絕大多數信息
(4)各主成分之間 互不相關
a. 基本目的:用 少數幾個綜合因子去描述多個隨機變數之間的相關關系 。
b. 定義:多個變數————少數綜合因子(不存在的因子)
c. 顯在變數:原始變數X;潛在變數:因子F
d. X=AF+e【公共因子+特殊因子】
e. 應用: 因子分析主要用於相關性很強的多指標數據的降維處理。
f. 通過研究原始變數相關矩陣內部 的依賴關系,把一些具有錯綜復雜關系的變數歸結為少數幾個綜合因子的一種多變數統計分析方法。
g. 定義:原始的變數是可觀測的顯在變數,而 綜合 的因子是 不可觀測 的 潛在變數 ,稱為因子。
i. 根據相關性大小把原始變數分組,使得同組內的變數之間相關性較高,而不同組的變數間的相關性則較低。
ii. 公共因子 :每組變數代表一個基本結構,並用一個不可觀測的綜合變數表示。
iii. 對於所研究的某一具體問題,原始變數分解成兩部分:
i. R 型因子分析——研究變數之間的相關關系
ii. Q 型因子分析——研究樣品之間的相關關系
a. 因子載荷 是第i個變數與第j個公共因子的相關系數,絕對值越大,相關的密切程度越高。
a. 變數 Xi 的共同度是因子載荷矩陣的第i行的元素的平方和。記為
b. 所有的公共因子與特殊因子對變數 Xi 的貢獻和為1。
a. 確定因子載荷
b. 因子旋轉
c. 計算因子得分
a. 尋找簡單結構的載荷矩陣:載荷矩陣A的所有元素都接 近0或±1,則模型的公共因子就易於解釋。
b. 如果各主因子的典型代表變數不突出,就需要進行旋轉使因子載荷矩陣中載荷的絕對值向0和1兩個方向分化。
a.意義:對公共因子作正交旋轉相當於對載荷矩陣 A 作一正交變換 ,右乘正交矩陣 T ,使 A* = AT 能有更鮮明的實際意義。
b.幾何意義:是在 m 維空間上對原因子軸作一剛性旋轉。 因子旋轉不改變公共因子的共同度,這是因為 A A '=ATT'A'=AA'
c. 旋轉方法有:正交旋轉和斜交旋轉
d. 最普遍的是: 最大方差旋轉法
a. 定義:通過坐標變換使各個因子載荷的方差之和最大。
b. 任何一個變數只在一個因子上有高貢獻率,而在 其它因子上的載荷幾乎為0;
c. 任何一個因子只在少數變數上有高載荷,而在其 它變數上的載荷幾乎為0。
思想相同: 降維
前提條件:各變數間必須有 相關性 ,否則各變數之間沒有共享信息
Ⅲ 數據分析方法有哪些
常用的數據分析方法有:聚類分析、因子分析、相關分析、對應分析、回歸分析、方差分析。
1、聚類分析(Cluster Analysis)
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。
2、因子分析(Factor Analysis)
因子分析是指研究從變數群中提取共性因子的統計技術。因子分析就是從大量的數據中尋找內在的聯系,減少決策的困難。因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發抽因法、拉奧典型抽因法等等。
3、相關分析(Correlation Analysis)
相關分析(correlation analysis),相關分析是研究現象之間是否存在某種依存關系,並對具體有依存關系的現象探討其相關方向以及相關程度。
4、對應分析(Correspondence Analysis)
對應分析(Correspondence analysis)也稱關聯分析、R-Q型因子分析,通過分析由定性變數構成的交互匯總表來揭示變數間的聯系。可以揭示同一變數的各個類別之間的差異,以及不同變數各個類別之間的對應關系。對應分析的基本思想是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。
5、回歸分析
研究一個隨機變數Y對另一個(X)或一組(X1,X2,?,Xk)變數的相依關系的統計分析方法。回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。
6、方差分析(ANOVA/Analysis of Variance)
又稱「變異數分析」或「F檢驗」,是R.A.Fisher發明的,用於兩個及兩個以上樣本均數差別的顯著性檢驗。由於各種因素的影響,研究所得的數據呈現波動狀。
想了解更多關於數據分析的信息,推薦到CDA數據認證中心看看,CDA(Certified Data Analyst),即「CDA 數據分析師」,是在數字經濟大背景和人工智慧時代趨勢下,面向全行業的專業權威國際資格認證, 旨在提升全民數字技能,助力企業數字化轉型,推動行業數字化發展。 「CDA 數據分析師」具體指在互聯網、金融、零售、咨詢、電信、醫療、旅遊等行業專門從事數據的採集、清洗、處理、分析並能製作業務報告、 提供決策的新型數據分析人才。
Ⅳ 什麼是聚類分析
類通過把目標數據放入少數相對同源的組或「類」(cluster)里。分析表達數據,(1)通過一系列的檢測將待測的一組基因的變異標准化,然後成對比較線性協方差。(2)通過把用最緊密關聯的譜來放基因進行樣本聚類,例如用簡單的層級聚類(hierarchical clustering)方法。這種聚類亦可擴展到每個實驗樣本,利用一組基因總的線性相關進行聚類。(3)多維等級分析(multidimensional scaling analysis,MDS)是一種在二維Euclidean 「距離」中顯示實驗樣本相關的大約程度。(4)K-means方法聚類,通過重復再分配類成員來使「類」內分散度最小化的方法。
聚類方法有兩個顯著的局限:首先,要聚類結果要明確就需分離度很好(well-separated)的數據。幾乎所有現存的演算法都是從互相區別的不重疊的類數據中產生同樣的聚類。但是,如果類是擴散且互相滲透,那麼每種演算法的的結果將有點不同。結果,每種演算法界定的邊界不清,每種聚類演算法得到各自的最適結果,每個數據部分將產生單一的信息。為解釋因不同演算法使同樣數據產生不同結果,必須注意判斷不同的方式。對遺傳學家來說,正確解釋來自任一演算法的聚類內容的實際結果是困難的(特別是邊界)。最終,將需要經驗可信度通過序列比較來指導聚類解釋。
第二個局限由線性相關產生。上述的所有聚類方法分析的僅是簡單的一對一的關系。因為只是成對的線性比較,大大減少發現表達類型關系的計算量,但忽視了生物系統多因素和非線性的特點。
從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。
從機器學習的角度講,簇相當於隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習演算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。
從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。就數據挖掘功能而言,聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特徵,集中對特定的聚簇集合作進一步地分析。
聚類分析還可以作為其他數據挖掘任務(如分類、關聯規則)的預處理步驟。
數據挖掘領域主要研究面向大型資料庫、數據倉庫的高效實用的聚類分析演算法。
聚類分析是數據挖掘中的一個很活躍的研究領域,並提出了許多聚類演算法。
這些演算法可以被分為劃分方法、層次方法、基於密度方法、基於網格方法和
基於模型方法。
1 劃分方法(PAM:PArtitioning method) 首先創建k個劃分,k為要創建的劃分個數;然後利用一個循環
定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括:
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM
2 層次方法(hierarchical method) 創建一個層次以分解給定的數據集。該方法可以分為自上
而下(分解)和自下而上(合並)兩種操作方式。為彌補分解與合並的不足,層次合
並經常要與其它聚類方法相結合,如循環定位。典型的這類方法包括:
第一個是;BIRCH(Balanced Iterative Recing and Clustering using Hierarchies) 方法,它首先利用樹的結構對對象集進行劃分;然後再利
用其它聚類方法對這些聚類進行優化。
第二個是CURE(Clustering Using REprisentatives) 方法,它利用固定數目代表對象來表示相應聚類;然後對各聚類按照指定
量(向聚類中心)進行收縮。
第三個是ROCK方法,它利用聚類間的連接進行聚類合並。
最後一個CHEMALOEN,它則是在層次聚類時構造動態模型。
3 基於密度方法,根據密度完成對象的聚類。它根據對象周圍的密度(如
DBSCAN)不斷增長聚類。典型的基於密度方法包括:
DBSCAN(Densit-based Spatial Clustering of Application with Noise):該演算法通過不斷生長足夠高密
度區域來進行聚類;它能從含有雜訊的空間資料庫中發現任意形狀的聚類。此方法將一個聚類定義
為一組「密度連接」的點集。
OPTICS(Ordering Points To Identify the Clustering Structure):並不明確產生一
個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。。
4 基於網格方法,首先將對象空間劃分為有限個單元以構成網格結構;然後利
用網格結構完成聚類。
STING(STatistical INformation Grid) 就是一個利用網格單元保存的統計信息進行基
於網格聚類的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基於網格與基於密度相結合的方
法。
5 基於模型方法,它假設每個聚類的模型並發現適合相應模型的數據。典型的
基於模型方法包括:
統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是采
用符號量(屬性-值)對來加以描述的。採用分類樹的形式來創建
一個層次聚類。
CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚
類。它為每個結點中的每個屬性保存相應的連續正態分布(均值與方差);並利
用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)
和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。
因此它們都不適合對大資料庫進行聚類處理.