導航:首頁 > 研究方法 > 電影數據分析降維方法

電影數據分析降維方法

發布時間:2022-07-15 15:42:58

1. 數據分析 常用的降維方法之主成分分析

數據分析:常用的降維方法之主成分分析

主成分分析(Principal Component Analysis,PCA)也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標。
在統計學中,主成分分析是一種簡化數據集的技術。它是一個線性變換。這個變換把數據變換到一個新的坐標系統中,使得任何數據投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經常用減少數據集的維數,同時保持數據集的對方差貢獻最大的特徵。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面。但是,這也不是一定的,要視具體應用而定。
主成分分析的主要作用
1.主成分分析能降低所研究的數據空間的維數。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m=1)時,這個Yl仍是使用全部X變數(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數全部近似於零的話,就可以把這個Xi刪除,這也是一種刪除多餘變數的方法。
2.有時可通過因子負荷aij的結論,弄清X變數間的某些關系。
3.多維數據的一種圖形表示方法。我們知道當維數大於3時便不能畫出幾何圖形,多元統計研究的問題大都多於3個變數。要把研究的問題用圖形表示出來是不可能的。然而,經過主成分分析後,我們可以選取前兩個主成分或其中某兩個主成分,根據主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進而還可以對樣本進行分類處理,可以由圖形發現遠離大多數樣本點的離群點。
4.由主成分分析法構造回歸模型。即把各主成分作為新自變數代替原來自變數x做回歸分析。
5.用主成分分析篩選回歸變數。回歸變數的選擇有著重的實際意義,為了使模型本身易於做結構分析、控制和預報,好從原始變數所構成的子集合中選擇最佳變數,構成最佳變數集合。用主成分分析篩選變數,可以用較少的計算量來選擇量,獲得選擇最佳變數子集合的效果。
主成分分析法的計算步驟
1、原始指標數據的標准化採集p 維隨機向量x = (x1,X2,...,Xp)T)n 個樣品xi = (xi1,xi2,...,xip)T ,i=1,2,…,n,
n>p,構造樣本陣,對樣本陣元進行如下標准化變換:
Z_{ij}=frac{x_{ij}-bar{x}_j}{s_j},i=1,2,...,n; j=1,2,...,p
其中bar{x}_j=frac{sum^{n}_{i=1}x_{ij}}{n},s^2_j=frac{sum^n_{i=1}(x_{ij}-bar{x}_j)^2}{n-1},得標准化陣Z。
2、對標准化陣Z 求相關系數矩陣
R=left[r_{ij}right]_pxp=frac{Z^T Z}{n-1}
其中,r_{ij}=frac{sum z_{kj}cdot z_{kj}}{n-1},i,j=1,2,...,p 。
3、解樣本相關矩陣R 的特徵方程left|R-lambda I_pright|=0得p 個特徵根,確定主成分
按frac{sum^m_{j=1}lambda_j}{sum^p_{j=1}lambda_j}ge 0.85 確定m 值,使信息的利用率達85%以上,對每個λj, j=1,2,...,m, 解方程組Rb = λjb得單位特徵向量b^o_j 。
4、將標准化後的指標變數轉換為主成分
U_{ij}=z^{T}_{i}b^{o}_{j},j=1,2,...,m
U1稱為第一主成分,U2 稱為第二主成分,…,Up 稱為第p 主成分。
5 、對m 個主成分進行綜合評價
對m 個主成分進行加權求和,即得最終評價值,權數為每個主成分的方差貢獻率。
因子分析
因子分析法是指從研究指標相關矩陣內部的依賴關系出發,把一些信息重疊、具有錯綜復雜關系的變數歸結為少數幾個不相關的綜合因子的一種多元統計分析方法。基本思想是:根據相關性大小把變數分組,使得同組內的變數之間相關性較高,但不同組的變數不相關或相關性較低,每組變數代表一個基本結構一即公共因子。
因子分析法的步驟
(1)對數據樣本進行標准化處理。
(2)計算樣本的相關矩陣R。
(3)求相關矩陣R的特徵根和特徵向量。
(4)根據系統要求的累積貢獻率確定主因子的個數。
(5)計算因子載荷矩陣A。
(6)確定因子模型。
(7)根據上述計算結果,對系統進行分析。

以上是小編為大家分享的關於數據分析 常用的降維方法之主成分分析的相關內容,更多信息可以關注環球青藤分享更多干貨

2. 數據分析的五大思維方式

數據分析的五大思維方式

發現很多朋友不會處理數據,這個過程叫做數據清洗,中間可能涉及到編程,分析人員是應該學點編程的,後面抽時間給大家介紹一下,今天不講這個。

今天要講數據分析的五大思維方式。

首先,我們要知道,什麼叫數據分析。其實從數據到信息的這個過程,就是數據分析。數據本身並沒有什麼價值,有價值的是我們從數據中提取出來的信息。

然而,我們還要搞清楚數據分析的目的是什麼?

目的是解決我們現實中的某個問題或者滿足現實中的某個需求。

那麼,在這個從數據到信息的過程中,肯定是有一些固定的思路,或者稱之為思維方式。下面零一給你一一介紹。(本文用到的指標和維度是同一個意思)

第一大思維【對照】

【對照】俗稱對比,單獨看一個數據是不會有感覺的,必需跟另一個數據做對比才會有感覺。比如下面的圖a和圖b。

圖a毫無感覺

圖b經過跟昨天的成交量對比,就會發現,今天跟昨天實則差了一大截。

這是最基本的思路,也是最重要的思路。在現實中的應用非常廣,比如選款測款丶監控店鋪數據等,這些過程就是在做【對照】,分析人員拿到數據後,如果數據是獨立的,無法進行對比的話,就無法判斷,等於無法從數據中讀取有用的信息。

第二大思維【拆分】

分析這個詞從字面上來理解,就是拆分和解析。因此可見,拆分在數據分析中的重要性。在派代上面也隨處可見「拆分」一詞,很多作者都會用這樣的口吻:經過拆分後,我們就清晰了……。不過,我相信有很多朋友並沒有弄清楚,拆分是怎麼用的。

我們回到第一個思維【對比】上面來,當某個維度可以對比的時候,我們選擇對比。再對比後發現問題需要找出原因的時候?或者根本就沒有得對比。這個時候,【拆分】就閃亮登場了。

大家看下面一個場景。

運營小美,經過對比店鋪的數據,發現今天的銷售額只有昨天的50%,這個時候,我們再怎麼對比銷售額這個維度,已經沒有意義了。這時需要對銷售額這個維度做分解,拆分指標。

銷售額=成交用戶數*客單價,成交用戶數又等於訪客數*轉化率。

詳見圖c和圖d

圖c是一個指標公式的拆解

圖b是對流量的組成成分做的簡單分解(還可以分很細很全)

拆分後的結果,相對於拆分前會清晰許多,便於分析,找細節。可見,拆分是分析人員必備的思維之一。

第三大思維【降維】

是否有面對一大堆維度的數據卻促手無策的經歷?當數據維度太多的時候,我們不可能每個維度都拿來分析,有一些有關聯的指標,是可以從中篩選出代表的維度即可。如下表

這么多的維度,其實不必每個都分析。我們知道成交用戶數/訪客數=轉化率,當存在這種維度,是可以通過其他兩個維度通過計算轉化出來的時候,我們就可以【降維】.

成交用戶數丶訪客數和轉化率,只要三選二即可。另外,成交用戶數*客單價=銷售額,這三個也可以三擇二。

另外,我們一般只關心對我們有用的數據,當有某些維度的數據跟我們的分析無關時,我們就可以篩選掉,達到【降維】的目的。

第四大思維【增維】

增維和降維是對應的,有降必有增。當我們當前的維度不能很好地解釋我們的問題時,我們就需要對數據做一個運算,增加多一個指標。請看下圖。

我們發現一個搜索指數和一個寶貝數,這兩個指標一個代表需求,一個代表競爭,有很多人把搜索指數/寶貝數=倍數,用倍數來代表一個詞的競爭度(僅供參考)。這種做法,就是在增維。增加的維度有一種叫法稱之為【輔助列】。

【增維】和【降維】是必需對數據的意義有充分的了解後,為了方便我們進行分析,有目的的對數據進行轉換運算。

第五大思維【假說】

當我們拿不準未來的時候,或者說是迷茫的時候。我們可以應用【假說】,假說是統計學的專業名詞吧,俗稱假設。當我們不知道結果,或者有幾種選擇的時候,那麼我們就召喚【假說】,我們先假設有了結果,然後運用逆向思維。

從結果到原因,要有怎麼樣的因,才能產生這種結果。這有點尋根的味道。那麼,我們可以知道,現在滿足了多少因,還需要多少因。如果是多選的情況下,我們就可以通過這種方法來找到最佳路徑(決策)

當然,【假說】的威力不僅僅如此。【假說】可是一匹天馬(行空),除了結果可以假設,過程也是可以被假設的。

我們回到數據分析的目的,我們就會知道只有明確了問題和需求,我們才能選擇分析的方法。

順帶給大家講講三大數據類型。這個屬於偷換概念,其實就是時間序列的細分,不是真正意義上的數據類型,但這個卻是在處理店鋪數據時經常會碰到的事情。數據放在坐標軸上面分【過去】丶【現在】和【未來】

第一大數據類型【過去】

【過去】的數據指歷史數據,已經發生過的數據。

作用:用於總結丶對照和提煉知識

如:歷史店鋪運營數據,退款數據,訂單數據

第二大數據類型【現在】

【現在】的概念比較模糊,當天,當月,今年這些都可以是現在的數據,看我們的時間單位而定。如果我們是以天作為單位,那麼,今天的數據,就是現在的數據。現在的數據和過去的數據做比較,才可以知道現在自己是在哪個位置,單有現在的數據,是沒什麼用處的。

作用:用於了解現況,發現問題

如:當天的店鋪數據

第三大數據類型【未來】

【未來】的數據指未發生的數據,通過預測得到。比如我們做得規劃,預算等,這些就是在時間點上還沒有到,但是卻已經有了數據。這個數據是作為參考的數據,預測沒有100%,總是有點兒出入的。

作用:用於預測

如:店鋪規劃,銷售計劃

三種數據是單向流動的,未來終究會變成現在,直到變成過去。

他人我不知道,但我自己非常喜歡把數據往坐標軸上面放,按時間段一劃分,每個數據的作用就非常清晰。

以上是小編為大家分享的關於數據分析的五大思維方式的相關內容,更多信息可以關注環球青藤分享更多干貨

3. 降維的方法主要有

在分析高維數據時,降維(Dimensionality rection,DR)方法是我們不可或缺的好幫手。

作為數據去噪簡化的一種方法,它對處理大多數現代生物數據很有幫助。在這些數據集中,經常存在著為單個樣本同時收集數百甚至數百萬個測量值的情況。

由於「維度災難」(curse of dimensionality)的存在,很多統計方法難以應用到高維數據上。雖然收集到的數據點很多,但是它們會散布在一個龐大的、幾乎不可能進行徹底探索的高維空間中。

通過降低數據的維度,你可以把這個復雜棘手的問題變得簡單輕松。除去噪音但保存了所關注信息的低維度數據,對理解其隱含的結構和模式很有幫助。原始的高維度數據通常包含了許多無關或冗餘變數的觀測值。降維可以被看作是一種潛在特徵提取的方法。它也經常用於數據壓縮、數據探索以及數據可視化。

雖然在標準的數據分析流程中已經開發並實現了許多降維方法,但它們很容易被誤用,並且其結果在實踐中也常被誤解。

本文為從業者提供了一套有用的指南,指導其如何正確進行降維,解釋其輸出並傳達結果。

技巧1:選擇一個合適的方法

當你想從現有的降維方法中選擇一種進行分析時,可用的降維方法的數量似乎令人生畏。事實上,你不必拘泥於一種方法;但是,你應該意識到哪些方法適合你當前的工作。

降維方法的選擇取決於輸入數據的性質。比如說,對於連續數據、分類數據、計數數據、距離數據,它們會需要用到不同的降維方法。你也應該用你的直覺和相關的領域知識來考慮收集到的數據。通常情況下,觀測可以充分捕獲臨近(或類似)數據點之間的小規模關系,但並不能捕獲遠距離觀測之間的長期相互作用。對數據的性質和解析度的考慮是十分重要的,因為降維方法可以還原數據的整體或局部結構。一般來說,線性方法如主成分分析(Principal Component Analysis, PCA)、對應分析(Correspondence Analysis, CA)、多重對應分析(Multiple Correspondence Analysis, MCA)、經典多維尺度分析(classical multidimensional scaling, cMDS)也被稱為主坐標分析(Principal Coordinate Analysis, PCoA) 等方法,常用於保留數據的整體結構;而非線性方法,如核主成分分析(Kernel Principal Component Analysis, Kernel PCA)、非度量多維尺度分析(Nonmetric Multidimensional Scaling, NMDS)、等度量映射(Isomap)、擴散映射(Diffusion Maps)、以及一些包括t分布隨機嵌入(t-Distributed Stochastic Neighbor Embedding, t-SNE)在內的鄰近嵌入技術,更適合於表達數據局部的相互作用關系。NE技術不會保留數據點之間的長期相互作用關系,其可視化報告中的非臨近觀測組的排列並沒有參考價值。因此,NE的圖表不應該被用於數據的大規模結構的推測

4. 分析電影數據的用哪個分析方法好

有啊 ,比如最簡單的一個比方,《青春期》。這電影爛的不能在爛,但是用了一些觀眾數據很輕松對了 不知道多少錢,反正是賺了不少 幾千萬那樣子吧

5. PCA主成分分析圖像數據降維代碼求教

獲取n行m列原始數據,寫成n*m的矩陣形式;
數據中心化。即把每個屬性的均值處理設為0(下面木羊將給出自己編寫的源代碼,木羊的數據用列代表屬性,在該步驟中,就把每列的均值都設置為0)。
根據中心化後的矩陣求協方差矩陣。協方差有三種值,0表示屬性之間相互獨立,沒有影響;正值表示屬性是正相關的關系,若屬性A和屬性B是正相關關系,則A增加B也增加,A減小B也減小;負值表示屬性是負相關的關系,若屬性C和屬性D是負相關關系,則C增加D減小,C減小D增加。所以,協方差矩陣也可以理解為相關系數矩陣,表示屬性間的相關程度。
根據協方差矩陣求特徵值矩陣。特徵值矩陣只有對角線上的元素有值,上三角和下三角元素都為0.
根據特徵值矩陣求對應的特徵向量。
對特徵值矩陣進行排序,並設定一個閾值,若前i個特徵矩陣的和>=設定的閾值,則就有i個主成分,取其對應的特徵向量,定為主成分向量矩陣。
原始矩陣乘以轉置後的主成分向量即得降維後的矩陣。比如,原始數據是150*4的矩陣,在步驟6中取得了2個主成分,那麼主成分矩陣就是2*4的矩陣。150*4的矩陣乘以4*2的矩陣,即得150*2的矩陣,體現了降維效果。(選取這個屬性較少的數據集是為了方便初學者的理解,在實際工程中,我們的屬性值往往不止4個,但降維方法都一樣的。)

6. 有人說數據可視化就是降維,這個說法的含義是什麼,有什麼局限性

數據可視化,是關於數據視覺表現形式的科學技術研究。其中,這種數據的視覺表現形式被定義為,一種以某種概要形式抽提出來的信息,包括相應信息單位的各種屬性和變數。
它是一個處於不斷演變之中的概念,其邊界在不斷地擴大。主要指的是技術上較為高級的技術方法,而這些技術方法允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數據加以可視化解釋。與立體建模之類的特殊技術方法相比,數據可視化所涵蓋的技術方法要廣泛得多。
數據可視化技術包含以下幾個基本概念:
①數據空間:是由n維屬性和m個元素組成的數據集所構成的多維信息空間;
②數據開發:是指利用一定的演算法和工具對數據進行定量的推演和計算;
③數據分析:指對多維數據進行切片、塊、旋轉等動作剖析數據,從而能多角度多側面觀察數據;
④數據可視化:是指將大型數據集中的數據以圖形圖像形式表示,並利用數據分析和開發工具發現其中未知信息的處理過程。
數據可視化已經提出了許多方法,這些方法根據其可視化的原理不同可以劃分為基於幾何的技術、面向像素技術、基於圖標的技術、基於層次的技術、基於圖像的技術和分布式技術等等。

7. 請問怎樣把三年的數據進行降維分析

可以分開做三次,也可以取平均值做一次,也可以做面板主成分分析

8. 這是spss數據分類分析還是降維還是維度分析

這種調查問卷或心理測試很明顯要用因子分析,因為這些被訪者的回答都只是個表象罷了,其實決定他們怎麼回答的是內在的因素,比如人們的自信程度啊等等。
用因子分析,分析出這些潛在的變數後,用這些潛在變數做聚類分析,把被訪者分成幾個群體。

9. 降維分析法概念

這種調查問卷或心理測試很明顯要用因子分析,因為這些被訪者的回答都只是個表象罷了,其實決定他們怎麼回答的是內在的因素,比如人們的自信程度啊等等。
用因子分析,分析出這些潛在的變數後,用這些潛在變數做聚類分析,把被訪者分成幾個群體。

10. 如何實現降維處理

降維方法分為線性核非線性降維,非線性降維又分為基於核函數和基於特徵值的方法。

線性降維方法:PCA ICALDA LFA LPP(LE的線性表示)

於核函數的非線性降維方法:KPCA KICAKDA

基於特徵值的非線性降維方法(流型學習):ISOMAP LLE LE LPP LTSA MVU

閱讀全文

與電影數據分析降維方法相關的資料

熱點內容
hiv快速檢測方法及應用 瀏覽:397
教學設計的方法和技巧初中美術 瀏覽:201
單腿獨立站不穩怎麼破方法來了 瀏覽:590
電腦wps打表的方法 瀏覽:543
皮膚皮炎治療方法 瀏覽:623
如何讓腳踝扭傷的方法 瀏覽:423
怎麼交費最快方法 瀏覽:760
國內外中學生物教學方法 瀏覽:862
簡單易學的切牌方法 瀏覽:772
lol手游跳fps嚴重解決方法 瀏覽:376
塑料薄膜吸水率檢測方法 瀏覽:662
植物中葯的鑒別方法 瀏覽:143
如何練習口才方法 瀏覽:409
裸色隔離霜的正確使用方法 瀏覽:771
玻璃水種真假的鑒別方法 瀏覽:599
識字教學方法幼小銜接 瀏覽:826
論文類似於swot的分析方法 瀏覽:964
小腦病變怎樣治療方法 瀏覽:296
自我檢測五官的方法 瀏覽:758
宮燈圖片製作方法 瀏覽:688