A. 簡述信息分析的方法
信息分析的方法信息分析的方法信息分析的方法信息分析的方法:
1邏輯學方法,提供正確的思維途徑和基礎
2系統分析方法:對整個信息分析過程起支配指導作用的方法,尤其分析復雜的對象或系統時,系統分析的方法的貢獻更大。
3圖書情報學方法:進行危險調研和文獻分析時,圖書情報學的方法是基本的和主要的,包括目錄學方法、文獻檢索法文獻劑量學方法、文獻綜合加工等多方面,在收集整理濃縮比較和分析中都少不了這些方法。
4社會學方法:在進行非文獻調研和非文獻分析,即實地調查分析時,社會學可以為信息分析提供收集實地信息的某些比較成熟的方法,為分析概念之間的關系和形成正確的概念框架、理論構架等貢獻有效地方法。
5統計學方法:信息分析中進行多因素之間的關系的定量的研究,主要依賴統計學的方法。
6未來學(預測)方法:為管理和決策服務的反洗非常重視預測,預測分析在信息分析工作中已佔有比較突出的地位,因此有未來學創造的和發展的許多專門用於預測的方法自然成為了信息分析方法的重要來源和必要的組成部分。
常見的信息分析方法:
一、定性分析法有:
1、歸納法:由若干已知事實作為前提,通過推理而獲得的一般規律作為結論。
2、演繹法:是形式邏輯中最重要的方法,主要用於推理和論證過程。在直覺思維形成後後形成後期對形成的概念進行科學的嚴密的檢驗和論證時加以應用。
3、分析與綜合法:是從客觀事物中普遍存在的整體與部分的關繫上把握事物本質的一般方法。 4、實證法:在理論尚不完善時,或者還沒有成熟的理論模型可以利用時,用具體的實例和數字來論證所提出的意見觀點和結論。
二、定量分析法:
1、統計分析法:對一定時期內的數據進行分析的方法,尋找數據發展的軌跡,獲取不同變數之間的相關關系,或由數據隨時間的變化來推測未來趨勢。
2、預測分析法:以概率為其主要理論基礎,對客觀世界大量的隨機事件進行探索的一種方法。根據事物過去和現在的發展規律,科學地估計未來的發展趨勢。
3、系統分析法:從系統的觀點出發,將研究的對象看做是一個與外部環境相聯系的系統,為了更好的達到系統的目標,而對系統的要素組織結構信息流動和控制機制進行分析,並應用數學方法好計算機技術建立系統的模型,找出各要素內在的和定量的關系,再及逆行系統的優化,提出建議和方案。
三、定性定量結合法
B. 分類數據分析中的擬合優度檢驗
知識圖譜
繼續我們的知識總結,本文總結包括:多選題研究、聚類分析研究、權重研究、非參數檢驗、數據分布。
查看本系列之前的文章,可點擊下面的鏈接:論文里的分析方法要用哪一種,SPSSAU告訴你答案論文常用數據分析方法分類總結-2
11. 多選題研究
多選題分析-SPSSAU
多選題分析可分為四種類型包括:多選題、單選-多選、多選-單選、多選-多選。
「多選題分析」是針對單個多選題的分析方法,可分析多選題各項的選擇比例情況
「單選-多選」是針對X為單選,Y為多選的情況使用的方法,可分析單選和多選題的關系。
「多選-單選」是針對X為多選,Y為單選的情況使用的方法。
「多選-多選」是針對X為多選,Y為多選的情況使用的方法。
12. 聚類分析
聚類分析-SPSSAU
聚類分析以多個研究標題作為基準,對樣本對象進行分類。
如果是按樣本聚類,則使用SPSSAU的進階方法模塊中的「聚類」功能,系統會自動識別出應該使用K-means聚類演算法還是K-prototype聚類演算法。
如果是按變數(標題)聚類,此時應該使用分層聚類,並且結合聚類樹狀圖進行綜合判定分析。
13. 權重研究
權重研究-SPSSAU
權重研究是用於分析各因素或指標在綜合體系中的重要程度,最終構建出權重體系。權重研究有多種方法包括:因子分析、熵值法、AHP層次分析法、TOPSIS、模糊綜合評價、灰色關聯等。
因子分析:因子分析可將多個題項濃縮成幾個概括性指標(因子),然後對新生成的各概括性指標計算權重。
熵值法:熵值法是利用熵值攜帶的信息計算每個指標的權重,通常可配合因子分析或主成分分析得到一級權重,利用熵值法計算二級權重。
AHP層次分析法:AHP層次分析法是一種主觀加客觀賦值的計算權重的方法。先通過專家打分構造判斷矩陣,然後量化計算每個指標的權重。
TOPSIS法:TOPSIS權重法是一種評價多個樣本綜合排名的方法,用於比較樣本的排名。
模糊綜合評價:是通過各指標的評價和權重對評價對象得出一個綜合性評價。
灰色關聯:灰色關聯是一種評價多個指標綜合排名的方法,用於判斷指標排名。
14. 非參數檢驗
非參數檢驗-SPSSAU
非參數檢驗用於研究定類數據與定量數據之間的關系情況。如果數據不滿足正態性或方差不齊,可用非參數檢驗。
單樣本Wilcoxon檢驗用於檢驗數據是否與某數字有明顯的區別。
如果X的組別為兩組,則使用MannWhitney統計量,如果組別超過兩組,則應該使用Kruskal-Wallis統計量結果,SPSSAU可自動選擇。
如果是配對數據,則使用配對樣本Wilcoxon檢驗
如果要研究多個關聯樣本的差異情況,可以用多樣本Friedman檢驗。
如果是研究定類數據與定量(等級)數據之間的差異性,還可以使用Ridit分析。
15. 數據分布
數據分布-SPSSAU
判斷數據分布是選擇正確分析方法的重要前提。
正態性:很多分析方法的使用前提都是要求數據服從正態性,比如線性回歸分析、相關分析、方差分析等,可通過正態圖、P-P/Q-Q圖、正態性檢驗查看數據正態性。
隨機性:遊程檢驗是一種非參數性統計假設的檢驗方法,可用於分析數據是否為隨機。
方差齊性:方差齊檢驗用於分析不同定類數據組別對定量數據時的波動情況是否一致,即方差齊性。方差齊是方差分析的前提,如果不滿足則不能使用方差分析。
Poisson分布:如果要判斷數據是否滿足Poisson分布,可通過Poisson檢驗判斷或者通過特徵進行判斷是否基本符合Poisson分布(三個特徵即:平穩性、獨立性和普通性)
卡方擬合優度檢驗:卡方擬合優度檢驗是一種非參數檢驗方法,其用於研究實際比例情況,是否與預期比例表現一致,但只針對於類別數據。
單樣本T檢驗:單樣本T檢驗用於分析定量數據是否與某個數字有著顯著的差異性。
上述分析方法均可在SPSSAU中使用分析,以及相關方法問題可查看SPSSAU幫助手冊。
C. spss中如何用因子分析計算各指標的權重
確定數據的權重也是進行數據分析的重要前提。可以利用SPSS的因子分析方法來確定權重。主要步驟是:
(1)首先將數據標准化,這是考慮到不同數據間的量綱不一致,因而必須要無量綱化。
(2)對標准化後的數據進行因子分析(主成分方法),使用方差最大化旋轉。
(3)寫出主因子得分和每個主因子的方程貢獻率。 Fj =β1j*X1 +β2j*X2 +β3j*X3 + ……+ βnj*Xn ; Fj 為主成分(j=1、2、……、m),X1、X2 、X3 、……、Xn 為各個指標,β1j、β2j、β3j、……、βnj為各指標在主成分Fj 中的系數得分,用ej表示Fj的方程貢獻率。
(4)求出指標權重。 ωi=[(m∑j)βij*ej]/[(n∑i)(m∑j)βij*ej],ωi就是指標Xi的權重。
因子分析的基本思想是根據相關性大小把原始變數分組,使得同組內的變數之間相關性較高,而不同組的變數間的相關性則較低。
每組變數代表一個基本結構,並用一個不可觀測的綜合變數表示,這個基本結構就成為公共因子,對於所研究的某一具體問題,原始變數就可以分解成兩部分之和的形式,一部分是少數幾個不可測的所謂公共因子的線性函數,另一部分是與公共因子無關的特殊因子。
D. 求數據處理軟體 或 數據處理方法
excel處理相當不錯,我的物理實驗論文就用的他處理的,作各式各樣的圖都行,實在不會就去借本書學一下,很簡單的。
你要覺得excel不夠專業,還可以使用MatLab或者MatheMatica,但是使用起來都要比excel復雜,所以還是推薦excel.
選出圖表框(插入-圖表)來後一步一步按照他的要求去做就行了,很容易上手。
E. 如何提高收集數據和分析數據的能力
大數據處理關鍵技術一般包括:大數據採集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。
如何從大數據中採集出有用的信息已經是大數據發展的關鍵因素之一。
想要培養數據分析的能力,可以從兩部分來著手:一是數據分析方法論的建立,二是數據分析從入門到精通的知識學習。
理論:是進行分析的基礎
1)基礎的數據分析知識,至少知道如何做趨勢分析、比較分析和細分,不然拿到一份數據就無從下手;
2)基礎的統計學知識,至少基礎的統計量要認識,知道這些統計量的定義和適用條件,統計學方法可以讓分析過程更加嚴謹,結論更有說服力;
3)對數據的興趣,以及其它的知識多多益善,讓分析過程有趣起來。
實踐:可以說90%的分析能力都是靠實踐培養的
1)明確分析的目的。如果分析前沒有明確分析的最終目標,很容易被數據繞進去,最終自己都不知道自己得出的結論到底是用來幹嘛的;
2)多結合業務去看數據。數據從業務運營中來,分析當然要回歸到業務中去,多熟悉了解業務可以使數據看起來更加透徹;
3)了解數據的定義和獲取。最好從數據最初是怎麼獲取的開始了解,當然指標的統計邏輯和規則是必須熟記於心的,不然很容易就被數據給坑了;
4)最後就是不斷地看數據、分析數據,這是個必經的過程,往往一個工作經驗豐富的非數據分析的運營人員要比剛進來不久的數據分析師對數據的了解要深入得多,就是這個原因。
也可以採用第三方的大數據服務平台,觀向數據是一款整體的數據採集、分析、可視化系統,可以幫助企業品牌發展提供科學化決策。
F. SPSS中,用因子分析將所有題項濃縮為5個變數,如何將原始問卷的數據也變成這五個變數的數據
需要優化數據的
不然維度是按數據來劃分的
效度就不好
統計專業,為您服務
G. 數據分析實踐的概念有哪些
1、數據分析實踐的概念——描述性分析
讓我們從最基本的描述性分析數據分析方法開始。描述性分析的目的是分析歷史趨勢,量化相關規律,從而對人們的行為有一個清晰的認識。描述性分析包括回答“過去發生了什麼”這個問題。這是最廣泛和最簡單的數據分析方法,用來幫助公司大致了解他們的日常運作。
描述使用基本統計和計算方法來捕捉關鍵指標的直觀歷史趨勢的模型。描述模型的主要目的不是評估價值,而是洞察潛在的行為。常用的描述性分析工具有MS EXCEL, SPSS和STATA。
對於銀行業務,典型的應用程序是用戶集群。通過挖掘歷史數據,分析客戶的消費習慣和消費能力,從而進行針對性的精準營銷。這些模型是實現用戶配置文件的強大工具,但是它們預測相似組中個體成員行為的能力非常有限。
2、數據分析實踐的概念——預測分析
預測模型使用統計模型來確定未來事件發生的可能性。它可以回答“未來會發生什麼?”.
預測模型是基於描述性模型的,因為它們不僅限於使用歷史數據,而且經常使用來自不同來源的結構化和非結構化數據。它提供未來可能發生的事件的濃縮報告,使決策者能夠作出知情的決定。涵蓋了隨機森林、GM、SVM、GLM、博弈論等各種高級統計模型和復雜數學概念。
預測模型是基於描述性模型來預測未來行為的。然而,與只有粗略描述的描述性模型不同,預測模型關注的是預測,對吧?個人顧客的行為。
此外,用於運行預測模型的工具會隨著模型的復雜性而變化,但是常見的工具如RapidMiner、R、Python、SAS、Matlab、Dataiku DSS以及其他許多工具都可以在Coursera上使用。
高級動態分析是銀行業的一個經典例子。它可以幫助預測客戶對給定市場報價的反應,從而增加交叉銷售和擴大產品銷售的可能性。另一個例子是預測信用卡欺詐的可能性。
3、數據分析實踐的概念——規則分析
規則分析最復雜的分析方法,使用隨機優化和模擬探索一系列可能的解決方案,並為給定的情況給出最佳的解決方案。它回答了“如何?”這是個問題。
規則模型超越了描述性模型——它們只處理正在發生的事情,比預測模型更強大——並且只有在它們繼續提供關於未來應該做什麼的建議時,它們才能告訴我們將會發生什麼。它們量化未來行動對關鍵業務指標的影響,並提供最佳行動方針。
規則模型將大數據與業務規則相結合,通過復雜的演算法比較一系列行動後最有可能出現的結果,選擇最佳的行動計劃,從而促進業務目標的實現。最高級的規則模型遵循一個模擬的過程,在這個過程中,模型通過持續和自動地學習當前數據來改進其智能。
這些模型通常非常復雜,而且由於它們難以控制,只能由具有強大技術技能的大公司使用。然後,當模型被正確地實現時,它會對公司決策的有效性產生巨大的影響。
這意味著超級計算機、雲計算、Hadoop HDFS、Spark、資料庫運行機制、MPP架構等方面的進步,使得將結構化和非結構化規則模型部署為數據源變得更加容易。但是,運行規則模型和預測模型等工具除了需要高級基礎設施之外,在其他方面也非常相似。
規則模型在零售銀行中的常見應用??例如,優化銀行各分行的銷售人員分布,使新客戶數量最大化。該模型通過整合各分公司的地理位置信息、業績和潛力水平,得出各分公司最優銷售人員的最優分配方案。
有哪些數據分析實踐的概念?不會這個的數據分析師都轉行了,描述模型使用基本的統計和計算方法來獲得關鍵指標的直觀歷史趨勢。描述模型的主要目的不是估算值,而是洞察潛在的行為,你能處理好嗎?如果您還擔心自己入門不順利,可以點擊本站其他文章進行學習。
H. 數據分析需要掌握些什麼知識
我們先從整體上了解數據分析師要掌握的技能有哪些,然後再從具體職位類別來看,不同的職位具體要掌握的技能有哪些。
這樣你就能根據自己的實際情況,有針對性的准備和學習。
一、數據分析的勝任力模型是什麼?
從整體上來看,數據分析師需要掌握的能力有很多,從總體上可以分為以下幾類,這些能力構成了數據分析師的能力模型。
1)理論基礎,包括統計學
2)數據分析工具,常用的分析工具有 Excel,SQL,Python 等
3)可視化工具,常用的有 Excel,商業智能(Business Intelligence,BI)
4)業務知識,包括常用的指標、某行業的業務流程
5)數據分析思維,包括常用的分析方法
6)通用能力,包括 PPT、溝通能力
下面我們來詳細看下每一種能力的要求。
理論基礎:統計學
數據分析背後的理論基礎是統計學。所以,掌握了統計學以後我們才能去看懂數據表達的意義是什麼。舉個例子,給你一家公司員工的工資,是平均值能代表這家公司的工資水平,還是中位數能代表?
如果沒學過統計學,那麼可能只認識這里的平均值,而不知道中位數這個知識。但是,如果你學過了統計學就會知道,中位數比平均值更能反映出數據的集中表現。
統計學的內容比較多,詳細又可以分為兩類內容:描述統計分析、推論統計分析。
什麼是描述統計分析?
對大量信息進行歸納是處理數據時最基本的任務。中國約有 14 億人,一張記錄每位中國人的姓名和收入的電子表格包含了我們衡量這個國家經濟健康狀況所需的所有信息,通常我們也將多個數據集合在一起的東東叫「簡稱數據集」。但這張信息過量的表格其實相當於什麼都沒有告訴我們。這就是讓人覺得諷刺的地方:經常是數據越多,事實越模糊。
因此,我們需要簡化,將一系列復雜的數據減少為幾個能夠起到描述作用的數字,正如奧運會體操比賽中,我們將一套多難度組合的復雜動作濃縮為一個得分:9.8 分。
描述統計分析就是將一系列復雜的數據減少為幾個能夠起到描述作用的數字,用這些有代表性的數字來代表所有的數據。這樣在面對一大堆數據時,你可在不知道所有數據的情況下就能知道數據的整體情況。
這就好比,我們通常一說起美女,能想到的是這樣幾個指標:長腿,大眼睛,臉蛋好看。雖然全國有那麼多美女,你也沒有見過全部的美女,但是你卻能通過這樣幾個代表美女的指標就可以大概知道什麼是美女。
同樣的,描述統計學的關鍵點在於,找到幾個關鍵的數字來描述數據的整體情況。那麼,問題就來了,能擔當起這樣重要責任的數字有哪些呢?描述數據的整體情況,我們可以用 4 個指標來做,分別是:平均值、四分位數、標准差和標准分。例如,前面我們在拿到工資數據,就可以用「中位數」這樣的數字來描述工資的整體情況。
所以,描述統計分析就是掌握 4 個指標:平均值,四分位數,標准差和標准分。
什麼是推論統計分析?
推論統計分析就是通過樣本來推斷出總體。需要掌握的知識包括概率分布、中心極限定、如何用樣本估計總體、置信區間、假設檢驗。例如,互聯網常用的 AB 測試背後的原理就是假設檢驗,如果不掌握推論統計分析,那麼連 AB 測試的結果也看不懂,更不用說完成一個 AB 測試實驗。
2.數據分析工具
很多人看到現在 Python 很火,就不管自己的能力水平如何,就一頭扎進學習 Python 的大潮,最後發現其實自己學不會,或者學完用不上。
這其實是不對的,真正工作里最常用的數據分析工具其實是 Excel,SQL。所以,如果你的零基礎,不建議一上來就學 Python,而是先學會 Excel 分析數據,然後學會 SQL。
這樣你學會了常用的分析工具,然後再學 Python 才是加分項。同時,這樣學習的順序還有一個好處,如果你是零基礎沒學過編程,一上來學 Python,大概率是學不會的。但是如果你學過用 Excel、SQL 處理數據,那麼就具備了一定的基礎,再學 Python,很多概念就會理解起來比較容易。
這就好比,一個嬰兒不是一上來就學習跑步(Python),而是先把走路學會,具備了走路(Excel、SQL)的基礎,再跑步就容易多了。
需要注意的是,除非是工作必須要求的,其他少部分公司用的工具其實不需要學習。比如有些公司要求其他編程語言,例如 R、SPSS、SAS 這些工具。
現在 Pyhon 已經是人工智慧排名第一的編程語言了,大部分公司要求 Python,很少部分的公司要求其他的編程語言,所以學習市場要求最多的那個技能才能找到更多機會。如果你學習了少部分公司才要求的工具,那麼意味著你找工作或者跳槽只能選擇這些公司,而會錯失其他大部分公司的求職機會,對你整個職業生涯不利。
TIOBE 編程語言排行榜是全球編程語言流行趨勢的一個指標,每月更新,官網地址(https://www.tiobe.com/tiobe-index)。下圖是 2021 年 2 月份排名前 10 的編程語言的變化圖,其中橙色曲線是 Python,我們會發現 Python 的流行趨勢越來越高。
3.可視化工具
常用的可視化工具包括 Excel、商業智能(BI)。
一般的可視化圖表用 Excel 里的圖表功能就可以實現,而且使用起來也方便。如果是要經常做報表,並且要求實現報表自動化,那麼就需要用到商業智能(BI)工具。
那什麼是商業智能(BI)呢?
微軟官方給的定義是「使用用於自助服務和企業商業智能 (BI) 的統一、可擴展平台(該平台易於使用,可幫助獲取更深入的數據見解),連接到任何數據並對數據進行可視化。 」
毫無懸念,看這種官方定義就是看不懂。簡單來說就是把數據導入商業智能(BI)工具中,就可以快速對數據可視化。例如下圖就是把數據導入用商業智能(BI)工具中,通過可視化數據來分析。
IDC《2019 年下半年中國商業智能軟體市場數據跟蹤報告》顯示,在中國商業智能軟體子市場中,報表分析仍是目前市場最主要的需求,2019 年全年年市場份額佔比為 79.0%。高級分析和預測分析市場份額佔比 21.0%(下圖)。
常用的商業智能(BI)工具有哪些呢?
目前使用最多的商業智能(BI)工具是 Power BI、Tableau、帆軟,選擇其中任意一種學習就可以了。
4.業務知識
因為數據分析是用來解決具體行業問題的,需要從業務的角度出發,了解各個指標,以及每個指標之間的關系,還需要聯系業務去理解數據。所以,工作中數據分析脫離不了業務,在分析中要找到導致問題發生的根本原因,而不只是單純的統計數據。
因此需要具備某個行業的業務知識才能去理解這個行業里的術語、業務問題等。
業務知識包括某個行業的常用指標、業務流程。需要注意的是,不同行業的指標、業務流程是不一樣的,所以需要學習的時候針對你的目標行業去學習准備。例如,下圖分別是金融信貸行業、在線教育行業的業務流程。
金融信貸行業業務流程(來自書《數據分析思維》)
在線教育業務流程(來自書《數據分析思維》)
如果是剛入門,這塊內容做到了解即可,等進入工作以後,再慢慢深入業務,積累業務經驗。具體某個行業的常用指標、業務流程可以看書《數據分析思維》,這本書里涉及了 10 多個行業的指標、業務流程。
5.數據分析思維
在數據分析相關的職位里經常會寫這么一條招聘要求「具備數據分析思維」。在工作或者面試中,會經常聽到分析思維、分析思路、分析方法。這三個詞語有什麼關系呢?其實簡單來說,它們都是指分析方法。
數據分析思維需要你掌握 10 種常用的分析方法。
數據分析 10 種常用的分析方法
如果你的分析目的是想將復雜問題變得簡單,就可以使用邏輯樹分析方法,例如經典的費米問題就可以用這個分析方法。
如果你的分析目的是做行業分析,那麼就可以用 PEST 分析方法,例如你想要研究中國少兒編程行業。
如果你想從多個角度去思考問題,那麼就可以用多維度拆解分析方法,例如找相親對象,需要從多個角度去分析是否合適。
如果你想進行對比分析,就要用到對比分析方法,例如你朋友問自己胖嗎,就是在對比。
如果你想找到問題發生的原因,那麼就要用到假設檢驗分析方法,其實破案劇里警察就是用這個方法來破案的。
如果你想知道 A 和 B 有什麼關系,就要用到相關分析方法,例如豆瓣在我們喜歡的電影下面推薦和這部分電影相關的電影。
如果你想對用戶留存和流失分析,就要用到群組分析方法,例如微博用戶留存分析。
如果你想對用戶按價值分類,那麼就要用到 RFM 分析方法,例如信用卡的會員服務,就是對用戶按價值分類,對不同用戶使用不同的營銷策略,從而做到精細化運營。
如果你想分析用戶的行為或者做產品運營,就要用到 AARRR 模型分析方法,例如對拼多多的用戶進行分析。
如果你想分析用戶的轉化,就要用到漏斗分析方法,例如店鋪本周銷量下降,想知道是中間哪個業務環節出了問題。
6.通用能力
通用能力包括 PPT 製作分析報告、溝通能力。
在工作中,要經常做分析結果做成數據分析報告,然後展示給業務部門、上級領導、客戶等,而這種展示數據分析報告的場景常用的工具就是 PPT,所以就要求你會用 PPT 製作數據分析報告,有較好的的文字、書面總結能力。
職業社交網站領英發布的《2018 新興工作崗位報告》報告里說,最大的技能缺口是軟技能,比如口頭交流、領導力和時間管理等。這份報告中建議,職場人士需要在快速變化的工作環境中,學習並保持軟技能,因為擁有這些技能的人才具備更大的職場優勢。
其實,任何職位都需要溝通能力,但是,數據分析師對溝通能力的要求更高。因為,數據分析師解決的是實際的問題,需要跨部門溝通業務,做好的數據分析報告也要展示給各個部門、領導、客戶,只有好的溝通能力,才能讓你的分析結果得到用戶的認可。 那麼這些通用能力如何提升呢?最直接的方式,就是通過寫文章來提升。
通過寫作可以同時提升你下面 3 個能力:
1)邏輯能力
寫作的本質其實是把一件事情講清楚,而邏輯能力強的人寫出來的內容,讀起來更順暢。
2)文字表達能力
數據分析師要經常做數據分析報告,和通過郵件匯報分析結果。這體現的其實就是文字表達能力,提高這個能力的辦法就是不斷去寫作。
3)溝通能力
寫作其實就是把想說的話通過文字和你的用戶去溝通。另外,經常在社群里提問和解答他人的問題,也可以提高你的溝通能力。你會看到不同人提問的水平是不一樣的,有的人可以完整的把一個問題描述清楚,有的人說完,其他人也不明白他的問題是什麼。這其實就是體現了溝通能力。
二、不同職位的數據分析能力要求有什麼不一樣?
經過前面的分析,我們從整體上知道了數據分析師需要掌握的能力。但並不是說,這些能力全都掌握了你才能找到一份數據分析師的工作。因為不同的職位的要求不一樣的。在《職業發展前景:數據分析師的晉升通道》章節我們知道了數據分析相關職位的分類。
我把勝任力模型中的這些能力對應到不同的職位,就可以清楚的看到對應職位的能力要求(下圖)。
有一個誤區,很多人以為只要掌握了分析工具,就掌握了數據分析,其實不是的。從圖中,我們可以看出。各個數據分析職位都需要的能力是:業務知識、分析思維、PPT、溝通能力。這些能力才可以讓你從一個只會舞弄工具的普通職場人變成真正解決業務問題的職場高手。
很多人以為數據分析師需要掌握很高大的工具,其實不是的。例如騰訊里有一個崗位叫「商業數據分析師」,這聽起來很高大上。其實這個職位對應的就是上圖初級數據分析師的能力要求,也就是理論基礎(描述統計分析),分析工具(Excel),可視化工具(Excel)。
上圖中黃色標出的是相對於前一職位多出來的能力。中級數據分析師在初級數據分析師要求的能力上增加了分析工具(SQL),可視化工具(商業智能 BI)。高級數據分析師在中級數據分析師要求的能力上增加了理論基礎(推論統計分析),分析工具(Python)。
Excel、SQL、Python 要掌握到什麼程度?
我們知道了數據分析師最常用的分析工具是 Excel、SQL、Python。那麼問題就來了,這些分析工具具體掌握哪些內容呢?
I. 對應分析方法
對應分析
對應分析也稱關聯分析、R-Q型因子分析,是近年新發展起來的一種多元相依變數統計分析技術,通過分析由定性變數構成的交互匯總表來揭示變數間的聯系。可以揭示同一變數的各個類別之間的差異,以及不同變數各個類別之間的對應關系。對應分析主要應用在市場細分、產品定位、地質研究以及計算機工程等領域中。原因在於,它是一種視覺化的數據分析方法,它能夠將幾組看不出任何聯系的數據,通過視覺上可以接受的定點陣圖展現出來。
對應分析的基本思想是將一個列聯表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。
它最大特點是能把眾多的樣品和眾多的變數同時作到同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示出來,具有直觀性。另外,它還省去了因子選擇和因子軸旋轉等復雜的數學運算及中間過程,可以從因子載荷圖上對樣品進行直觀的分類,而且能夠指示分類的主要參數(主因子)以及分類的依據,是一種直觀、簡單、方便的多元統計方法。
對應分析法整個處理過程由兩部分組成:表格和關聯圖。對應分析法中的表格是一個二維的表格,由行和列組成。每一行代表事物的一個屬性,依次排開。列則代表不同的事物本身,它由樣本集合構成,排列順序並沒有特別的要求。在關聯圖上,各個樣本都濃縮為一個點集合,而樣本的屬性變數在圖上同樣也是以點集合的形式顯示出來。
J. 數據分析
由表5-7中統計結果可知,氟在南陽盆地的土壤中雖廣泛存在,但是隨地理位置、土壤的埋深層位以及岩性的變化而有所差異。而且可以初步得出以下認識:
(1)土壤中總氟和水溶性氟最大值均出現在埋深70~90cm,最小值出現在0~20cm的層位,即在所調查的埋深層位100cm以內的土壤中氟含量在表層有一定的貧化現象,隨著埋深的增加存在一種先增大達到最大值,然後有所減小的趨勢。經計算可知,水溶性氟均值為20.19mg/kg,總氟均值為590.33mg/kg,水溶性氟含量遠高於地下水中的氟含量。
圖5-16 南陽盆地地下水樣採集點及取樣坑分布圖
表5-7 南陽盆地土壤樣品中不同類別氟含量特徵參數統計表
(2)受地理環境條件的影響,土壤中總氟和水溶性氟的極值出現在不同的區域,但是不論氟含量多少,隨不同地理位置環境條件的變化,土壤包氣帶對水氟遷移的影響都發揮著重要作用,在一定程度上能夠調節所在區域地下水中的氟含量。
(3)而由實驗統計數據可以看出,2號、5號、6 號、7 號取樣坑中土樣岩性單一,其中7號取樣坑中各層土樣岩性均為黏土,而2號、5號、6號取樣坑中各層土樣岩性則均為亞黏土;1號、9號、14號取樣坑中土樣岩性在縱向上表現為黏土亞黏土互層;15號取樣坑中則為細砂粉砂互層。不同土樣水溶性氟含量差別大,變化范圍為1.17~197.62mg/kg,均值為20.19mg/kg;總氟含量變化范圍為290.66~941.45mg/kg,均值為590.33mg/kg。根據《中國土壤元素背景值》所提供的資料,全國土壤淋溶層氟含量最小值為50mg/kg,最大值為3467mg/kg,算術平均值為478mg/kg,河南省土壤淋溶層氟含量最小值為192mg/kg,最大值為962mg/kg,算術平均值為406mg/kg。由此可見,南陽盆地土壤包氣帶中的氟含量偏高。
為掌握氟在各取樣坑中垂向分布情況,分別繪制出土壤總氟含量與水溶性氟含量在不同取樣坑中的垂向分布圖(圖5-17),並匯總各取樣坑相同取樣深度的土樣數據繪制出南陽盆地氟在垂向上的變化總趨勢圖(圖5-18)。
圖5-17 8個取樣坑中氟在垂向上的分布圖
圖5-18 南陽盆地氟在垂向上的分布總趨勢圖
由圖5-17可以發現如下規律:
(1)在所選的8個有代表性的樣品中,氟在垂向上的分布情況有相似的變化趨勢,即不論是單一岩性還是多岩性互層,在1m左右的取樣深度范圍內,隨著深度的增加,總氟含量和水溶性氟含量也總體呈現先增大後減小的趨勢,拐點大致出現在90cm深度,這種趨勢可以由1號、5號、6號、7號、9號、14號樣坑清晰地看出。圖5-18中氟在垂向上的變化趨勢也為這種現象提供了有力的佐證。
(2)但在不同的取樣坑中,氟的含量以及變化幅度存在較大的差異。尤其值得注意的是,總氟含量雖然整體呈增大的趨勢,但在0~90cm的深度內,其含量變化曲線一般都存在著多個峰值和谷值,這顯然是對地下水動態變化的響應所致。由於本區域地下水動態類型為入滲-蒸發型,地下水的垂直交替作用比較強烈,包氣帶中包括氟在內的鹽分隨大氣降水的入滲以及地下水周期性的上下波動進行不斷地周轉,或由包氣帶進入地下水中,或被土壤吸附,從而在土壤包氣帶中再次分配。隨著時間的增長,在這種動態變化向趨於平衡狀態演化時,停留在土壤包氣帶中的氟就會產生相對穩定的分布特徵。這種分布是穩態的,具有周期性漲落的特點,即它在短時間內的分布特徵是存在差異的,這種差異甚至較為顯著,但是在較長時間范圍內的一個周期內其分布特徵大致穩定。因此,短時間內地下水交替作用強烈且變動頻率高的地區土壤中總氟以及水溶性氟含量隨深度的變化幅度較大,且變動頻率較高。而在長時期的周期變動中,土壤中總氟以及水溶性氟含量隨深度的變化應該有一個較為穩定的趨勢。但這種趨勢會隨干擾因素的不同及干擾強度的增強而產生超出正常漲落變化范圍內的現象。
對於圖5-18中氟含量在垂向變化趨勢的原因,除岩性影響外,可能是由兩種不同過程的共同作用造成的:
第一種是地表水或大氣降水下滲過程中由於與土壤強烈的交替吸附作用以及強烈的淋洗作用,土壤中的水溶性氟向下運移聚集,從而使氟在垂向上有增大的趨勢;此外,當大氣降水入滲轉化的土壤水遇到上部土壤顆粒較粗下部較細的包氣帶結構(如1號、9號以及15號取樣坑)時,由於下部土壤顆粒較細,結構密閉緊實,土壤水的流動相對變慢,這種密實的結構起到一定阻水作用的同時也為土壤中的黏土類礦物吸附氟創造了條件。當然,土壤表層植物的根系對氟的吸收同化作用以及超滲產流的側向淋濾作用也會對表層土壤中氟的貧化現象產生一定的影響。
第二種是潛水通過毛細作用上升過程中將地下水中的氟帶入支撐毛細水上部附近的土壤中,在蒸發濃縮作用下出現「水走鹽留」的現象,或者通過化學反應而被固定在土壤之中,從而使氟在潛水面上部局部積累,而這兩種過程若出現交集必然使氟在垂向上的變化出現局部的峰值。
由於所選取的8個有代表性的取樣坑中地下水的埋深為1~2m,而圖5-18中峰值所處的位置為90~100cm,距潛水面約0~10cm,這個層位也應該是氟的局部富集帶。因此,南陽盆地土壤中氟在垂向90~100cm埋深處出現峰值就不難理解了。
自氟出現峰值的埋深至潛水面處,水的交替作用更為頻繁,頻率更大,地下水與土壤氟的交替吸附作用更為均衡和持久,使氟的遷移和富集作用趨於動態平衡,而氟在地下水和土壤中由於交替吸附作用而達到平衡時,土壤中氟的動態含量與其吸附容量存在較大差距,而即使是氟的局部富集層位也不能達到氟的吸附飽和狀態,所以,局部富集帶下氟的含量存在一個較為明顯的降低趨勢,其含量變化幅度如圖5-19所示。由圖5-19 可知,總氟含量的變化幅度遠大於水溶性氟的變化幅度,因此,總氟含量的降低不只是由於水溶性氟的降低所致,而是在多種物理化學作用下不同類型氟的綜合變化的結果,地下水與土壤之間的各種作用對水溶性氟含量在垂向上的變化影響較為明顯。
據統計可得出8個取樣坑中各不同岩性的氟含量見表5-8,繪制出岩性與水溶性氟含量及總氟含量之間的變化關系圖(圖5-20)。
由圖5-20可以看出,隨著岩性由黏土—亞黏土—粉砂—細砂的變化,土壤粒徑明顯增大,而這種岩性變化對水溶性氟含量的影響較有規律:即在原生土壤或人工擾動不強烈的土壤中,隨著土壤粒徑的增大水溶性氟含量呈逐步降低的趨勢。而岩性與總氟含量之間的關系較復雜,黏土及細砂中總氟含量相對於亞黏土和粉砂偏低,相差約10mg/kg,但都在580mg/kg以上,所以得出粒徑的變化對總氟含量的影響不顯著,這可能是受土樣在垂向上位置的變化和礦物成分及含量共同影響所致。
圖5-19 90~100cm埋深處氟含量變化幅度
圖5-20 南陽盆地土樣岩性與氟含量關系圖
表5-8 8個取樣坑中不同岩性的氟含量統計表
包氣帶作為氟在環境中遷移、轉化和富集過程中的交換器和調節器,受不同地區的岩性、礦物成分以及地下水交替條件的影響,氟在其水平和垂向的含量和形態會有所差別,進而影響其調節能力。但無論其調節能力如何,包氣帶中氟含量都明顯高於水中的氟含量。因此,包氣帶的調節作用在氟的遷移聚集過程中至關重要,土壤包氣帶與地下水中的氟存在密切的聯系。