Ⅰ 2022-06-14
15分鍾掌握12個極簡統計學分析方法- 玩好一二三四五就能上山打老虎
程曉華
2022-6-12
我的新書《全面庫存管理數學分析》上市後,很多讀者反饋說「看不懂」。這件事一直搞得我很郁悶,但我也很理解,其實很多人,也包括我在內,上大學的時候的3門「高等數學」(高等數學、線性代數、概率與數理統計,一般工科生的必修課,在這里,包括在我的書里統稱「高等數學」)可能都沒有學好,光去應付考試了,考完了也就完了,根本談不上應用的問題,尤其是工作時間一長,除了會算個平均值但也懶得算之外,其他的都還給老師了。
但是,從事供應鏈管理工作,尤其是做最核心的供應鏈計劃管理,必須要跟數據打交道,要不斷地分析數據,挖掘並提煉其背後可能存在的有價值的信號,必要的時候,還可能還需要我們自己用Excel、R語言等工具做一些簡單的統計預測之類的工作,這就不可避免地就要用到一些所謂的「高等數學」的知識,盡管很簡單,但是,你必須要熟練掌握,達到熟能生巧的程度。
如果說《全面庫存管理數學分析》讓你感到頭疼的話,我建議你先耐著性子,結合Excel,花個十幾分鍾的時間,把我這篇文章看完,如果你能產生一些興趣,你就可以繼續去讀我那本書,學到更多的實用數據分析工具和方法論,但如果你連這個都沒有興趣,甚至是連這個東西也搞不懂,那書不讀也罷。
我們小時候都知道的一首兒歌,叫「一二三四五,上山打老虎」,我們這里就用y=(1,2,3,4,5)這組數來舉例子,我相信,你如果真正能夠搞懂了這個一二三四五,你就真的敢上山打老虎(玩供應鏈數據分析工作)了!
我們假設這個y=(1,2,3,4,5)是某個公司過去1~5月份(即x =(1,2,3,4,5))的出貨量,這里的x代表時間、期間,y代表期間出貨量。
我在這里一共列了12個小問題,代表12個數學公式及數據分析方法論:
1. 過去5個月的出貨(算術)平均值(average / mean)
這個問題很簡單,估計99.999%的人都會算,答案是(1+2+3+4+5)/5=3,對應的Excel函數公式是average( )。
但大家不要小看這個簡單的算術平均值(簡稱均值)計算,這是你對客戶需求做到心中有「數」的第一步,這也是我的書第一章反復強調的內容 – 平均值很重要。
按照我個人在供應鏈管理領域管人、管事的經驗來看,如果你能不看電腦、手機,隨口就能說出你所負責的某個產品、SKU或者型號的每周的大概的平均需求,你就基本上是做到了心中有「數」。
你可以馬上用這個「均值」測測你周圍的人,結果可能會讓你會很失望!
2. 截尾(0.2)平均值(trimmed mean)
知道這個所謂的截尾平均值的人會有多少呢?我心裡沒太有個數,因為,如果不是學習R語言,我以前也不知道有這么個東西,所以,我就相信很多人也不知道(我這是在做「極大似然估計(Maximum Likelihood Estimation, MLE)」,《全面庫存管理數學分析》第四章的內容),盡管很多人都聽說過它的應用,類似「去掉一個最高分,去掉一個最低分,大S的得分是 ……」。
這個定義在供應鏈管理中也是很有用的,譬如在評估客戶歷史需求的時候,我們可能人為地去掉那些看似不正常的極大值、極小值,至於比例,你自己決定,Excel公式是 trimmean( ),其中trim本身有修剪的意思,mean其實跟average一樣,都是平均值的意思,至於為什麼在Excel裡面它不是用trimaverage( )來做這個表達式,我們就不得而知了。
我們這個例子y=(1,2,3,4,5),數據量很小,數據本身也很整齊,無論是trim=0.2還是0.1, 0.3, 0.4,結果都是3,但如果你把那個5換成6,再試一下這四個比例,它們的結果就不一樣了。如果你感興趣的話,可以模擬更多的數據看看這個公式到底是表達了什麼意思。
3. 中位值(Median)
顧名思義,所謂的中位值就是處於序列中間位置的那個值,在我們這個例子中,一共有5個數,3就是那個中位值,因為它前面兩個哥哥,後面有兩個妹妹,它是老三嘛!
中位值的Excel公式是median()。
我的理解,這個中位值還有保持「中立」的意思,它不管哥哥妹妹們怎麼胡鬧,它還是它,永遠保持不變。它不像那個算術平均值average,屬於牆頭草性質,哥哥妹妹們一鬧騰,它也跟著折騰,所以它才有個外號叫「被平均」。譬如說,你把這個12345改成12346,中位值還是3,但平均值就從3變成了3.2了。所以,很多時候,我們寧肯相信那個中位值,因為這個平均值不太靠譜,據說還害死過人呢! 我也是聽說的:一個大個子的統計學家在一條平均水深不到1米的河裡被淹死了 。
比較理想的情況是這個中位值和平均值是一樣的,或者差不多大小,這樣的數據結構分布一般是比較好,甚至可能就是傳說中的正態分布。
4. 四分位差(Interquartile Range, IQR)
在分析一組數據、一個時間序列的時候,我們通常可以把數據平均分成4段,這樣每段數據占總數據個數的25%,估計這個「四分」就是這個意思,而「四分」之後,自然就是「五裂」,也就是4段5個點,而這5個點我們可以分別命名為Q 0 , Q 1 , Q 2 , Q 3 , Q 4 ,Q 0 最小(min),Q 4 最大(max),其它幾個分別處於25%,50%,75%的位置,如此以來,那個Q 2 就是老三,但奇怪的是,這里的Q 2 是指平均值(average),不是指那個中位值,我猜可能是統計學家們搞錯了:其他幾個兄弟姐妹談的都是「位置」上的數嘛!幹嘛這個Q 2 就非得是個平均值呢?
所謂四分位差(Interquartile Range,IQR)就是IQR=Q 3 – Q 1 ,在我們這個12345的例子里,IQR= Q 3 - Q 1 = 4 -2 = 2。
在Excel裡面有一種圖形叫箱型圖(boxplot),其原理就是這個IQR。只是這個箱子的中間是中位值,而不是那個Q 2 (平均值),這跟我理解的是一個意思,Q 2 就應該該是個中位值嘛!但很討厭的是,這個箱子的兩邊並不嚴格等於Q 1 ,Q 4 ,箱子上下還有兩條邊界線,本來它們就應該是我們下面提到的最小、最大異常值,但它實際上卻是Q 0 ,Q 4 ,這也是我非常不理解的地方 – 這樣的話,這個箱式圖還有多大的意義呢?我理想中的箱式圖應該是這樣的:箱體中間是Q 2 或中位值,上下蓋則是Q 1 ,Q 3 ,以此來顯示數據的集中范圍,或者是表示數據「應該的分布」范圍;上下蓋之外伸出的兩條天線則應該分別是最大、最小異常值,以此圈定來「正常值范圍」,天線之外的則是異常值。我之所以這么認為是因為從供應鏈管理角度,最大值(max)、最小值(min)是沒所謂的,它們本身並不能代表是正常還是異常,我們更關心的是所謂的異常,因為供應鏈管理有所謂「非正常需求(Abnormal Demand)」這一說。
下面我們就來談談這個問題。
5. 異常值(Outlier, 最小異常值、最大異常值)
所謂異常就是不正常,而正常與不正常是相對而言的,既然是相對而言,那就得有個相對的尺度,這個尺度就是最大異常值及最小異常值,范圍內的叫「正常值」,范圍之外的則是異常值。
這個范圍定義為: Q2±1.5IQR。
針對我們的例子y =(1,2,3,4,5),最大異常值就是Q2+1.5IQR=3+1.5×2=6,最小異常值就是Q2 - 1.5IQR=3 - 1.5×2=0,也就是說y裡面沒有異常值。但如果把那個5換成6,則6必是「異常」,感興趣的讀者可以用Excel套一下那個公式試試看。
需要搞清楚的是,這個所謂的異常值跟第2個問題提到的截尾均值裡面的那個「截尾」部分不是一個概念 – 被「截尾」掉的數值不一定是「異常值」,而異常值則應該是被截尾的對象。關於這個結論,我自己並沒有進行過嚴格的數學證明,但大家不妨多弄一些奇奇怪怪的數字,然後用Excel模擬驗證一下看看。
6****.方差(Variance)
顧名思義,方差就是「差的平方」,統計學上的方差指一組數的中的每個數減掉其平均值之後的差的平方的平均值。
回到我們的例子y=(1,2,3,4,5),其平均值是3,y-3之後的差為:(-2,-1, 0, 1, 2),差的平方為(4,1,0,1,4),其和為10,其平均值為10/5=2或10/(5-1)=2.5,都可以,表現在Excel公式中,一個是var.p( ),var.s( ),其中的p、s分別代表總體(population)、樣本(sample)的意思。在實際應用中,哪個都可以,因為它們是反映數據的相對離散程度,不同的數組之間只要是用同一個公式進行計算並對比衡量即可。
7. 標准差(Standard Deviation)
直接對方差開根號就得到標准差。針對我們的例子,我們可以得到的標准差就是根(2)=1.414或根(2.5)=1.581,或者用Excel公式 stdev.p( )、stdev.s( )計算標准差,兩個結果都可以。
這個所謂的標准差其實就是傳說中的那個西格瑪(σ),一個σ 就是一個標准差。如果你認為需求分布符合正態分布,均值±1σ 就能覆蓋68%左右的數據分布,均值±2σ 覆蓋95%左右的數據分布,均值±3σ 覆蓋99%左右的數據分布;如果你不認為需求分布符合正態分布,那就是隨機分布,但沒有關系,即使這樣,均值±2σ 也能覆蓋87%左右的數據分布,均值±3σ 也能覆蓋95%左右的數據分布,這是根據馬爾可夫不等式(《全面庫存管理數學分析》第三章的內容)得出的結論。
8. 需求波動率
標准差除以算術平均值就是所謂的波動率,統計學上叫CV(Coefficient of Variation, 變異系數)。這個CV對於我們分析客戶或市場需求非常重要,是需求分類的重要指標之一。
針對我們的12345,其需求波動率為1.414/3= 0.471或 1.581/3=0.527。
同樣,這個需求波動率是相對而言的,不同產品或者同一產品來自不同的客戶、不同的分銷中心,其需求波動率可能是不一樣的,在我的書《製造業全面庫存管理》裡面,這個波動率被用來做XYZ分類。
波動率也是衡量需求聚集效應的一個非常直觀的指標 – 被合並了的需求的波動率小於合並前單個需求的波動率之和。
9. 一階差分值(difference)
所謂的一階差分就是一組數內部相減,老二減老大,老三減老二,減到最後即可。很簡單,我們的例子得到的一階差分結果就是(1,1,1,1)。
一階差分的意義是什麼呢?
還是針對我們的例子,y=(1,2,3,4,5)是一條斜線,而差分後的序列(1,1,1,1)則是一條水平的直線。從供應鏈管理角度,你是喜歡你的客戶給你的需求是斜線呢還是近似水平的直線好一些?
從統計預測角度,不言而喻,水平的直線更好預測一些,因為需求相對平穩。只是需要大家注意的是,統計學上講的「平穩」可能跟大家腦子裡面想像的不太一致。這個平穩的英文單詞是stationary,它是指需求的移動平均值相對穩定,盡管一定期間內的需求可能是起起伏伏的,但這個需求並沒有明顯的上升或下降的趨勢,這就是「需求平穩」,它跟 stable 不是一個意思,stable是指穩定的意思,即每期需求大致相同。
10. 需求的趨勢函數(trend function)
針對時間軸x=(1,2,3,4,5),出貨量y=(1,2,3,4,5)的函數表達式是什麼?
我們可以用兩種方法得到結果,一種是用Excel作折線圖,添加趨勢線,選擇「線性」,顯示公式,我們得到 y=x;另外一種方法也是在Ecxcel裡面用 index(linest( ) )求出y=ax+b中的a的值為1,b=0。
函數與方程思想是數學思想寶庫的重要組成部分,供應鏈管理也需要一些函數與方程思維(有關這部分,包括後面兩個知識點的詳細內容,大家可以參考《全面庫存管理數學分析》第六章)。
11. 需求函數的一階導數(derivation)
需求函數是 y=x,其一階導數就是 y』=1,如果你跟第9個問題聯系起來看,你就會發現,這個一階導數跟一階差分值是相等的,都是1,這是為什麼呢?
道理很簡單,不是很嚴謹的理解,無限差分就是微分,微分之後即可求導數。無論是一階差分還是這個一階導數,都是表示需求的增長速度。
12. 預測第6期的需求值。
有了前面的工作,這個第6期,即6月份的需求預測就很簡單了。我們可以用三種方法來完成這個統計預測:
一是差分預測法:根據第9個問題點,我們得到的差分序列是(1,1,1,1),是一條水平的直線,那麼,很自然地,我們就「趨勢外推」,運用差分的方程 y 6 -y 5 =y 6 -5=1 求得 y 6 =5+1=6。
第二種方法是利用趨勢函數:y=x,當x=6的時候,y=x=6
第三種方法則是利用一階導數:我們知道該函數的一階導數就是代表著需求增速,而這個值是1,那麼,同樣很自然地,我們用 y 5 + 1 =y 6 = 5+1 = 6。
當然,簡單省事的統計預測方法還有平均值法,即y 6 = 3或者乾脆取上一期的值作為下一期的預測,即y 6 =y 5 =5。
除此之外,你也可以考慮用移動平均法,包括我在一篇文章里提到的「自然加權平均法」來預測這個6月份的需求。
但是,無論哪個預測結果,還是那句話,對於統計預測,你信則有之,不信則無。
【寫在結尾處】
我相信,絕大多數的讀者都是可以搞得懂這12個知識點的,但是,從搞得懂,到用得上,再到用得熟,甚至是用出彩兒來,這可能需要一個過程,你不下點功夫是不行的。所以,不要小瞧這個12345,弄好了,你一樣可以用它去打老虎!你甚至可以認為,這就是《全面庫存管理數學分析》的極簡版本。
另外,我在問卷星上把這12個知識點做成了考試題,鏈接如下,有時間可以邀請你周邊的同事、朋友,尤其是你的老闆們做做看,也好順便測測他們的智商。
https://ks.wjx.top/vm/YDIAWDg.aspx
作者程曉華(John Cheng),全面庫存管理(TIM)咨詢獨立顧問,《製造業庫存控制技術與策略》課程創始人、講師,《製造業庫存控制技巧》、《首席物料官(網路)》、《決戰庫存》、《製造業全面庫存管理》、《全面庫存管理數學分析(2022年1月已經上市,京東、當當網等皆有售)》著作者,郵箱: [email protected] TIM訂閱號:ITOOTD
Ⅱ 21天Excel極簡思維訓練營一認識Excel突破理論。
越是碎片化時代,越要系統的學習。
認識Excel,從理論基礎開始。首先。我們把Excel不能簡簡單單的當成一種電子表格軟體,而是把它理解成一種超越,簡單是極致的復雜。
1 Excel高手思維。 Excel其實非常的簡單,它簡單的只有三張表,一是明細表,2是參數表,3是匯總表。在做表格之前,首先我們要做的是思路先行,有了思路才有出路,最後轉化為輸出。
2在數據分析的過程中碰到一下子解決不了問題解決不了的問題。不要表現於表格本身,要跳出表格看問題。多掌握知識點,採取不同的路徑去達到目的。
3表格完成要檢查存儲。做到有備無患。而且在解決經常會重復的工作時。學會批量的自動化。去減輕你的勞動負擔。
4進一步的認識Excel的知識體系。有三個層次,一是基礎基本操作,二是高級運用,3是系統應用。
5在使用Excel的時,請掌握基本的規范。那就是忌將不同的信息放在一個表格中,忌合並單元格和空行。忌錯誤的日期格式。規范化後的表格會讓你的工作事半功倍,在運用函數和公式時非常的流暢。
6重新去認識一下。Excel界面的基礎在這里名稱框的應用,我們平時不太在意,其實它有很好的三個用法,一是定位法,第二是定義某個區域,第三是實現名稱框和公式聯動。
7最後習慣決定成敗,我們要養成良好的保存習慣,而且常用快捷鍵常備份,多檢查採用多個的辦法。養成良好的工作習慣,提升工作效率。
Ⅲ 運營增長實戰:達成業務目標的5個極簡案例
2014年,我買了一個MAC本,裝范用。我媽不太高興。老人節約慣了,認為我正在用的聯想本長的瓷實,又便宜,我就拿數據說話,做了個正相關。我說:老太太哎,你看,我用聯想本,速度慢,我基本上每天都得凌晨2點睡覺,自從有了MAC本,速度超快,我9點就休息了。老太太高興了,直接說:要不買兩個吧,那豈不是吃完飯就能休息了。
天下父母都是後廚,誰不對自己孩子健康著想呢 ?就這樣,我又趁機買了個ipad。
這是數據在現實生活中的說服作用,呈堂證供。
運營崗位也一樣,要靠產品、技術、消息引擎、市場等後廚吃飯,如果沒有數據說話,就很難撬動他們。
但我們做運營的,數據本身天然弱項,像我,念書時沒好好學數學,又不懂統計學,去菜市場買個菜都算不來賬,感性意識濃,怎麼辦?無解,只能日常歷練,所以自從2010年起,就嘗試著靠數據說話,練邏輯能力,我平時很懶,唯獨數據,特勤快,有時間就看就記。
這些年下來,和數據產品經理、數據分析師、統計大拿都打過交道,每次聽他們說了一個新概念,都要網路查閱,但現在依然不知道什麼是置信區間、什麼是概率分布,腦子笨,所以自我說服,提出了一個極簡數據、優化源表的概念,試圖靠一張Excel表、淺顯的數據去做決策,數據小白也能上手,快速提升自己的業務增長。本文就總結一下我那些年靠極簡數據提升業務目標增長的一些案例。
先說一下極簡數據的4大特徵:
1、數據極易獲取,比如微信的後台數據、GA數據、公司數據部做的標准報表數據等等。
2、分析起來極簡,只需用Excel就能得到真知灼見。我原來喜歡用GA,因為裡面功能強大還免費,各種維度去看數據,顯得高端有檔次。但是自從GA被封之後,公司不用了,我就開始琢磨著自己做一套本地的數據,把所有的運營項目都梳理出來一個日常表,我起名叫優化源表。這樣我就可以藉助Excel強大的數據分析功能,比如透視表來指導我運營了。
3、數據運營的思路極簡,運營就是發現問題,然後搞定問題的過程,高深的數據模型一般是供商業決策的,運營顯性,基本用不上。
4、極簡數據有一定誤差,會有個人主觀經驗在裡面。我一般只要對數據有信心,就會做決策,世上沒有精確的數據,只有相對准確的數據。曾經看過一句話:一次能讓人有所收獲的犯錯,遠好於什麼都沒干,很適合運營。
此外,本文的所有案例,數據部分都做了極簡處理,繞過埋點、監控策略制定、實施、數據清洗等環節,只講核心方法,讓大家能一目瞭然,裡面提到了我經常掛在嘴邊的兩個核心詞,試錯和優化。試錯是方法,優化是靈魂。
好,我們來看本文的分享大綱:
我經常做優化源表,把每天的數據記錄下來,有時候如果數據部門有標准報表,會更省事一些。
優化源表短期內不會給你帶來太大價值,但是當數據積累到一定量級後,你就會從這張表中得到很多真知灼見。比如,你可以靠業務目標日常表現表十分合理地推演分解出月目標,周目標、日目標,真正做到每日的運營行為都『心中有數』。因為日常目標表現表展示的是你的業務規律,尤其是當你負責整個產品項目的運營,給手下定KPI的時候,手下 再也不會說你拍腦袋了。
我舉個例子,這是我從《數據化管理》一書中學到的。自從2014年我看了這本書後,這個技巧就被我拿來應用在互聯網產品運營上了。遵循極簡原則,我只講如何分解到月,因為分解到周和日的思路大同小異。我簡單的提供一個思路。
首先,需要找到歷史數據。我從公司數據平台上找到PC端用戶全年的日UV數據。這里我拿UV來舉例,您也可以拿LV、Visit、PV來做。
通過日期數據計算出第N周和星期欄位的值。把異常日期排除在外,主要是節假日,因為節假日一般網站的流量都不太正常,還有,把特殊推廣期的日期也排除在外,這要靠平時的運營日記,把每天的運營行為做一個記錄。然後得到這張圖:
我們開始透視這張表做分解。
透視的時候把假日信息和特殊推廣日標識出來,在透視的時候過濾掉,不計入總表中。
發現了嗎?你看折線圖,很明顯,業務有淡旺季之分。所以我們完成全年目標的時候,也要合理的分出淡季完成多少,旺季完成多少。而不是平均每月完成多少。
權重是供我們計算用戶的一個人為附值。一般先把最低值附值為1,比如圖中的5月,然後其他月份的平均UV值除以5月的UV值,就能得出各個月份的權重了。
比如2015年的總UV是8.8ww,老闆給你翻了個倍。那麼你通過權重就能平攤到每個月要完成多少。比如圖中的1月份,我算出一月份的權重占總權重的比值,然後再用KPI乘以這個比值,就得到了1月份要完成的KPI了。
那麼,我們分解KPI的目的是什麼?
1、盡早做年度運營規劃,第一個月如果完不成目標,和老闆及時反饋,早早申請資源;
2、管理老闆的期望值,控制kpi完成的節奏,別第一個月沒控制住,早早就完成了,那時候老闆就給你定更高kpi了,有時候運營的坑都是自己挖的。
這是我們集體團隊策劃的活動,共5人,我主要擔當文案和數據統計工作。
當時老闆放話了,對新產品團隊成員說,你們可以在現有4000萬用戶中隨意選擇20萬用戶當種子用戶,然後給新產品引入10萬初始用戶,平均單用戶成本不要超過5元,撂下這句話就走了。
我們有了資源,有了成本限額。先拋出去成本不談。20萬種子用戶的篩選至關重要。這是細分用戶的能力了。我們思來想去,馬上就要秋招了,應屆生求職慾望比較強烈。於是我們精挑細選了20萬高活躍應屆生用戶做種子,開啟燎原之路。
我們針對這部分用戶策劃了一個促分享拉新的活動。恰好,那年應屆生秋招提前,有不少500強客戶提前進入校招。所以我們的活動噱頭就從這些大客戶入手。主題就是部分名企提前校招,邀請同學加入能拿紅包,給個多變的酬賞,紅包不設上限。
接下來,我們按這個主題策劃了一個可傳播的活動。我們是怎麼做的?我復盤的時候梳理了一下流程,大家看這張Excel表。
這張表就是全程的優化頁面和效果的數據,我挑一些關鍵點去講。
比如渠道策略,從哪個渠道拉新,哪部分用戶用來做測試,哪部分正式大規模推廣等,因為微信平台的特殊性,簡訊、app push、頁面廣告或攔截、EDM等渠道都不太方便用戶,我們也想通過我們自己的微信大號來做,但我們的微信號粉絲的用戶什麼身份都有,不僅僅是應屆生。比較來比較去,根據經驗,擇優選擇了某一渠道來做。
還有,策劃初稿的時候,活動流程及關鍵節點數據一定要提前規劃埋點,監控好。這點需要說一下,既然是活動規劃,所以一定要考慮周全,否則你上線後技術很有可能看不到日誌數據,比如渠道轉化率,通過渠道帶來的分享數,注冊成功數,這時候你就算白忙乎了,我在這個活動中就犯了極大的錯誤。
不要活動一上線就全量去推廣。要不斷優化關鍵頁面或關鍵流程節點,把頁面和流程的轉化都優化到一定程度後,覺得再優化不上去了,或者通過節點轉化數據去反推,根據得到的轉化率我們算出來能完成目標了,再去全量推廣。
因為這個案例主要是頁面的轉化率,所以我把渠道的轉化、分享與邀請的比例關系在第一次測試的時候就固定了。比如本次活動渠道轉化達到了32%左右,分享與邀請的比例為1:5,即1個分享能帶來5個注冊用戶。
還有一些轉化數據我們不太可控,比如注冊流程的轉化,注冊流程是標准化的功能模塊,優化改動比較大,所以這塊優化略去,不做重點關注。當然了,我們在這個活動中,注冊流程其實折損了不少用戶。
固定一些次要變數後,我們把優化的目標放在了兩個關鍵頁面上,一個頁面就是引入種子用戶的頁面,我叫促分享頁。還有一個頁面是,當用戶分享給好友或朋友圈的時候,好友點擊進入的頁面,我叫轉注冊頁。這兩個頁面,我們不斷測試,總計測試了三版,直到將分享率和注冊成功率優化至最佳水平。才去大規模推廣。
這個環節最關鍵、也最糾結。我們折騰了足足有一個月的時間。最終結果是,通過這三個大的優化回合,我們成功完成了目標。1個月的時間,優化了3版活動,我們認為是值得的,因為這樣的活動流程和模式被我們驗證為可行,能長期做的,擴展性特別強。比如我們可以做活動後台,專門針對不同用戶群去復制我們的活動模式。所以,前期的慢是為了後期的快。有了後台工具,我們基本上一周就能做一個類似的活動了。這是優化的價值,優化是修煉內功,目的是增強核心運營能力。
現在講頁面的優化思路,我們是怎麼思考的,其實現在總結出來,只有3個關鍵點:
比如第一版的促分享頁,我們把伯樂獎變成了紅包,然後分享轉化就提高了3個點,轉注冊頁更明顯,我們把按鈕加入了邀請的元素,不再自話自說第一時間報名,快速拿Offer,我用分享人的邀請來做文章。這就好比是你的同事對你說,我們今晚去吃大餐吧,你可能還猶豫一下,因為你不確定是他請是AA還是他吃完飯之後忽然說一句,我忘帶錢包了。而如果你同事說,走,我請你去吃大餐,要是我,我肯定去。所以我們轉化了一個思路,轉注冊頁的轉化率就提升了10個點。
我們第一版和第二版的時候,忽略了這個元素,把名企做成了列表,後來思考,我們感覺用戶可能覺得這個列表是可點擊的,造成了誤導,然後用戶發現不能點擊,會有點情緒,分享動力和注冊動力就不足。所以第三版的時候,我們從視覺設計上排除了這個干擾。
關鍵點在第三版,我們轉變了一個思路,第一版第二版的時候,我們是用戶邀請好友加入注冊成功後才得紅包。如果我們讓種子用戶轉發就能拿紅包,強制去做轉發,想像一下,用戶會覺得這個活動可信度很高,分享率也會提高的,也許他不僅僅分享到朋友圈,會去各個群里分享也不一定。所以,我們在用戶點擊馬上加入按鈕的時候,彈出浮層,提醒用戶分享後就能拿紅包,引入同學加入還能拿。
就沿著這個思路,我們成功完成了目標,並獲得了一個活動模式。在優化的過程中,聚焦數據,把每次活動的數據都記錄下來,實時監控換算,讓每一次試錯都有數據展示。大家可以看剛才分享的那張圖里,我把關鍵數據都列出來了。
最後,我們全量推的時候,引入的注冊用戶是57000多,為何最終引入注冊量會達到近10萬。而且這個最終引入注冊用戶只是推廣當天的數據,第二天還在增長。是因為引入的注冊用戶成為了種子用戶,他們也開始去滾雪球轉發了。
我們的APP剛上線的時候,除了通過一些統計工具被動接收用戶反饋外,無法直接觸達用戶,比如我們有重大活動的通知、拉回沉默用戶、調研等等。所以我們的產品做了一個PUSH通知產品,我暫時稱之為求職小助手,它類似於app內置的公號。我會隔三差五的推送一些信息。
因為我們的文案水平經過長期的錘煉,已經有了很好的經驗。我就想,單靠文案的力量可能無法再拔高push的點擊率了,我是不是還有其他拔高業績的缺口沒有找到,思來想去,忽然想到,如果我知道用戶對push內容的喜好程度,然後去推送相關內容,是不是就能再提高一籌點擊率?
我的需求出來了:我渴望得到用戶對內容的偏好程度。
那麼,我如何去洞察呢?我需要做一個試錯策略,我在運營工作中最喜歡的一個工作方法。
試錯是運營最靠譜的手段,是運營崗位之所以存在的核心。試錯最怕不合理,所以試錯策略很重要。
我的試錯策略,大家看這張表:
簡單講解如下:
試錯用戶在不同時間點對內容的偏好程度。我把目標放在了總結月度規律上了。如果你的業務也有規律可循,可以放在季度、甚至於周上。
文案點擊率。如果用戶對內容的喜好有規律性,絕對是在某個時間點上有比較高的點擊率的。
敲定試錯變數是試錯策略之所以合理的關鍵節點,上表中標了橘黃色的欄位為變數。
要提前分類好。我試錯的是內容類型,而非單篇文章。什麼是內容類型?比如門戶站的頻道,科技、娛樂、軍事、新聞等。我集中選出了7類內容。比如面試攻略、網申攻略、簡歷攻略等,提前規劃好,並合理安排到每周。按部就班的發布。比如,我每周一都發信息匯總貼,周二推簡歷攻略,周三推面試等等。
時間點,就是每天的固定時間去發,比如,我都選擇晚8點來發。至於這個時間點是怎麼來的,我是調研得來的。我有一個測文案的微信號,因為我平時經常回答應屆生的問題,所以他們對我很好,我發一個調研貼問他們什麼時間push信息給他們合適,他們80%都說晚7-9點。
做過APP 通知產品的朋友都知道,iOS是統計不到接收數據的。我們為了更科學,只拿Android客戶端來測試。文案點擊率看點擊接收比,比看點擊下發比更靠譜一些。
即找誰試錯。這個很重要,我現在是知道,應屆生的用戶只要是push相關求職信息,大部分同學是不太嫌煩的。因為求職是剛需,如果求職成功了,他們大多都是關掉通知或卸載APP了。但是當時不知道,覺得push信息是很擾民的。所以,為了天天發信息不讓用戶投訴,我只選擇某一類特徵的用戶,比如高活躍用戶,即那些當天有過登陸行為且有過投遞行為的用戶;或者沉默用戶,這樣能更減少騷擾,因為如果沉默用戶被我的push激活了,立即就歸到活躍池了,就不會接收到我的push了。而且,沉默用戶之所以沉默,有可能是沒了需求,如果他點擊了我的push,證明他是喜好我的內容的。正好符合我的試錯目的。
大家都知道,Android的標題是可以自定義的,不像iOS,標題只能是品牌名。因為我的目的是試錯,不是為了拿點擊率的效果,所以我的標題不做自定義處理,直接寫品牌名。這樣更好控制一些。
最難把控的一個變數。標題黨有最大的點擊效果,但是這屬於試錯的異常數據,我一定要保證文案水平在一個力度區間,才能合理的得出業務認知。這又涉及到一個文案力度的試錯策略。這個更復雜,今天不講。我在原來的微信和內容頻道的工作經驗中曾試錯總結過文案力度的大小,我知道哪些文案的力度高,哪些文案的力度低,因為是我親自操盤:我每天都在記錄數據,所以我能合理的知道每個文案的正常點擊水平。大家只要記住,文案力度是有等級的。本案例採取2級文案力度水平,正常情況下點擊率有2個點的浮動。
當然了,如果你沒有文案等級,也可以每個內容類型精編幾篇文章,然後從目標用戶細分上下功夫,比如取當日登陸用戶並設置過濾機制:每個用戶在試錯期間內只接收一次等。這樣你就可以給同一類型用戶固定push這些文章了。
數據清洗時要重視。比如有時候發送通道不穩定,沒發送出去,或者統計錯誤,這些異常數據都要在清洗的時候排除出去。
這樣,我就敲定了7個影響我業務認知的變數。力爭得到合理科學的建議!
1年後,試錯結束,我開始總結規律。我透視出這樣一張表來:
大家看出來了嗎?標粉色部分的內容類型絕對是當月最受歡迎的內容。那麼,在下一年的某個月份,我加大用戶最喜好的內容力度,是不是就能拔高一籌業績呢。
這就是我的內容試錯策略。結論很簡單,過程很糾結。
當然了,我的這個試錯案例是長線作戰,因為我們是成熟期產品。如果你的產品是初創期或成長期,你可以選擇短線試錯,只要把控好兩點即可:
一,務必明確試錯目標,目標必須唯一化。因為試錯是為了得到業務認知,而不是為了試錯而試錯;
二、試錯一定要想辦法敲定影響你試錯結論的變數因素,力爭最小化的影響業務認知。
這是2015年的案例,在我的文章《我和慕容雪菲深夜聊運營》一文中有所提及,寫的比較粗糙,今天我又梳理了一下思路,有條理的和大家說一下,並放出我的一張微信號運營用的優化源表。另外,大家注意一點:2015年的時候微信統計的分享收藏數是放在一起的。不像現在,分享和收藏的統計分開了,讓這樣定位內容的方法更科學了。
我剛接手一個微信號內容運營的時候,每日凈增粉絲數是負的,那麼我是怎麼解決這個問題的呢?我依然是從內容上下功夫。領導很著急見到效果,我沒時間去做內容試錯策略了,那我就可以從歷史數據中發現規律。我簡單描述一下:
明確我的業務問題:微信日凈增粉絲數為負。
分析問題,此問題其實有兩種解決思路:
1、節流,這是內容選題問題:我究竟要做哪類內容才能滿足用戶需求,讓用戶不跑路。即從現有粉絲上做文章,減少粉絲流失;
2、拉新,如果粉絲繼續掉,但我把日增粉數做的超過了掉粉數,那麼日凈增粉絲不就是正的了嗎?日增粉數和轉發數息息相關,一般來說是正相關的,轉發越多增粉越多。而轉發又和內容息息相關。
所以,我的業務問題其實是內容定位問題。我需要找到用戶對微信內容的偏好,我的思路很簡單。
如下圖,這張圖我做了一個閱讀排序。
發送人數,因為涉及業務隱私,我給略去了
這張表就是我的一張優化源表的真實面貌。我有一個習慣,每做一個運營項目的時候,大到整個產品的運營, 小到一個導航類目、焦點圖、推薦位等,我都會自己琢磨出一張這樣的表來發現問題,總結規律,進而指導運營行為。
我花了兩天時間把近1年的歷史推送數據全部人工採集到這張表裡。更累人的是給這些內容一一分類。我把這些內容大致分了10個類別。然後給每一篇文章都歸到這10大類里(表中的分類欄位),然後這張源數據表就出來了。
1、新關注人數(模糊)欄位數即第二天增粉數,非精準數據,僅供參考。如果你的微信號每天只發一條內容,此數據會更精準一些。
2、如果你的歷史推送圖文無固定條數,需要你去粗略的計算一下轉發與增粉的比值,然後按單條文章的轉發數將增粉數歸因到單條圖文里。這是一個繁重的工程,需要你逐條去清晰數據,並將難以把控的異常值排除在外。
3、如果你不想按第二條來做,避免清洗數據的麻煩,也可以按上篇制定一個短期的內容試錯策略,就可以每天去發送單條圖文消息,把這個試錯變數固化了。
然後,通過透視分析,我的微信號內容運營策略就出來了,如下圖:
你看「確定內容類型」一欄,會發現,薪資、職場、勵志、技能類等內容超出了平均增粉數。問題迎刃而解:我集中選擇這四類內容來做。然後我又研究了一下閱讀數高的標題,爭取每篇文章都把閱讀量做大,大概10個工作日,我就成功將日凈增粉絲數『由負轉正』了。」
很多做微信內容運營的我,看到別人做的內容閱讀數不錯拿來就發,其實這樣並不是最高效的,別人的粉絲不一定和你的粉絲有同樣的內容需求。 同樣一篇文章,在別人的微信號上能達到100000+,在你的微信號上不一定能做到這個效果。
當我把日凈增粉扶正之後,接下來做了什麼呢?扶正之後,這個號就是健康運行狀態了。我不甘心只做一個運行經理,我就把下一個目標定位在了增粉速度上。增粉運營策略就是下一個問題了,此處不表!
最後,第五個案例,我們說一下根上的問題,數據在現實工作中的價值是什麼?運營為什麼要做數據分析?我總結如下:
1、發現問題:問題就是驅動元素,要不斷去監控產品表現,分析數據,找出影響業務目標的問題,並排除它。
2、降低成本:約翰.沃納梅克說:我的廣告費有一半浪費掉了,可我不知道是哪一半。分析可以有效降低成本。
3、決策依據:在企業,一般大BOSS需要靠數據來做投資決策、營銷決策和戰略決策。
一句話:分析能監控效果、發現問題、獲得見解、控製成本、完成業務價值最大化的目標。那麼,我說的是對是錯呢。我說的沒錯,但這在多數情況下解決不了現實問題。我們需要接地氣。正像我開篇聊到的,在現實工作中,經過我多年的經歷,數據最大的作用是「溝通證供」。就好比你犯事了,不承認,然後律師去搜集證據一樣。
這就是數據的第四個作用:
4、溝通證供:分析可以提供呈堂證供,有效決策運營方案。運營要去監控優化各個部門的業務表現,然後提供有效的證據來說服相關業務部門。然後達到我們優化產品和服務的目的。
有時候,很多產品,肉眼或自己去體驗一下,就知道有問題,但是相關業務部門就是不改,要數據說話。然後我們就會想方設法去找證據。
比如,我去優化招聘網站各大流程轉化率的時候,自己體驗了無數次,感覺實在是繁瑣,但產品不改,需要證據。還有第二個優化的案例,我沒有講注冊流程的轉化,事實上那個流程的折損也很高。太復雜。
然後,這時候,你為了尋找證據,就需要找數據,可以藉助漏斗圖。比如下面這張簡歷投遞漏斗圖。
看到沒有,4步投遞流程,漏水的地方太多了。各流程節點折損比例「高不可攀」。於是我趕緊將分析指導意義附在圖下,鑒於業務秘密,就不放出來了。其實一看就明白,只不過是措辭問題,寫的婉轉點而已。像「很、太」等描述性字眼就慎用,要不產品會生氣。
給了產品後,產品依然糾結數據的准確性,然後我又想了一個方法,體驗數據方法派上用場了,我想看一看競爭對手的各大流程是什麼樣的?我決定從用戶任務負荷和完成任務用時上來佐證比較。我印象最深的是,那是2014年的夏天,熱的人心理特別煩躁,我光著膀子,一個人在那裡哼哧哼哧的體驗競品的三大流程,並記錄數據,最終結果如下:
三大流程,用戶完成任務用時和動作次數明顯高於競爭對手,這可不是一個好現象,也側面印證了上文說的流失率高的原因:招聘平台本就很多,用戶為了投遞一份簡歷而費時費力,轉移平台的意願就會很高。
最終,我藉助漏斗圖工具和體驗數據,完成了一份優化證供。提交產品審閱了。
還是那句話,數據不一定精確,但是 一次能讓人有所收獲的犯錯,遠好於什麼都沒干 ,與大家共勉。
Ⅳ 產品運營里優秀數據報表是怎麼做出來的
1)確定數據的准確性
這里包含了選擇數據維度的合理性、數據統計的准確性。如果數據維度選擇不合理、數據統計結果不精確,我們可能是無法得出正確的分析結果的。這是基礎。
2)明確影響數據的因素
一個數據,會收到多種因素的影響,這些因素有內部的,有外部的,運營人員應當盡可能多的了解所有層面的影響因素,以利於我們對於數據的解讀是在一個相對正確的范圍內。
3)重視長期的數據監測
在運營數據分析中,經常會使用環比和同比方式來對比數據。簡單的說,環比是本日與前一日的對比、本月與上月的對比、本季度與上季度的對比;同比是今年當日與去年當日的對比、今年當月與去年當月的對比、今年當季度與去年當季度的對比。環比幫我們看短期的數據波動,而同比幫我們了解大環境下的數據波動。
4)保持客觀的視角
數據分析的過程中,客觀非常重要,不以物喜不以己悲,做了錯誤的操作,帶來了不利的影響要承認,獲得了超出意料的成果要心平氣和,切忌挑選有利於自身的結論。這是職業道德的問題,也是職業發展中非常常見的問題。
5)注意剔除干擾項
實際的工作中,我們會碰到很多問題,這些問題是干擾項,例如,在一個相對平穩的曲線中,突然出現了一個點上的強烈波動,這時候我們需要全面的了解個波動產生的原因,如果無法確認原因,就剔除這個波動,否則我們很難去獲得一個正確的結論。
關於數據的內容,我個人其實說不出更多有價值的東西,抱著負責任的態度,寫到這里,希望對此感興趣的同學通過專業渠道去認真學習,並在實操中提高水準。
Ⅳ 如何真正學好數據分析
除了數據分析的道,再來講講數據分析的術,即工具和手段,如果你進入了一個企業,希望盡快成長為一個數據分析師,還需要在以下4個方面加強學習,當然僅供參考,不用盡信,西線學院相信每個人都需要形成自己的學習軌跡,不需要照搬它人。
數據學習
業務學習有一個毛病,比如你看案例,往往接觸到的數據或使用的數據是局部的,因此,你的視野會受局限,在大多數公司里,很多數據分析師其實缺乏全局的數據視野,因為他不知道到底有多少數據,因此,永遠只能在已知的數據里轉圈圈,當然,可能也夠了,但我這里要說得是做得最好。
數據分析師應該主動的向IT部門拿到最全的數據字典,對於數據字典進行持續的學習,了解每張表甚至欄位的業務含義,理解的越透徹,你的分析潛力就越大。更有甚者,筆者還建議你去理解源系統,從業務實現流程角度出發去理解對應數據的含義,因為有時候,簡單的業務描述在數據上的表達卻是非常復雜的,業務語言與數據語言很多時候是1對多關系,打個比方,你看到業務系統上某個菜單的功能,對應到系統中的數據是怎樣的,你能還原出來嗎?
當然,大多數數據分析師可能不需要進行系統數據學習,反正實踐中慢慢熟悉好了,但自頂向下的數據學習方式可以讓你有一個更好的基礎和更全局的數據視野。
技術學習
有幾個層面的東西要學,依賴於實際的場景和你希望達到的階段:
首先,你要學會從資料庫或者其它源頭獲取數據,很多數據分析師仍然依賴於IT人員獲取數據,但大數據時代,真的有必要自己動手了,因為依賴他人效率太低了,起碼你要會SQL,SQL甚至基本上是為統計取數而生的方便工具,圖形化的透視方式也遠遠沒有SQL的表達能力強,這是基本功,其實, SQL就能解決大多數統計取數問題。
其次,你要會一些數據分析工具,EXCEL是最基本的,其實大多數數據分析基於EXCEL應付已經綽綽有餘了,EXCEL的圖形表達能力也已經夠強。
最後,如果你希望更深一層,那就學習R語言、PYTHON、SPSS,SAS等,他們提供了更強大的挖掘能力,可以幫你把統計學的數據挖掘精髓發揮的淋漓盡致。
當然,如果有可能,你也要熟悉一下你所在企業的數據倉庫或大數據平台,懂得一些基本的操作,對於你提升分析的自由度和靈活性也大有好處,比如自己搞個腳本定時跑數據,打造個人的數據集市,現在數據分析的概念也越來越大,很多公司把對於大數據平台的數據處理能力也納入到數據分析師的技能范疇。
以上層層遞推,其實數據分析師每在IT上前進一步,帶來的效益是幾何級的,比如你懂Hadoop,那麼,你就可能離大數據更近一點。
統計理論
終於講到大家都很關心的統計學知識了,推薦一些書吧:
《深入淺出數據分析》:講了數據分析到底是干什麼的?數據分析都包含什麼內容?對新人們還是有一定的作用,難度容易。
《深入淺出統計學》:要了解常用數理統計模型(描述統計指標、聚類、決策樹、貝葉斯分類、回歸等),重點放在學習模型的工作原理、輸入內容和輸出內容,至於具體的數學推導,學不會可暫放一邊,難度容易。
《極簡統計學》:對統計推斷部分的闡述十分清晰,適合非統計背景的人工閱讀
《統計學:從數據到結論》:簡明精要,統計概念和R可以一起學習
《數據挖掘導論》:最近幾年數據挖掘教材中比較好的一本書,被美國諸多大學的數據挖掘課作為教材,筆者也最近買的,很好,很多概念解釋的比較清楚,難度中上。
這些都是很實用的書籍,但結合了實踐學更好,對於特定的業務場景,就找對應的書看吧,網上推薦的也很多了,大家自己搜索。
表達能力
作為數據分析人員,PPT製作能力是極其重要的一項能力,你總要通過某種形式表達出你的觀點,很核心的一點是需要有嚴密的邏輯,甚至滴水不漏,可以通過思維導圖來訓練自己,但實際的格式表達卻有點八股,一般都是現狀分析,原因剖析、分析結論和後續措施啥的,萬變不離其宗,當然你需要花一點時間來了解如何做重點突出,如何圖文並茂,PPT的寫作決非一日之功。
Ⅵ 如何快速而正確的分析問題
《麥肯錫極簡工作法》P1—P20
據相關統計數據,目前全球年營業額超過100億美元的公司中,有高達200多位的現任CEO曾就職於麥肯錫公司,為什麼麥肯錫的「畢業生」能夠在這么多的領域,取得非凡的成績呢個?原因在於麥肯錫公司獨創的極簡工作法,不管走到哪裡,她們都能以卓越的工作能力從職場精英中脫穎而出。
首先,我們先來說說快速而正確的分析問題的方法。
分析是針對分析現象的狀態與現象,進行追根究底式的歸類。如果不能分析出產生問題的正確原因,就不能從根本上解決問題。
第一步,「從零開始」進行思考,就是利用「回到原點」的思路分析問題。
如:想想做這項工作的目的是什麼,什麼才是真正的問題,這項工作還有沒有存在的必要?這樣可以刪減掉很多不必要做的工作。
第二步,以事實為基礎。找出導致問題出現的主觀因素,也就是問題的症結,只有「看清事實」,才能「得出結論」。
如:為什麼減肥總是失敗?是因為自己管不住嘴還是邁不開腿?
第三步,利用邏輯樹分析法,將問題分層羅列。這種方法類似於思維導圖,把問題運用圖表的方式一個個羅列出來,並把產生問題的原因不斷進行拆細、分析。等到把子問題分解到足夠細時,答案也就變得非常清晰和明了了。
如:為什麼我的工作總是完不成?分解為:1.工作任務量大。2. 能力不夠,不會做。3. 太拖延……再在這三個原因上進行細分,知道找出問題的答案。
這些分析問題的方法不僅廣泛用於工作,也適用於生活和學習上,找出問題的「本質」,是解決困難的前提!
Ⅶ 為什麼說分布是統計數據表的極簡表示
因為:平均數是一組數據的重心所在,是數據誤差相互抵消後的結果。比如對同一事物進行多次測量,所得結果可能不一致,這是測量誤差所致,也可能是其他因素的偶然影響。利用平均數作為其代表值,則可以使誤差相互抵消,反映出事物必然性的數量特徵。
對數據做好質量分析後,接下來就可以通過繪制圖表、計算某些特徵量等方法對數據進行特徵分析。數據特徵分析主要包括這些內容:分布分析、對比分析、統計量分析、周期性分析、貢獻度分析、相關性分析等。
分布分析,揭示數據的分布特徵和分布類型。對於定量數據,可以做出頻率分布表、繪制頻率分布直方圖或者莖葉圖;對於定性分類數據,可以使用餅圖或者條形圖直觀地顯示分布情況。
統計分布的意義
在統計分組的基礎上,把總體的所有單位數按組歸並排列,形成各組單位數在總體中的分布,稱統計分布。統計分布的實質是,把總體的全部單位按某標志所分的組進行分配所形成的數列,也可稱為分配數列或分布數列。
在每次把某個單位分配到某一組時,人們常常說分配了一次,所以,分配數列又叫次數分布。分配數列有兩個構成要素:一是總體按某標志所分的組;二是各組對應的單位數——次數。
以上內容參考:網路-統計分布
Ⅷ 《你一定愛讀的極簡統計學》——統計學離我們並不遠
做指標管理、數據分析已經2年了,工作已經慢慢有了套路,但對於數據的應用基本上還處於各單位分析,而我來匯總的初級階段。對於數據的有效性核查基本也只能靠直覺,靠熟悉程度,經驗的經歷是一定的,但成長的速度可真的是看不見的慢。為了讓自己有提升專業能力,提高對數據的分析應用,本年的自我提升特別加入了專業的學習,而且特別制定了第一階段90天數據分析能力提升入門計劃,簡單來說就要增加輸入,同時以輸出倒逼輸入。
90 天數據分析能力提升計劃
輸入:
專業的書籍——統計、數據分析
系統的培訓——數說1-3季
工具的學習——透視表、儀表盤
公眾號、微博
輸出:
10篇讀書筆記
1個改進項目
1項專項分析報告
指標儀表盤初稿
學習數據分析,統計學可謂是必學的知識之一。相對於其他的統計學書籍,各種正態分布、卡方分布、T分布的晦澀概念,《極簡統計學》的內容沒有那麼的學術化,案例也貼合工作、生活,整個篇幅也就200頁,並且每章後都有練習題,非常適合統計學初學者自學。下面記錄一下自己讀書的一些關鍵點及啟示。
一、幾個重要的統計概念
1. 統計、概率的區別
統計是對過去事件的概述
概率是對於未來將發生事件的描述
2. 樣本——母體
樣本就是我們平時可以獲取的數據。
母體就是藏在少數樣本後的龐大的全部數據。
3. 平均值——就是直方圖的平衡支點,主要作用是抵消偶然的數據分散、得出與實際值接近的值
直方圖就是數據的分組頻次,很直觀,但不便於口頭的交流,而且需要很大的空間,因此引入平均值。
樣本均值——總體均值:觀測的數據越多,樣本均值接近總體均值的可能性越大。
4. 方差、標准差——主要作用是表明數據的分散和波動,搞清楚數據的分散程度。
引子: 看看下面2組數據
100 200 平均值150
140 160 平均值150
這兩組數據僅用平均值衡量,明顯不合理。
再來一個書中的例子
所有引入方差、標准差來表明數據的分散和波動,通過標准差就能衡量是否是特殊的數據。以沖浪為例,平均值就是平靜的海水平面,而標准差就是浪涌的激烈程度。
樣本方差就是各樣本偏差平方再取平均值。
二、重要應用:
1. 如何比較股票的優劣呢?——夏普比率
2. 利用正態分布進行預測——所謂95%的置信區間
一般正態分布:平均值為μ,標准差為σ。(標准正態分布平均值為0,標准值為1。)
(1)數據x是平均值為μ,標准差為σ的正態分布時,95%的預測命中區間的不等式為
(2)已知母體為正態分布,標准差σ已知,平均值μ未知,由觀察的數據來對μ進行 母體的 區間估計。 (實際情況較難實現標准差σ已知,可能出現的是機器生產已經給定標准差)
3. 利用T分布估算總體均值
T分布稱為「自由度n-1的t分布」。這個分布非常近似於正態分布,主要通過計算樣本均值和樣本方差,來估算總體的均值。t分布是推論統計中最自然、最實用、最常用的方法。
4. 利用卡方分布估算總體方差