A. 淺析預測分析註定失敗的思考方式
淺析預測分析註定失敗的思考方式
雖說預測分析是一項很得人心的技術,每個人都希望能通過使用預測分析方法和預測分析工具,從而可提前看到未知的結果,來避免失敗,但如果沒有做好准備,信手拈來的使用預測分析方法,那必將失敗。無論對於預測分析是你新手菜鳥,還是已經進行了大量的預測分析項目,都非常容易犯錯。
數據挖掘公司Elder Research的CEO John Elder說:「大量的分析項目中都充斥著各種各樣的錯誤。」這些錯誤大都不是致命的,通過模型即改善,但是也一些項目是相當地失敗,致使業務在軟體在投資的大量的金錢和時間,但卻沒有任何收益。本文列出了預測分析註定失敗的思考方式。
1.開始後沒有假定結果
對於預測分析大家都很興奮,你看到了它的潛在價值。但卻有一個問題:你的心中沒有一個特定的目標。
Elder Research參與的一個大公司中就有這樣的情況。該公司開始使用他們的數據進行預測一些事情,或所有的事情,即一個方管可以出去向他的業務單元銷售。雖然研究機構同意與他合作,並為他量身定製了一個使用模型,但由於這個業務單元中沒有一個人問題他將要銷售什麼,最後該項目就沒有了方向。
教訓:不要先做錘子,再找釘子。在開始之前,一定要有一個特定的目標。
2.在數據不支持的基礎上定義項目
一個債務催收公司希望找出最有效的方法來促使欠債人員還債。挑戰是:該公司已經有一套嚴格的規則了,而且在每一個案例中都遵循這套原則。
數據挖掘是一項對比的藝術。因為該公司有了一套成熟的原則並一直遵循著,所以他們並不知道哪一種結果更有利於回收債務。所以該公司需要一些歷史性的例子。
如果你沒有這些案例,那麼就需要創建一系列的實驗來收集數據了。例如,假設有欠債人有1,000人,500人收到的了恐嚇信,而另外500人得到的是電話催債,這是第一步。然後,預測模型就可以進行預測,預測哪類欠債人會更好的對恐嚇信進行反應,哪類會更好的對電話進行反應。
在些案例中,欠債人類型可能包括歷史模式引發的債務、按天支付過去的債務、收入、郵政編碼的住宅等等。基於預測模型,這一催債機構可能會更好的使用更有經濟效益的策略,而不是對所有人使用同一策略。但你要從實驗開始。無中生有,對於預測分析來說是不可能的。
3.在得到最好數據之前就不前行
人們常常誤解下操作:他們必須使數據完美地組織,沒有任何漏洞、障礙或缺失的價值,在這之後才會進行預測分析。
Elder Research的一個客戶,一個跨國石化公司剛剛開始進行預測分析項目,期望有更大的投資回報率,但這時他們的數據科學家發現現有的運營數據比他們原本想像的還要糟糕。
在此案例中缺失了一個最關鍵的目標價值。在使業務等待收集新數據時,該項目可能會延遲至少一年的時間。大部分公司在這里停滯不前。與其它錯誤相比這一錯誤是項目的最在殺手。
4.評估數據質量時,不清除垃圾數據
一個財富1000的金融服務公司想預測哪個客服中心的員工將會工作的時間最長。乍一看,該公司的歷史數據似乎表明沒有高中文憑、在公司停留至少9個月的員工數據是其它教育背景的員工有2.6倍。咨詢公司建議客戶從優先招聘高中輟學生開始。
但這就出現了兩個問題。首先從求職者的簡歷中手動鍵入的數據已經做了不一致的標記。一條數據檢查所有教育層次的人們,另一個只檢查完成了高水平教育的人。
另一個更加復雜的問題是:因為某些原因,在呆的時間最長的人的簡單中所有的標記中,後者比前者多。通過確保所做的標記是隨機鍵入的一組簡歷,而且每一個人都使用同一種標記法,就可以以免這些問題。
在這一案例中我們得到一個最的信息就是:「只有垃圾在,才會有垃圾清理。在確保數據質量之間一定要確保數據的完整性。」
5.從未來的數據中預測未來
伴隨著數據倉庫的一個問題是它們並不靜止的:信息一直在變,一直在更新。但預測分析是一種歸納的學習過程,它依賴於對歷史數據,或「訓練數據」的分析來創建模型。所以你要重新數據在客戶生命周期初始階段的狀態。如果數據沒有標注日期和時間戳,這很容易就會引進產生錯誤結果導向的未來數據。
有一件發生在汽車俱樂部的事:該俱樂部著手建立一個模型,用於預測他們的哪類會員更有可能購買他們的保險產品。為了建模,該俱樂部需要重建他們之前數據集合,把會員購買和決定購買保險產品的時間優先順序提前,而且還要包含進子數據。該組織建立了一個決策樹,它包括一個含有電話、傳真和郵件數據的文本變數。當這一變數中包含了任何文本,那麼就可以百分之百確定這些會員不久後就購買這一保險。
該項目的一個負責人說我們確信這個指示器將會在會員購買保險之前進行提示,但汽車俱樂部的員工卻不能告訴我們它意味著什麼。提前知道簡直令人難以置信,他繼續提問直到找到組織中知道事實的人:該變數代表著會員是如何取消他們保險的——通過電話、傳真或者郵件。他說你不買就沒有取消一說 。所以當你進行建模時,你必須鎖定一些你的數據。
總結:失敗只是一個選擇
看了這些事例,你可能會把預測分析想像的非常困難,但不要害怕。雖然你在預測分析的路上出現了很多錯誤,但同時你也在學習,在調整,這是值得的。
B. 馬爾科夫預測法在實際工作中可能遇到的問題及其解決方法
一、馬爾科夫轉移矩陣法的涵義
單個生產廠家的產品在同類商品總額中所佔的比率,稱為該廠產品的市場佔有率。在激烈的競爭中,市場佔有率隨產品的質量、消費者的偏好以及企業的促銷作用等因素而發生變化。企業在對產品種類與經營方向做出決策時,需要預測各種商品之間不斷轉移的市場佔有
率。
市場佔有率的預測可採用馬爾科夫轉移矩陣法,也就是運用轉移概率矩陣對市場佔有率進行市場趨勢分析的方法。馬爾科夫是俄國數學家,他在20世紀初發現:一個系統的某些因素在轉移中,第n次結果只受第n-1的結果影響,只與當前所處狀態有關,與其他無關。比如:研究一個商店的累計銷售額,如果現在時刻的累計銷售額已知,則未來某一時刻的累計銷售額與現在時刻以前的任一時刻的累計:銷售額都無關。 ,
在馬爾科夫分析中,引入狀態轉移這個概念。所謂狀態是指客觀事物可能出現或存在的狀態;狀態轉移是指客觀事物由一種狀態轉穆到另一種狀態的概率。
馬爾科夫分析法的一般步驟為:
①調查目前的市場佔有率情況;
②調查消費者購買產品時的變動情況;
③建立數學模型;
④預測未來市場的佔有率。
二、馬爾科夫分析模型
實際分析中,往往需要知道經過一段時間後,市場趨勢分析對象可能處於的狀態,這就要求建立一個能反映變化規律的數學模型。馬爾科夫市場趨勢分析模型是利用概率建立一種隨機型的時序模型,並用於進行市場趨勢分析的方法。
馬爾科夫分析法的基本模型為:
X(k+1)=X(k)×P
公式中:X(k)表示趨勢分析與預測對象在t=k時刻的狀態向量,P表示一步轉移概率矩陣,
X(k+1)表示趨勢分析與預測對象在t=k+1時刻的狀態向量。
必須指出的是,上述模型只適用於具有馬爾科夫性的時間序列,並且各時刻的狀態轉移概率保持穩定。若時間序列的狀態轉移概率隨不同的時刻在變化,不宜用此方法。由於實際的客觀事物很難長期保持同一狀態的轉移概率,故此法一般適用於短期的趨勢分析與預測。
三、馬爾科夫過程的穩定狀態
在較長時間後,馬爾科夫過程逐漸處於穩定狀態,且與初始狀態無關。馬爾科夫鏈達到穩定狀態的概率就是穩定狀態概率,也稱穩定
概率。市場趨勢分析中,要設法求解得到市場趨勢分析對象的穩態概率,並以此做市場趨勢分析。
在馬爾科夫分析法的基本模型中,當X:XP時,稱X是P的穩定概率,即系統達到穩定狀態時的概率向量,也稱X是P的固有向量或特徵向量,而且它具有唯一性。
四,馬爾科夫轉移矩陣法的應用
馬爾科夫分析法,是研究隨機事件變化趨勢的一種方法。市場商品供應的變化也經常受到各種不確定因素的影響而帶有隨機性,若其具有"無後效性",則用馬爾科夫分析法對其未來發展趨勢進行市場趨勢分析五,提高市場佔有率的策略預測市場佔有率是供決策參考的,企業要根據預測結果採取各種措施爭取顧客。提高市場佔有率一般可採取三種策略:
(1)設法保持原有顧客;
(2)盡量爭取其他顧客;
(3)既要保持原有顧客又要爭取新的顧客。
第三種策略是前兩種策略的綜合運用,其效果比單獨使用一種策略要好,但其所需費用較高。如果接近於平穩狀態時,一般不必花費競爭費用。所以既要注意市場平穩狀態的分析,又要注意市場佔有率的長期趨勢的分析。
爭取顧客、提高市場佔有率的策略和措施一般有:
①擴大宣傳。主要採取廣告方式,通過大眾媒體向公眾宣傳商品特徵和顧客所能得到的利益,激起消費者的注意和興趣。
②擴大銷售。除聯系現有顧客外,積極地尋找潛在顧客,開拓市場。如向顧客提供必要的服務等。
③改進包裝。便於顧客攜帶,增加商品種類、規格、花色,便於顧客挑選,激發顧客購買興趣。
④開展促銷活動。如展銷、分期付款等。
⑤調整經營策略。根據市場變化,針對現有情況調整銷售策略,如批量優待、調整價格、市場滲透、提高產品性能、擴大產品用途、降低產品成本等,以保持市場佔有率和擴大市場佔有率。
馬爾科夫分析模型
實際分析中,往往需要知道經過一段時間後,市場趨勢分析對象可能處於的狀態,這就要求建立一個能反映變化規律的數學模型。馬爾科夫市場趨勢分析模型是利用概率建立一種隨機型的時序模型,並用於進行市場趨勢分析的方法。
馬爾科夫分析法的基本模型為:
X(k+1)=X(k)×P
公式中:X(k)表示趨勢分析與預測對象在t=k時刻的狀態向量,P表示一步轉移矩陣概率,
X(k+1)表示趨勢分析與預測對象在t=k+1時刻的狀態向量。
必須指出的是,上述模型只適用於具有馬爾科夫性的時間序列,並且各時刻的狀態轉移概率保持穩定。若時間序列的狀態轉移概率隨不同的時刻在變化,不宜用此方法。由於實際的客觀事物很難長期保持同一狀態的轉移概率,故此法一般適用於短期的趨勢分析與預測。
請參考,希望對你有所幫助!