"大數據"是一個體量特別大,數據類別特別大的數據集,並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 "大數據"首先是指數據體量(volumes)?大,指代大型數據集,一般在10TB?規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。最後一個特點是指數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。
數據採集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取:關系資料庫、NOSQL、SQL等。
基礎架構:雲存儲、分布式文件存儲等。
數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數據挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測:預測模型、機器學習、建模模擬。
結果呈現:雲計算、標簽雲、關系圖等。
要理解大數據這一概念,首先要從"大"入手,"大"是指數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別,其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
第一,數據體量巨大。從TB級別,躍升到PB級別。
第二,數據類型繁多,如前文提到的網路日誌、視頻、圖片、地理位置信息,等等。
第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
第四,處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器,無一不是數據來源或者承載的方式。
大數據技術是指從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。解決大數據問題的核心是大數據技術。目前所說的"大數據"不僅指數據本身的規模,也包括採集數據的工具、平台和數據分析系統。大數據研發目的是發展大數據技術並將其應用到相關領域,通過解決巨量數據處理問題促進其突破性發展。因此,大數據時代帶來的挑戰不僅體現在如何處理巨量
B. 大數據挖掘方法有哪些
方法1.Analytic Visualizations(可視化分析)
無論是日誌數據分析專家還是普通用戶,數據可視化都是數據分析工具的最基本要求。可視化可以直觀地顯示數據,讓數據自己說話,讓聽眾看到結果。
方法2.Data Mining Algorithms(數據挖掘演算法)
如果說可視化用於人們觀看,那麼數據挖掘就是給機器看的。集群、分割、孤立點分析和其他演算法使我們能夠深入挖掘數據並挖掘價值。這些演算法不僅要處理大量數據,還必須盡量縮減處理大數據的速度。
方法3.Predictive Analytic Capabilities(預測分析能力)
數據挖掘使分析師可以更好地理解數據,而預測分析則使分析師可以根據可視化分析和數據挖掘的結果做出一些預測性判斷。
方法4.semantic engine(語義引擎)
由於非結構化數據的多樣性給數據分析帶來了新挑戰,因此需要一系列工具來解析,提取和分析數據。需要將語義引擎設計成從“文檔”中智能地提取信息。
方法5.Data Quality and Master Data Management(數據質量和主數據管理)
數據質量和數據管理是一些管理方面的最佳實踐。通過標准化流程和工具處理數據可確保獲得預定義的高質量分析結果。
關於大數據挖掘方法有哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
C. 大數據挖掘有哪些方法
方法1.可視化分析
無論是日誌數據分析專家還是普通用戶,數據可視化都是數據分析工具的最基本要求。可視化可以直觀地顯示數據,讓數據自己說話,讓聽眾看到結果。
方法2.數據挖掘演算法
如果說可視化用於人們觀看,那麼數據挖掘就是給機器看的。集群、分割、孤立點分析和其他演算法使我們能夠深入挖掘數據並挖掘價值。這些演算法不僅要處理大量數據,還必須盡量縮減處理大數據的速度。
方法3.預測分析能力
數據挖掘使分析師可以更好地理解數據,而預測分析則使分析師可以根據可視化分析和數據挖掘的結果做出一些預測性判斷。
方法4.語義引擎
由於非結構化數據的多樣性給數據分析帶來了新挑戰,因此需要一系列工具來解析,提取和分析數據。需要將語義引擎設計成從“文檔”中智能地提取信息。
方法5.數據質量和主數據管理
數據質量和數據管理是一些管理方面的最佳實踐。通過標准化流程和工具處理數據可確保獲得預定義的高質量分析結果。
D. 常見的數據挖掘方法有哪些
數據挖掘的常用方法有:
神經網路方法
神經網路由於本身良好的魯棒性、自組織自適應性、並行處理、分布存儲和高度容錯等特性非常適合解決數據挖掘的問題,因此近年來越來越受到人們的關注。
遺傳演算法
遺傳演算法是一種基於生物自然選擇與遺傳機理的隨機搜索演算法,是一種仿生全局優化方法。遺傳演算法具有的隱含並行性、易於和其它模型結合等性質使得它在數據挖掘中被加以應用。
決策樹方法
決策樹是一種常用於預測模型的演算法,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。它的主要優點是描述簡單,分類速度快,特別適合大規模的數據處理。
粗集方法
粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外信息;簡化輸入信息的表達空間;演算法簡單,易於操作。粗集處理的對象是類似二維關系表的信息表。
覆蓋正例排斥反例方法
它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與欄位取值構成的選擇子相容則捨去,相反則保留。按此思想循環所有正例種子,將得到正例的規則(選擇子的合取式)。
統計分析方法
在資料庫欄位項之間存在兩種關系:函數關系和相關關系,對它們的分析可採用統計學方法,即利用統計學原理對資料庫中的信息進行分析。可進行常用統計、回歸分析、相關分析、差異分析等。
模糊集方法
即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統的復雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。
E. 大數據挖掘有什麼方法
1.可視化分析
無論是日誌數據分析專家還是普通用戶,數據可視化都是數據分析工具的最基本要求。可視化可以直觀地顯示數據,讓數據自己說話,讓聽眾看到結果。
2.數據挖掘演算法
如果說可視化用於人們觀看,那麼數據挖掘就是給機器看的。集群、分割、孤立點分析和其他演算法使我們能夠深入挖掘數據並挖掘價值。這些演算法不僅要處理大量數據,還必須盡量縮減處理大數據的速度。
3.預測分析能力
數據挖掘使分析師可以更好地理解數據,而預測分析則使分析師可以根據可視化分析和數據挖掘的結果做出一些預測性判斷。
4.語義引擎
由於非結構化數據的多樣性給數據分析帶來了新挑戰,因此需要一系列工具來解析,提取和分析數據。需要將語義引擎設計成從“文檔”中智能地提取信息。
5.數據質量和主數據管理
數據質量和數據管理是一些管理方面的最佳實踐。通過標准化流程和工具處理數據可確保獲得預定義的高質量分析結果。
F. 如何有效地進行數據挖掘和分析
大數據分析處理解決方案
方案闡述
每天,中國網民通過人和人的互動,人和平台的互動,平台與平台的互動,實時生產海量數據。這些數據匯聚在一起,就能夠獲取到網民當下的情緒、行為、關注點和興趣點、歸屬地、移動路徑、社會關系鏈等一系列有價值的信息。
數億網民實時留下的痕跡,可以真實反映當下的世界。微觀層面,我們可以看到個體們在想什麼,在干什麼,及時發現輿情的弱信號。宏觀層面,我們可以看到當下的中國正在發生什麼,將要發生什麼,以及為什麼?藉此可以觀察輿情的整體態勢,洞若觀火。
原本分散、孤立的信息通過分析、挖掘具有了關聯性,激發了智慧感知,感知用戶真實的態度和需求,輔助政府在智慧城市,企業在品牌傳播、產品口碑、營銷分析等方面的工作。
所謂未雨綢繆,防患於未然,最好的輿情應對處置莫過於讓輿情事件不發生。除了及時發現問題,大數據還可以幫我們預測未來。具體到輿情服務,輿情工作人員除了對輿情個案進行數據採集、數據分析之外,還可以通過大數據不斷增強關聯輿情信息的分析和預測,把服務的重點從單純的收集有效數據向對輿情的深入研判拓展,通過對同類型輿情事件歷史數據,及影響輿情演進變化的其他因素進行大數據分析,提煉出相關輿情的規律和特點。
大數據時代的輿情管理不再局限於危機解決,而是梳理出危機可能產生的各種條件和因素,以及從負面信息轉化成輿情事件的關鍵節點和衡量指標,增強我們對同類型輿情事件的認知和理解,幫助我們更加精準的預測未來。
用大數據引領創新管理。無論是政府的公共事務管理還是企業的管理決策都要用數據說話。政府部門在出台社會規范和政策時,採用大數據進行分析,可以避免個人意志帶來的主觀性、片面性和局限性,可以減少因缺少數據支撐而帶來的偏差,降低決策風險。通過大數據挖掘和分析技術,可以有針對性地解決社會治理難題;針對不同社會細分人群,提供精細化的服務和管理。政府和企業應建立資料庫資源的共享和開放利用機制,打破部門間的「信息孤島」,加強互動反饋。通過搭建關聯領域的資料庫、輿情基礎資料庫等,充分整合外部互聯網數據和用戶自身的業務數據,通過數據的融合,進行多維數據的關聯分析,進而完善決策流程,使數據驅動的社會決策與科學治理常態化,這是大數據時代輿情管理在服務上的延伸。
解決關鍵
如何能夠快速的找到所需信息,採集是大數據價值挖掘最重要的一環,其後的集成、分析、管理都構建於採集的基礎,多瑞科輿情數據分析站的採集子系統和分析子系統可以歸類熱點話題列表、發貼數量、評論數量、作者個數、敏感話題列表自動摘要、自動關鍵詞抽取、各類別趨勢圖表;在新聞類報表識別分析歸類: 標題、出處、發布時間、內容、點擊次數、評論人、評論內容、評論數量等;在論壇類報表識別分析歸類: 帖子的標題、發言人、發布時間、內容、回帖內容、回帖數量等。
解決方案
多瑞科輿情數據分析站系統擁有自建獨立的大數據中心,伺服器集中採集對新聞、論壇、微博等多種類型互聯網數據進行7*24小時不間斷實時採集,具備上千億數據量的數據索引、挖掘分析和存儲能力,支撐政府、企業、媒體、金融、公安等多行業用戶的輿情分析雲服務。因此多瑞科輿情數據分析站系統在這方面有著天然優勢,也是解決信息數量和信息(有價值的)獲取效率之間矛盾的唯一途徑,系統利用各種數據挖掘技術將產生人工無法替代的效果,為市場調研工作節省巨大的人力經費開支。
實施收益
多瑞科輿情數據分析站系統可通過對大數據實時監測、跟蹤研究對象在互聯網上產生的海量行為數據,進行挖掘分析,揭示出規律性的東西,提出研究結論和對策。
G. 數據挖掘的方法有哪些
神經網路方法
神經網路由於本身良好的魯棒性、自組織自適應性、並行處理、分布存儲和高度容錯等特性非常適合解決數據挖掘的問題,因此近年來越來越受到人們的關注。
遺傳演算法
遺傳演算法是一種基於生物自然選擇與遺傳機理的隨機搜索演算法,是一種仿生全局優化方法。遺傳演算法具有的隱含並行性、易於和其它模型結合等性質使得它在數據挖掘中被加以應用。
決策樹方法
決策樹是一種常用於預測模型的演算法,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。它的主要優點是描述簡單,分類速度快,特別適合大規模的數據處理。
粗集方法
粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外信息;簡化輸入信息的表達空間;演算法簡單,易於操作。粗集處理的對象是類似二維關系表的信息表。
覆蓋正例排斥反例方法
它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與欄位取值構成的選擇子相容則捨去,相反則保留。按此思想循環所有正例種子,將得到正例的規則(選擇子的合取式)。
統計分析方法
在資料庫欄位項之間存在兩種關系:函數關系和相關關系,對它們的分析可採用統計學方法,即利用統計學原理對資料庫中的信息進行分析。可進行常用統計、回歸分析、相關分析、差異分析等。
模糊集方法
即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統的復雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。
關於數據挖掘的方法有哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
H. 國內的數據挖掘,大數據應用的案例有哪些
1. 亞馬遜的「信息公司」:果全球哪家公司從大數據發掘出了最大價值,截至目前,答案可能非亞馬遜莫屬。亞馬遜也要處理海量數據,這些交易數據的直接價值更大。
作為一家「信息公司」,亞馬遜不僅從每個用戶的購買行為中獲得信息,還將每個用戶在其網站上的所有行為都記錄下來
2. 谷歌的意圖:果說有一家科技公司准確定義了「大數據」概念的話,那一定是谷歌。根據搜索研究公司comScore的數據,僅2012年3月一個月的時間,谷歌處理的搜索詞條數量就高達122億條。谷歌的體量和規模,使它擁有比其他大多數企業更多的應用大數據的途徑。
3.塔吉特的「數據關聯挖掘」:用先進的統計方法,商家可以通過用戶的購買歷史記錄分析來建立模型,預測未來的購買行為,進而設計促銷活動和個性服務避免用戶流失到其他競爭對手那邊。
I. 大數據攻略案例分析及結論
大數據攻略案例分析及結論
我們將迎來一個「大數據時代」。與變化相始終的中國企業,距離這場革命還有多遠?而追上領先者又需要多快的步伐?
{研究結論}
怎樣才能用起來大數據?障礙如何解決?中國企業家研究院對10多家在大數據應用方面的領先企業進行了采訪調研,更多家企業進行了書面資料調研,我們發現:
■ 當前中國企業的大數據應用可以歸類為:大數據運營、大數據產品、大數據平台三大=領域,前兩者更多是企業內部的應用,後者則在於用大數據來繁榮整個平台企業群落的生態。
■ 大數據營銷的本質是一個影響消費者購物前心理路徑的問題,而這在大數據時代前很難做到。
■ 對於傳統企業而言,要打通線上與線下營銷,實現新的商業模式,如O2O等,離不開大數據。
■ 雖然大數據應用往往集中於大數據營銷,但對於一些企業,大數據的應用早已超越了營銷范疇,全面進入了企業供應鏈、生產、物流、庫存、網站和店內運營等各個環節。
■ 對於大部分企業,由於數據分析人員與業務人員之間的彼此視角與思考方向不同,大數據分析和運營之間存在脫節情況,這是大數據無法用於企業運營最大的阻力
■ 對於大多數互聯網公司來說,大數據量、大用戶量是一個相互促進,強者越強的循環過程。
■ 對於大型互聯網平台,大數據已經成為其生態循環中的血液,對於這些企業,最重要
的不是如何利用大數據改進自身運營,而是利用大數據更好地繁榮平台生態。
■ 對於平台企業,它們的大數據策略正逐漸從大數據運營,向運營大數據轉變,前者和
後者的差別在於,前者只是運營改進的動力,而後者則成為企業實現未來戰略的核心資源。
我們都已被反復告知:我們將迎來一個「大數據時代」。
大數據應用,將和雲計算、3D列印這些技術變革一樣,顛覆既有規則,並成為先行企業的制勝關鍵。
與變化相始終的中國企業,距離這場革命還有多遠?而追上領先者又需要多快的步伐?
來自於互聯網、移動互聯網、物聯網感測器、視頻採集系統的數據正海量增長,匯成大數據的海洋,相伴的是海量數據存儲、分析技術的突破性發展,所有這一切都給企業的應用帶來了無限可能性。
許多企業希望將大數據用起來,帶動企業的經營,但不知從哪裡著手。它們不惜重金投資大數據信息系統、分析系統,聘請更多的人才,希望能從這個新趨勢中獲益,不過卻無奈地發現,大數據仍然停留在雲端,沒有帶來多少實際收益。它們找不到大數據與業務結合的突破口。而一些真正將大數據應用於實戰的企業,卻在應用過程中困難重重:大數據無法與業務結合;沒有收集、分析海量數據的能力;經營人員缺少應用大數據的動力;數據來源魚龍混雜難以使用……
中國企業家研究院對當前中國企業大數據應用的狀況進行了歸納分類,以幫助企業了解實際應用大數據時的困局難點,並提供領先企業的典型案例以資借鑒。
表1
表2
大數據運營—企業提升效率的助推力
對於大多數企業而言,運營領域的應用是大數據最核心的應用,之前企業主要使用來自生產經營中的各種報表數據,但隨著大數據時代的到來,來自於互聯網、物聯網、各種感測器的海量數據撲面而至。於是,一些企業開始挖掘和利用這些數據,來推動運營效率的提升。大數據運營應用中,大數據的應用分為三類:用於企業外部營銷、用於內部運營,以及用於領導層決策。
一、大數據營銷
大數據營銷的本質是影響目標消費者購物前的心理路徑,它主要應用在三個方面:1、大數據渠道優化,2、精準營銷信息推送,3、線上與線下營銷的連接。在消費者購物前,通過各種方式,直接介入其信息收集和決策過程。而這種介入,是建立在對於線上與線下海量用戶數據分析的基礎之上。相比傳統狂轟濫炸或等客上門的營銷,大數據營銷無論在主動性和精準性方面,都有非常大的優勢。它是目前主要的大數據應用領域。
大數據營銷不僅僅是用大數據找出目標顧客,向其發布促銷信息,它還可以做到:
實現渠道優化。根據用戶的互聯網痕跡進行渠道營銷效果優化,就是根據互聯網上顧客的行為軌跡來找出哪個營銷渠道的顧客來源最多,哪個來源顧客實際購買量最多,是否是目標顧客等等,從而調整營銷資源在各個渠道的投放。例如東風日產,它利用對顧客來源的追蹤,來改進營銷資源在各個網路渠道如門戶網站、搜索和微博的投放。
精準營銷信息推送。精準建立在對海量消費者的行為分析基礎之上,消費者網路瀏覽、搜索行為被網路留下,線下的購買和查看等行為可以被門店的POS機和視頻監控記錄,再加上他們在購買和注冊過程中留下的身份信息,在商家面前,正逐漸呈現出消費者信息的海洋。
一些企業通過收集海量的消費者信息,然後利用大數據建模技術,按消費者屬性(如所在地區、性別)和興趣、購買行為等維度,挖掘目標消費者,然後進行分類,再根據這些,對個體消費者進行營銷信息推送。比如孕婦裝品牌十月媽咪通過對自己微博上粉絲評論的大數據分析,找出評論有「喜愛」相關關鍵詞的粉絲,然後打上標簽,對其進行營銷信息推送。京東商城副總經理李曦表示:「用大數據找出不同細分的顧客需求群,然後進行相應的營銷,是京東目前在做的事情。」小也化妝品將自身網站作為收集消費者信息的雷達,對不同消費者推薦相應的肌膚解決方案,創始人肖尚略希望在未來,大數據營銷能替代網站的作用,真正成為面向顧客的前端。
打通線上線下營銷。一些企業將互聯網上海量消費者的行為痕跡數據與線下購買數據打通,實現了線上與線下營銷的協同。比如東風日產,線上與線下的協同營銷方式為:其門戶網站帶來訂單線索,而通過這些線索,服務人員進行電話回訪,從而推動顧客在線下交易。在此過程中,東風日產記錄了消費者進入、瀏覽、點擊、注冊、電話回訪和購買各個環節的數據,實現了一個橫跨線上線下,以大數據分析為支持的,營銷效果不斷優化的閉環營銷通路。而國雙科技,衡量某一地區線下促銷活動的效果,就是看互聯網上,來自這個地區對於促銷內容的搜索量。一些企業,通過鼓勵線下顧客使用微信和Wi-Fi等可追蹤消費者行為和喜好的設備,來打通線上與線下數據流,銀泰百貨計劃鋪設Wi-Fi,鼓勵顧客在商場內使用,然後根據Wi-Fi賬號,找出這個顧客,再通過與其它大數據挖掘公司合作,以大數據的手段,發掘這個顧客在互聯網的歷史痕跡,來了解這個顧客的需求類型。
二、大數據用於內部運營
相比大數據營銷,大數據在內部運營中的應用更深入,對於企業內部的信息化水平,以及數據採集和分析能力的要求更高。本質上,是將企業外部海量消費者數據與企業內部海量運營數據聯系起來,在分析中得到新的洞察,提升運營效率。(詳見P96表5:大數據在內部運營中的應用)
表5
三、大數據用於決策
在大數據時代,企業面對眾多新的數據源和海量數據,能否基於對這些數據的洞察,進行決策,進而將其變成一項企業競爭優勢的來源?同大數據營銷和大數據內部運營相比,運用大數據決策難度最高,因為它需要一種依賴數據的思維習慣。
已有少數企業開始嘗試。比如國內一些金融機構在推出一個金融產品時,會廣泛分析該金融產品的應用情況和效果、目標顧客群數據、各種交易數據和定價數據等,然後決定是否推出某個金融產品。
但是,中國企業家研究院在調研中發現,目前中國企業當中,大數據決策的應用非常之少,許多企業領導者進行決策時,仍習慣於憑借歷史經驗和直覺。
大數據產品——企業利潤滋長的新源泉
大數據除了用於運營外,還能夠與企業產品結合,成為企業產品背後競爭力的核心支持或者直接成為產品。提供大數據產品的企業分為兩類,直接提供大數據產品的企業,以及將大數據作為產品和服務核心支撐的企業。前者主要為大數據產業鏈中提供數據服務的參與者,包括數據擁有者、存儲企業,挖掘企業、分析企業等,後者則主要是那些以大數據為產品核心支撐的企業,它們大多是互聯網企業,其產品和服務先天就有大數據基因,這些企業包括搜索引擎、在線殺毒、互聯網廣告交易平台以及眾多植根於移動互聯網之上,為用戶提供生活和資訊服務的APP等。
表3
表4
一、大數據作為產品核心支持
它們主要在以下幾方面使用大數據:
1、提供信息服務。很多互聯網企業通過對海量互聯網信息和線下信息的整合和分析,為個人和企業提供信息服務,典型的如網路、去哪兒、一淘、高德地圖、春雨醫生等等。在美國,一些互聯網企業甚至根據大數據提供更深度的預測信息服務,美國科技創新公司farecast,通過分析特定航線機票的價格,幫助消費者預測機票價格走勢。
2、分析用戶的個性化需求,藉此提供個性化產品和服務,或者實現更精準的廣告。典型的有移動社交工具陌陌、網路、騰訊、廣告交易平台品友互動以及一些互聯網游戲商。這種應用往往先是收集海量用戶的互聯網行為數據,將用戶分類,根據不同類型的用戶,提供個性化的產品,或者提供個性化的促銷信息。比如網易等門戶網站推出了訂閱模式,讓使用者按照個人喜好方便地定製和整合不同來源的信息。
3、增強產品功能。對於很多互聯網產品,如殺毒軟體、搜索引擎等等,海量數據的處理能夠讓產品變得更聰明更強大,如果沒有大數據,產品的功能就大大減弱。比如奇虎360公司的360殺毒軟體,憑借每天海量的殺毒處理,建立了龐大的病毒庫,這使它能夠更快地發現病毒,而一些小的殺毒軟體公司則無法做到這一點。
4、掌控信用狀況,提供信貸服務。阿里巴巴上匯集了海量中小企業的日常資金與貨品往來,通過對這些往來數據的匯總與分析,阿里巴巴能發現單個企業的資金流與收入情況,分析其信用,找出異常情況與可能發生的欺詐行為,控制信貸風險。
5、實現智能匹配。婚戀網站、交易平台等,利用大數據可以進行精準而高效的配對服務。網易花田會挖掘用戶行為數據,比如點擊哪些異性的頁面,發表什麼樣的評論,建立用戶興趣模型,從而挖掘到用戶所期待另一半的類型,然後主動推薦與對方匹配度比較高的人選。2010年,阿里巴巴嘗試性地推出「輕騎兵」服務,由阿里巴巴將中國各產業集群地的供應商與海外買家的個性采購需求進行快速匹配,所憑借的,就是對供應商的海量交易數據信息的整合與挖掘。
大數據作為產品核心支撐的關鍵在於用戶量。對於大多數互聯網公司來說,用戶量越多,收集的數據越多,憑借更多的數據,其產品與商業模式會不斷改進,進而帶來更多的用戶。
二、大數據直接作為產品
對一些企業,大數據直接成為了產品,這些產品包括海量數據、分析、存儲與挖掘的服務等,目前大數據產業鏈正在形成過程中,出現了一批開放、出售、授權大數據和提供大數據分析、挖掘的公司和機構,前者主要是一些擁有海量數據的公司,將數據服務作為新的盈利來源。如大型的互聯網平台、民航、電信運營商、一些擁有大數據的政府機構等等,後者主要包括一些能夠存儲海量數據或者將海量數據與業務場景結合,進行分析和挖掘,或者提供相關產品的公司,如IBM、SAP、拓而思、天睿公司。它們為大數據應用者們提供海量數據存儲、數據挖掘、圖像視頻、智能分析等服務以及相關系統產品。
大數據平台——企業群落繁榮的滋養劑
相對企業本身對大數據的應用,大數據平台更多是利用大數據來搭建企業生態。一些擁有龐大數據資源的大型互聯網平台,已變為包含海量寄生者的生態系統。在這個生態系統中,它們將海量用戶互聯網行為痕跡和分析提供給平台上的企業,用於它們改善經營,推動整個平台生態繁榮,在這一過程中,它們也收取數據服務費。阿里巴巴就是一個典型的例子,從數據魔方、黃金策到聚石塔,阿里巴巴不斷地為平台上中小電商提供數據產品和服務。
而網路已建成了包括網路指數、司南、風雲榜、數據研究中心和網路統計在內的五大數據體系平台,幫助其營銷平台上的企業了解消費者行為、興趣變化,以及行業發展狀況、市場動態和趨勢、競爭對手動向等信息。
而當大數據從企業內部運營的動力,變成平台企業的產品和服務時,平台企業也在經歷著一個從大數據運營到運營大數據的階段。數據從運營的支持工具,變成了生產資料。此前平台們的關注點,更多的是如何用好現有的大數據。而未來,它們的關注點則更多是如何將大數據這個生產資料管理好、經營好,如何更好地為平台上的企業服務。這就涉及到收集的數據質量怎樣?格式標準是否統一?數據作為一種原材料,其精細化程度如何?是否符合平台上企業應用的具體場景?是平台上企業拿來就能用的,還是還需要平台上的企業再加工?
為解決這些問題,各個平台在積極地努力。比如阿里巴巴建立了數據委員會,在統一數據格式標准、從源頭上保證數據的質量,採集和加工出精細化的數據,確保其能符合平台企業的應用場景等方面,不遺餘力地嘗試。尤其在大數據精細化方面,阿里巴巴更是作為其大數據戰略的重點。這方面,騰訊目前也在加快步伐。比如新版騰訊網出現了「一鍵登錄」的提示,用戶可以在上面通過一些細分標簽,訂閱自己關注的內容。實際上,這也是騰訊收集更精細化的用戶興趣數據的一個有效手段。
Tips
大數據實戰手冊
將大數據應用於內部運營中時,企業會遇到一些常見問題
1企業如何獲取與分析數據?
互聯網是大數據的一個主要來源,一些線下的傳統企業很難獲得。但它們可以:
a 和擁有或能抓取海量數據的平台、企業以及政府機構合作。比如淘寶上的電商就購買淘寶收集的海量數據中與自身運營相關的部分,用於自身業務。再如卡夫通過與IBM合作,在博客、論壇和討論版的內容中抓取了47.9萬條關於自己產品的討論信息,通過大數據分析出消費者對卡夫食品的喜愛程度和消費方式。
b 建立自己在互聯網上的平台,比如朝陽大悅城利用自己的微信、微博等平台收集消費者評論數據。
c 許多傳統企業沒有分析海量數據的能力,此時它們可以和大數據分析和挖掘公司合作,目前市場上已經有天睿公司、IBM、百分點、華勝天成等一批提供大數據分析和挖掘服務的公司,它們是傳統企業進行大數據分析可以藉助的力量。
2 如何避免大數據應用時的部門分割?
對於許多企業,其信息流被各部門彼此分割,數據難以互通,對於這種情況下,大數據的共享和匯集就只是一個泡影,更難以實現大數據的深度應用。
要打通部門之間信息分割的局面,首先要建立統一的、集中的數據系統。就像立白信息與知識總監王永紅所說的,「要真正用好大數據,企業要採用大集中的信息系統。」從更深入的角度來談,企業信息流的部門分割,更在於企業部門之間的分割,比如有一些企業的營銷按照渠道分割,導致對於顧客的大數據收集和分析效果大打折扣。
IBM智慧商務技術總監楊旭青認為,「很多時候由於組織結構問題,大數據分析有效性大大降低了。」這就需要組織與流程層面的重新設計,在這方面,阿里巴巴的部門負責人輪崗制度,對於打破部門壁壘無疑是一劑好葯。而一些企業為了打破部門分割,建立了矩陣型的組織結構,強化部門間的橫向合作,這些無疑為大數據的匯集、共享與應用創造了良好條件。
3 如何讓業務人員重視大數據的應用?
解決這個問題,一方面在於一把手對整個企業數據文化的倡導,比如1號店董事長於剛就要求業務人員無論在開會,還是匯報工作時,都以數據說話,而馬雲更是將大數據提升到了戰略高度。
另一方面,也在於數據部門的帶動,阿里巴巴數據委員會負責人車品覺分享了經驗,「因為運營部門的業務人員很難看到大數據的潛力,可以首先從一些對業務見效快,見效顯著的數據項目出發,通過一兩個項目的成功,調動對方的積極性,然後再逐步一個個地引導。」
4 為何大數據工作與運營需求脫節?
這往往是由於數據人員與業務人員視角、專業知識不同而導致的。大數據人員做了很多努力,但是業務人員卻認為這些努力無關痛癢。如何解決這個問題?
有的企業從組織設計上發力,將大數據納入業務分析部門的管理之下,用業務統馭數據。對於朝陽大悅城,由主要負責戰略和經營分析的部門來管理大數據工作,其中的大數據分析人員則作為支持人員。在負責人張岩看來,大數據要靠商業法則指導,關鍵是找到業務需求的點,然後由數據分析和挖掘人員實現。在具體操作中,大悅城對微信的數據挖掘,挖掘什麼樣的關鍵詞,由業務分析人員確定,而具體挖掘則由數據部門做;有的企業從流程設計上著手,推動業務部門與數據部門人員之間的溝通,建立數據人員工作與效果掛鉤的考核機制。
例如阿里巴巴根據數據挖掘的成效(比如帶來的商品轉化率的提升)來考核數據挖掘師,考核數據分析師則看其分析結果能否出現在經營負責人的報告中。從數據部門自身角度則需要降低運營部門使用數據的障礙和門檻,比如立白集團的數據人員會努力嘗試向運營部門提供更易懂、更生動的圖形化數據分析界面,在立白老闆辦公室上,就有一份「客戶運營健康體檢表」,讓老闆對全國經銷商的當月銷售情況一目瞭然。再如阿里巴巴開發的無線Bi,讓經營人員在手機上也可以看到大數據分析結果,拿車品覺的話說,「以數據之氧氣包圍經營人員。」
以上是小編為大家分享的關於大數據攻略案例分析及結論的相關內容,更多信息可以關注環球青藤分享更多干貨
J. 大數據時代的數據怎麼挖掘
3月13日下午,南京郵電大學計算機學院、軟體學院院長、教授李濤在CIO時代APP微講座欄目作了題為《大數據時代的數據挖掘》的主題分享,深度詮釋了大數據及大數據時代下的數據挖掘。
眾所周知,大數據時代的大數據挖掘已成為各行各業的一大熱點。
一、數據挖掘
在大數據時代,數據的產生和收集是基礎,數據挖掘是關鍵,數據挖掘可以說是大數據最關鍵也是最基本的工作。通常而言,數據挖掘也稱為DataMining,或知識發現Knowledge Discovery from Data,泛指從大量數據中挖掘出隱含的、先前未知但潛在的有用信息和模式的一個工程化和系統化的過程。
不同的學者對數據挖掘有著不同的理解,但個人認為,數據挖掘的特性主要有以下四個方面:
1.應用性(A Combination of Theory and Application):數據挖掘是理論演算法和應用實踐的完美結合。數據挖掘源於實際生產生活中應用的需求,挖掘的數據來自於具體應用,同時通過數據挖掘發現的知識又要運用到實踐中去,輔助實際決策。所以,數據挖掘來自於應用實踐,同時也服務於應用實踐,數據是根本,數據挖掘應以數據為導向,其中涉及到演算法的設計與開發都需考慮到實際應用的需求,對問題進行抽象和泛化,將好的演算法應用於實際中,並在實際中得到檢驗。
2.工程性(An Engineering Process):數據挖掘是一個由多個步驟組成的工程化過程。數據挖掘的應用特性決定了數據挖掘不僅僅是演算法分析和應用,而是一個包含數據准備和管理、數據預處理和轉換、挖掘演算法開發和應用、結果展示和驗證以及知識積累和使用的完整過程。而且在實際應用中,典型的數據挖掘過程還是一個交互和循環的過程。
3.集合性(A Collection of Functionalities):數據挖掘是多種功能的集合。常用的數據挖掘功能包括數據探索分析、關聯規則挖掘、時間序列模式挖掘、分類預測、聚類分析、異常檢測、數據可視化和鏈接分析等。一個具體的應用案例往往涉及多個不同的功能。不同的功能通常有不同的理論和技術基礎,而且每一個功能都有不同的演算法支撐。
4.交叉性(An Interdisciplinary Field):數據挖掘是一門交叉學科,它利用了來自統計分析、模式識別、機器學習、人工智慧、信息檢索、資料庫等諸多不同領域的研究成果和學術思想。同時一些其他領域如隨機演算法、資訊理論、可視化、分布式計算和最優化也對數據挖掘的發展起到重要的作用。數據挖掘與這些相關領域的區別可以由前面提到的數據挖掘的3個特性來總結,最重要的是它更側重於應用。
綜上所述,應用性是數據挖掘的一個重要特性,是其區別於其他學科的關鍵,同時,其應用特性與其他特性相輔相成,這些特性在一定程度上決定了數據挖掘的研究與發展,同時,也為如何學習和掌握數據挖掘提出了指導性意見。如從研究發展來看,實際應用的需求是數據挖掘領域很多方法提出和發展的根源。從最開始的顧客交易數據分析(market basket analysis)、多媒體數據挖掘(multimedia data mining)、隱私保護數據挖掘(privacy-preserving data mining)到文本數據挖掘(text mining)和Web挖掘(Web mining),再到社交媒體挖掘(social media mining)都是由應用推動的。工程性和集合性決定了數據挖掘研究內容和方向的廣泛性。其中,工程性使得整個研究過程里的不同步驟都屬於數據挖掘的研究范疇。而集合性使得數據挖掘有多種不同的功能,而如何將多種功能聯系和結合起來,從一定程度上影響了數據挖掘研究方法的發展。比如,20世紀90年代中期,數據挖掘的研究主要集中在關聯規則和時間序列模式的挖掘。到20世紀90年代末,研究人員開始研究基於關聯規則和時間序列模式的分類演算法(如classification based on association),將兩種不同的數據挖掘功能有機地結合起來。21世紀初,一個研究的熱點是半監督學習(semi-supervised learning)和半監督聚類(semi-supervised clustering),也是將分類和聚類這兩種功能有機結合起來。近年來的一些其他研究方向如子空間聚類(subspace clustering)(特徵抽取和聚類的結合)和圖分類(graph classification)(圖挖掘和分類的結合)也是將多種功能聯系和結合在一起。最後,交叉性導致了研究思路和方法設計的多樣化。
前面提到的是數據挖掘的特性對研究發展及研究方法的影響,另外,數據挖掘的這些特性對如何學習和掌握數據挖掘提出了指導性的意見,對培養研究生、本科生均有一些指導意見,如應用性在指導數據挖掘時,應熟悉應用的業務和需求,需求才是數據挖掘的目的,業務和演算法、技術的緊密結合非常重要,了解業務、把握需求才能有針對性地對數據進行分析,挖掘其價值。因此,在實際應用中需要的是一種既懂業務,又懂數據挖掘演算法的人才。工程性決定了要掌握數據挖掘需有一定的工程能力,一個好的數據額挖掘人員首先是一名工程師,有很強大的處理大規模數據和開發原型系統的能力,這相當於在培養數據挖掘工程師時,對數據的處理能力和編程能力很重要。集合性使得在具體應用數據挖掘時,要做好底層不同功能和多種演算法積累。交叉性決定了在學習數據挖掘時要主動了解和學習相關領域的思想和技術。
因此,這些特性均是數據挖掘的特點,通過這四個特性可總結和學習數據挖掘。
二、大數據的特徵
大數據(bigdata)一詞經常被用以描述和指代信息爆炸時代產生的海量信息。研究大數據的意義在於發現和理解信息內容及信息與信息之間的聯系。研究大數據首先要理清和了解大數據的特點及基本概念,進而理解和認識大數據。
研究大數據首先要理解大數據的特徵和基本概念。業界普遍認為,大數據具有標準的「4V」特徵:
1.Volume(大量):數據體量巨大,從TB級別躍升到PB級別。
2.Variety(多樣):數據類型繁多,如網路日誌、視頻、圖片、地理位置信息等。
3.Velocity(高速):處理速度快,實時分析,這也是和傳統的數據挖掘技術有著本質的不同。
4.Value(價值):價值密度低,蘊含有效價值高,合理利用低密度價值的數據並對其進行正確、准確的分析,將會帶來巨大的商業和社會價值。
上述「4V」特點描述了大數據與以往部分抽樣的「小數據」的主要區別。然而,實踐是大數據的最終價值體現的唯一途徑。從實際應用和大數據處理的復雜性看,大數據還具有如下新的「4V」特點:
5.Variability(變化):在不同的場景、不同的研究目標下數據的結構和意義可能會發生變化,因此,在實際研究中要考慮具體的上下文場景(Context)。
6.Veracity(真實性):獲取真實、可靠的數據是保證分析結果准確、有效的前提。只有真實而准確的數據才能獲取真正有意義的結果。
7.Volatility(波動性)/Variance(差異):由於數據本身含有噪音及分析流程的不規范性,導致採用不同的演算法或不同分析過程與手段會得到不穩定的分析結果。
8.Visualization(可視化):在大數據環境下,通過數據可視化可以更加直觀地闡釋數據的意義,幫助理解數據,解釋結果。
綜上所述,以上「8V」特徵在大數據分析與數據挖掘中具有很強的指導意義。
三、大數據時代下的數據挖掘
在大數據時代,數據挖掘需考慮以下四個問題:
大數據挖掘的核心和本質是應用、演算法、數據和平台4個要素的有機結合。
因為數據挖掘是應用驅動的,來源於實踐,海量數據產生於應用之中。需用具體的應用數據作為驅動,以演算法、工具和平台作為支撐,最終將發現的知識和信息應用到實踐中去,從而提供量化的、合理的、可行的、且能產生巨大價值的信息。
挖掘大數據中隱含的有用信息需設計和開發相應的數據挖掘和學習演算法。演算法的設計和開發需以具體的應用數據作為驅動,同時在實際問題中得到應用和驗證,而演算法的實現和應用需要高效的處理平台,這個處理平台可以解決波動性問題。高效的處理平台需要有效分析海量數據,及時對多元數據進行集成,同時有力支持數據化對演算法及數據可視化的執行,並對數據分析的流程進行規范。
總之,應用、演算法、數據、平台這四個方面相結合的思想,是對大數據時代的數據挖掘理解與認識的綜合提煉,體現了大數據時代數據挖掘的本質與核心。這四個方面也是對相應研究方面的集成和架構,這四個架構具體從以下四個層面展開:
應用層(Application):關心的是數據的收集與演算法驗證,關鍵問題是理解與應用相關的語義和領域知識。
數據層(Data):數據的管理、存儲、訪問與安全,關心的是如何進行高效的數據使用。
演算法層(Algorithm):主要是數據挖掘、機器學習、近似演算法等演算法的設計與實現。
平台層(Infrastructure):數據的訪問和計算,計算平台處理分布式大規模的數據。
綜上所述,數據挖掘的演算法分為多個層次,在不同的層面有不同的研究內容,可以看到目前在做數據挖掘時的主要研究方向,如利用數據融合技術預處理稀疏、異構、不確定、不完整以及多來源數據;挖掘復雜動態變化的數據;測試通過局部學習和模型融合所得到的全局知識,並反饋相關信息給預處理階段;對數據並行分布化,達到有效使用的目的。
四、大數據挖掘系統的開發
1.背景目標
大數據時代的來臨使得數據的規模和復雜性都出現爆炸式的增長,促使不同應用領域的數據分析人員利用數據挖掘技術對數據進行分析。在應用領域中,如醫療保健、高端製造、金融等,一個典型的數據挖掘任務往往需要復雜的子任務配置,整合多種不同類型的挖掘演算法以及在分布式計算環境中高效運行。因此,在大數據時代進行數據挖掘應用的一個當務之急是要開發和建立計算平台和工具,支持應用領域的數據分析人員能夠有效地執行數據分析任務。
之前提到一個數據挖掘有多種任務、多種功能及不同的挖掘演算法,同時,需要一個高效的平台。因此,大數據時代的數據挖掘和應用的當務之急,便是開發和建立計算平台和工具,支持應用領域的數據分析人員能夠有效地執行數據分析任務。
2.相關產品
現有的數據挖掘工具
有Weka、SPSS和SQLServer,它們提供了友好的界面,方便用戶進行分析,然而這些工具並不適合進行大規模的數據分析,同時,在使用這些工具時用戶很難添加新的演算法程序。
流行的數據挖掘演算法庫
如Mahout、MLC++和MILK,這些演算法庫提供了大量的數據挖掘演算法。但這些演算法庫需要有高級編程技能才能進行任務配置和演算法集成。
最近出現的一些集成的數據挖掘產品
如Radoop和BC-PDM,它們提供友好的用戶界面來快速配置數據挖掘任務。但這些產品是基於Hadoop框架的,對非Hadoop演算法程序的支持非常有限。沒有明確地解決在多用戶和多任務情況下的資源分配。
3.FIU-Miner
為解決現有工具和產品在大數據挖掘中的局限性,我們團隊開發了一個新的平台——FIU-Miner,它代表了A Fast,Integrated,and User-Friendly System for Data Miningin Distributed Environment。它是一個用戶友好並支持在分布式環境中進行高效率計算和快速集成的數據挖掘系統。與現有數據挖掘平台相比,FIU-Miner提供了一組新的功能,能夠幫助數據分析人員方便並有效地開展各項復雜的數據挖掘任務。
與傳統的數據挖掘平台相比,它提供了一些新的功能,主要有以下幾個方面:
A.用戶友好、人性化、快速的數據挖掘任務配置。基於「軟體即服務」這一模式,FIU-Miner隱藏了與數據分析任務無關的低端細節。通過FIU-Miner提供的人性化用戶界面,用戶可以通過將現有演算法直接組裝成工作流,輕松完成一個復雜數據挖掘問題的任務配置,而不需要編寫任何代碼。
B.靈活的多語言程序集成。允許用戶將目前最先進的數據挖掘演算法直接導入系統演算法庫中,以此對分析工具集合進行擴充和管理。同時,由於FIU-Miner能夠正確地將任務分配到有合適運行環境的計算節點上,所以對這些導入的演算法沒有實現語言的限制。
C.異構環境中有效的資源管理。FIU-Miner支持在異構的計算環境中(包括圖形工作站、單個計算機、和伺服器等)運行數據挖掘任務。FIU-Miner綜合考慮各種因素(包括演算法實現、伺服器負載平衡和數據位置)來優化計算資源的利用率。
D.有效的程序調度和執行。
應用架構上包括用戶界面層、任務和系統管理層、邏輯資源層、異構的物理資源層。這種分層架構充分考慮了海量數據的分布式存儲、不同數據挖掘演算法的集成、多重任務的配置及系統用戶的交付功能。一個典型的數據挖掘任務在應用之中需要復雜的主任務配置,整合多種不同類型的挖掘演算法。因此,開發和建立這樣的計算平台和工具,支持應用領域的數據分析人員進行有效的分析是大數據挖掘中的一個重要任務。
FIU-Miner系統用在了不同方面:如高端製造業、倉庫智能管理、空間數據處理等,TerraFly GeoCloud是建立在TerraFly系統之上的、支持多種在線空間數據分析的一個平台。提供了一種類SQL語句的空間數據查詢與挖掘語言MapQL。它不但支持類SQL語句,更重要的是可根據用戶的不同要求,進行空間數據挖掘,渲染和畫圖查詢得到空間數據。通過構建空間數據分析的工作流來優化分析流程,提高分析效率。
製造業是指大規模地把原材料加工成成品的工業生產過程。高端製造業是指製造業中新出現的具有高技術含量、高附加值、強競爭力的產業。典型的高端製造業包括電子半導體生產、精密儀器製造、生物制葯等。這些製造領域往往涉及嚴密的工程設計、復雜的裝配生產線、大量的控制加工設備與工藝參數、精確的過程式控制制和材料的嚴格規范。產量和品質極大地依賴流程管控和優化決策。因此,製造企業不遺餘力地採用各種措施優化生產流程、調優控制參數、提高產品品質和產量,從而提高企業的競爭力。
在空間數據處理方面,TerraFly GeoCloud對多種在線空間數據分析。對傳統數據分析而言,其難點在於MapQL語句比較難寫,任務之間的關系比較復雜,順序執行之間空間數據分許效率較低。而FIU-Miner可有效解決以上三個難點。
總結而言,大數據的復雜特徵對數據挖掘在理論和演算法研究方面提出了新的要求和挑戰。大數據是現象,核心是挖掘數據中蘊含的潛在信息,並使它們發揮價值。數據挖掘是理論技術和實際應用的完美結合。數據挖掘是理論和實踐相結合的一個例子。