導航:首頁 > 研究方法 > 數據挖掘統計方法的研究現狀

數據挖掘統計方法的研究現狀

發布時間:2022-08-27 12:40:33

Ⅰ 智能數據挖掘與知識發現的內容提要

面對「人們被數據淹沒,卻飢渴於知識」的挑戰,數據挖掘和知識發現技術應運而生,並得以蓬勃發展。數據挖掘涉及到人工智慧、模式識別、機器學習、統計學等領域,因此,我們把體現當代科學技術發展特徵的多學科間的知識交叉及最新成果反映到教材中來,同時本書從智能信息處理及數據挖掘兩大主題出發,著重於介紹將智能信息處理中的最新技術如何應用於數據挖掘領域,如智能搜索、分類、聚類和智能決策等。
全書共分9章:
第一章主要從整體上介紹數據挖掘和知識發現的基本概念、研究現狀及發展方向;
第二章介紹了數據挖掘的理論基礎;
第三章詳細論述了用於數據挖掘的計算智能方法的理論基礎;
第四章論述了神經網路和進化計算的分類方法;
第五章全面論述了支撐矢量機與核分類方法;
第六章詳細論述了集成分類方法;
第七章系統論述了數據挖掘中大規模數據聚類方法;
第八章論述關聯規則挖掘方法;
第九章介紹數據挖掘實例及可視化。
從第三章後的每一章都給出了所用方法的實驗條件設置及實驗結果。

Ⅱ 數據挖掘的統計方法有哪些

傳統的數據挖掘統計方法包括回歸分析、主成分分析、聚類分析;
非機器的數據挖掘統計學習方法包括模糊集、粗糙集、支持向量機。

數據挖掘是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統和模式識別等諸多方法來實現上述目標。現在人們迫切希望能對海量數據進行深入分析,發現並提取隱藏在其中的信息,以便更好地利用這些數據,正是因為這樣的需求,數據挖掘技術應運而生。數據挖掘有很多合法的用途,例如可以在患者群的資料庫中查出某葯物和其副作用的關系。這種關系可能在1000人中也不會出現一例,但葯物學相關的項目就可以運用此方法減少對葯物有不良反應的病人數量,還有可能挽救生命。

關於數據挖掘的相關學習,這里推薦CDA數據師的相關課程,課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,而非「遇到問題調演算法包」。點擊預約免費試聽課。

Ⅲ 數據挖掘的國內外研究現狀

摘要:隨著網路、資料庫技術的迅速發畏以及資料庫管理系統的廣泛應用,人們積累的數據越來越多。數據挖掘(Data Mining)就是從大量的實際應用數據中提取隱含信息和知識,它利用了資料庫、人工智慧和數理統計等多方面的技術,是一類深層次的數據分析方法

關鍵詞:數據挖掘;知識;分析;市場營銷;金融投資

隨著網路、資料庫技術的迅速發展以及資料庫管理系統的廣泛應用,人們積累的數據越來越多。由此,數據挖掘技術應運而生。下面,本文對數據技術及其應用作一簡單介紹。
一、數據挖掘定義
數據挖掘(Data Mining)就是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它是一種新的商業信息處理技術,其主要特點是對商業資料庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。簡而言之,數據挖掘其實是一類深層次的數據分析方法。從這個角度數據挖掘也可以描述為:按企業制定的業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,並進一步將其模型化的先進有效的方法。
二、數據挖掘技術
數據挖掘技術是人們長期對資料庫技術進行研究和開發的結果,代寫論文其中數據倉庫技術的發展與數據挖掘有著密切的關系。大部分情況下,數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中,因為數據倉庫會對數據進行清理,並會解決數據的不一致問題,這會給數據挖掘帶來很多好處。此外數據挖掘還利用了人工智慧(AI)和統計分析的進步所帶來的好處,這兩門學科都致力於模式發現和預測。資料庫、人工智慧和數理統計是數據挖掘技術的三大支柱。由於數據挖掘所發現的知識的不同,其所利用的技術也有所不同。
1.廣義知識。指類別特徵的概括性描述知識。根據數據的微觀特性發現其表徵的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物的共同性質,是對數據的概括、精煉和抽象。廣義知識的發現方法和實現技術有很多,如數據立方體、面向屙性的歸約等。數據立方體的基本思想是實現某些常用的代價較高的聚集函數的計算,諸如計數、求和、平均、最大值等,並將這些實現視圖儲存在多維資料庫中。而面向屬性的歸約是以類SQL語言來表示數據挖掘查詢,收集資料庫中的相關數據集,然後在相關數據集上應用一系列數據推廣技術進行數據推廣,包括屬性刪除、概念樹提升、屬性閾值控制、計數及其他聚集函數傳播等。
2.關聯知識。它反映一個事件和其他事件之間依賴或關聯的知識。如果兩項或多項屬性之間存在關聯,那麼其中一項的屬性值就可以依據其他屬性值進行預測。最為著名的關聯規
則發現方法是Apriori演算法和FP—Growth演算法。關聯規則的發現可分為兩步:第一步是迭代識別所有的頻繁項目集,要求頻繁項目集的支持率不低於用戶設定的最低值;第二步是從頻繁項目集中構造可信度不低於用戶設定的最低值的規則。識別或發現所有頻繁項目集是關聯規則發現演算法的核心,也是計算量最大的部分。
3.分類知識。它反映同類事物共同性質的特徵型知識和不同事物之間的差異型特徵知識。分類方法有決策樹、樸素貝葉斯、神經網路、遺傳演算法、粗糙集方法、模糊集方法、線性回歸和K—Means劃分等。其中最為典型的分類方法是決策樹。它是從實例集中構造決策樹,是一種有指導的學習方法。
該方法先根據訓練子集形成決策樹,如果該樹不能對所有對象給出正確的分類,那麼選擇一些例外加入到訓練子集中,重復該過程一直到形成正確的決策集。最終結果是一棵樹,其葉結點是類名,中間結點是帶有分枝的屙性,該分枝對應該屙性的某一可能值。
4.預測型知識。它根據時間序列型數據,由歷史的和當前的數據去推測未來的數據,也可以認為是以時間為關鍵屬性的關聯知識。目前,時間序列預測方法有經典的統計方法、神經網路和機器學習等。1968年BoX和Jenkins提出了一套比較完善的時間序列建模理論和分析方法,這些經典的數學方法通過建立隨機模型,進行時間序列的預測。由於大量的時間序列是非平穩的,其特徵參數和數據分布隨著時間的推移而發生變化。因此,僅僅通過對某段歷史數據的訓練,建立單一的神經網路預測模型,還無法完成准確的預測任務。為此,人們提出了基於統計學和基於精確性的再訓練方法,當發現現存預測模型不再適用於當前數據時,對模型重新訓練,獲得新的權重參數,建立新的模型。
5.偏差型知識。它是對差異和極端特例的描述,揭示事物偏離常規的異常現象,如標准類外的特例、數據聚類外的離群值等。所有這些知識都可以在不同的概念層次上被發現,並隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。
三、數據挖掘流程
數據挖掘是指一個完整的過程,該過程從大型資料庫中挖掘先前未知的、有效的、可實用的信息,代寫畢業論文並使用這些信息做出決策或豐富知識。數據挖掘的基本過程和主要步驟如下:
過程中各步驟的大體內容如下:
1.確定業務對象,清晰地定義出業務問題。認清數據挖掘的目的是數據挖掘的重要一步,挖掘的最後結構不可預測,但要探索的問題應該是有預見的,為了數據挖掘而挖掘則帶有盲目性,是不會成功的。
2.數據准備。(1)數據選擇。搜索所有與業務對象有關的內部和外部數據信息,並從中選擇出適用於數據挖掘應用的數據。(2)數據預處理。研究數據的質量,進行數據的集成、變換、歸約、壓縮等.為進一步的分析作準備,並確定將要進行的挖掘操作的類型。(3)數據轉換。將數據轉換成一個分析模型,這個分析模型是針對挖掘演算法建立的,這是數據挖掘成功的關鍵。
3.數據挖掘。對所得到的經過轉換的數據進行挖掘。除了完善和選擇合適的挖掘演算法外,其餘一切工作都能自動地完成。
4.結果分析。解釋並評估結果。其使用的分析方法一般應視挖掘操作而定,通常會用到可視化技術。
5.知識同化。將分析所得到的知識集成到業務信息系統的組織結構中去。
四、數據挖掘的應用
數據挖掘技術從一開始就是面向應用的。目前在很多領域,數據挖掘都是一個很時髦的詞,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業領域。
1.市場營銷。由於管理信息系統和P0S系統在商業尤其是零售業內的普遍使用,特別是條形碼技術的使用,從而可以收集到大量關於用戶購買情況的數據,並且數據量在不斷激增。對市場營銷來說,通過數據分析了解客戶購物行為的一些特徵,對提高競爭力及促進銷售是大有幫助的。利用數據挖掘技術通過對用戶數據的分析,可以得到關於顧客購買取向和興趣的信息,從而為商業決策提供了可靠的依據。數據挖掘在營銷業上的應用可分為兩類:資料庫營銷(database markerting)和貨籃分析(basket analysis)。資料庫營銷的任務是通過互動式查詢、數據分割和模型預測等方法來選擇潛在的顧客,以便向它們推銷產品。通過對已有的顧客數據的辱淅,可以將用戶分為不同級別,級別越高,其購買的可能性就越大。貨籃分析
是分析市場銷售數據以識別顧客的購買行為模式,例如:如果A商品被選購,那麼B商品被購買的可能性為95%,從而幫助確定商店貨架的布局排放以促銷某些商品,並且對進貨的選擇和搭配上也更有目的性。這方面的系統有:Opportunity Ex-plorer,它可用於超市商品銷售異常情況的因果分析等,另外IBM公司也開發了識別顧客購買行為模式的一些工具(IntdligentMiner和QUEST中的一部分)。
2.金融投資。典型的金融分析領域有投資評估和股票交易市場預測,分析方法一般採用模型預測法(如神經網路或統計回歸技術)。代寫碩士論文由於金融投資的風險很大,在進行投資決策時,更需要通過對各種投資方向的有關數據進行分析,以選擇最佳的投資方向。無論是投資評估還是股票市場預測,都是對事物發展的一種預測,而且是建立在對數據的分析基礎之上的。數據挖掘可以通過對已有數據的處理,找到數據對象之間的關系,然後利用學習得到的模式進行合理的預測。這方面的系統有Fidelity Stock Selector和LBS Capital Management。前者的任務是使用神經網路模型選擇投資,後者則使用了專家系統、神經網路和基因演算法技術來輔助管理多達6億美元的有價證券。
3.欺詐甄別。銀行或商業上經常發生詐騙行為,如惡性透支等,這些給銀行和商業單位帶來了巨大的損失。對這類詐騙行為進行預測可以減少損失。進行詐騙甄別主要是通過總結正常行為和詐騙行為之間的關系,得到詐騙行為的一些特性,這樣當某項業務符合這些特徵時,可以向決策人員提出警告。
這方面應用非常成功的系統有:FALCON系統和FAIS系統。FALCON是HNC公司開發的信用卡欺詐估測系統,它已被相當數量的零售銀行用於探測可疑的信用卡交易;FAIS則是一個用於識別與洗錢有關的金融交易的系統,它使用的是一般的政府數據表單。此外數據挖掘還可用於天文學上的遙遠星體探測、基因工程的研究、web信息檢索等。
結束語
隨著資料庫、人工智慧、數理統計及計算機軟硬體技術的發展,數據挖掘技術必能在更多的領域內取得更廣泛的應用。

參考文獻:
[1]閆建紅《資料庫系統概論》的教學改革與探索[J].山西廣播電視大學學報,2006,(15):16—17.

Ⅳ 大數據時代空間數據挖掘的認識及其思考

引言

空間數據挖掘(Spatial Data Mining,SDM)即找出開始並不知道但是卻隱藏在空間數據中潛在的、有價值的規則的過程。具體來說,空間數據挖掘就是在海量空間數據集中,結合確定集、模糊集、仿生學等理論,利用人工智慧、模式識別等科學技術,提取出令人相信的、潛在有用的知識,發現空間數據集背後隱藏的規律、聯系,為空間決策提供理論技術上的依據[1]。

1.空間數據挖掘的一般步驟

空間數據挖掘系統大致可以分為以下步驟:

(1)空間數據准備:選擇合適的多種數據來源,包括地圖數據、影像數據、地形數據、屬性數據等。

(2)空間數據預處理和特徵提取:數據預處理目的是去除數據中的雜訊,包括對數據的清洗、數據的轉換、數據的集成等。特徵提取是剔除掉冗餘或不相關的特徵並將特徵轉化為適合數據挖掘的新特徵。

(3)空間數據挖掘和知識評估:採用空間數據挖掘技術對空間數據進行分析處理和預測,從而發現數據背後的某種聯系。然後結合具體的領域知識進行評估,看是否達到預期效果。

2.空間數據挖掘的方法研究

空間數據挖掘是一門綜合型的交叉學科,結合了計算機科學、統計學、地理學等領域的很多特性,產生了大量處理空間數據的挖掘方法。

2.1 空間關聯規則

關聯規則挖掘是尋找數據項之間的聯系,表達式形式是X→Y,其中X與Y是兩種不相交的數據項集,即X∩Y=?覫。KOPERSKI K等人將關聯規則與空間資料庫相結合,提出了空間關聯規則挖掘[2]。空間關聯規則將數據項替換為了空間謂詞,一般表達形式如下:

A1∧A2∧…∧An→B1∧B2∧…∧Bm(3)

令A=(A1,A2,…,An),B=(B1,B2,…,Bm),A和B分別表示Ai和Bj的謂詞集合,A和B可以是空間謂詞或非空間謂詞,但是必須至少包含一個空間謂詞且A∩B=?覫。SHEKHAR S和HUANG Y針對空間關聯規則的特點提出了把關聯規則的思想泛化成空間索引點集的空間同位規則的概念,在不違背空間相關性的同時用鄰域替換掉了事務[3]。時空關聯不僅涉及事件在空間中的關聯,還考慮了空間位置和時間序列因素。國內的柴思躍、蘇奮振和周成虎提出了基於周期表的時空關聯規則挖掘方法[4]。

2.2 空間聚類

空間聚類分析是普通聚類分析的擴展,不能完全按照處理普通數據的聚類分析方法來處理空間數據。由於存在地理學第一定律,即空間對象之間都存在一定的相關性,因此在空間聚類分析中,對於簇內的定義,要考慮空間自相關這一因素。通過對空間數據進行自相關分析,可判斷對象之間是否存在空間相關性,從而可合理判斷出對象是否可以分為一簇。

基本的聚類挖掘演算法有:

(1)劃分聚類演算法:存在n個數據對象,對於給定k個分組(k≤n),將n個對象通過基於一定目標劃分規則,不停迭代、優化,直到將這n個對象分配到k個分組中,使得每組內部對象相似度大於組之間相似度。

(2)層次聚類演算法:通過將數據不停地拆分與重組,最終把數據轉為一棵符合一定標準的具有層次結構的聚類樹。

(3)密度聚類演算法:用低密度的區域對數據對象進行分割,最終將數據對象聚類成為若干高密度的區域。

(4)圖聚類演算法:用空間結點表示每個數據對象,然後基於一定標准形成若乾子圖,最後把所有子圖聚類成一個包含所有空間對象的整圖,子圖則代表一個個空間簇。

(5)網格聚類演算法:把空間區域分割成具有多重解析度的和有網格結構特性的若干網格單元,在網格單元上對數據進行聚類。

(6)模型聚類演算法:藉助一定的數學模型,使用最佳擬合數據的數學模型來對數據進行聚類,每一個簇用一個概率分布表示。

僅採用一種演算法通常無法達到令人滿意的預期結果,王家耀、張雪萍、周海燕將遺傳演算法與K-均值演算法結合提出了用於空間聚類分析的遺傳K-均值演算法[5]。現實空間環境中,存在很多像道路、橋梁、河流的障礙物,張雪萍、楊騰飛等人把K-Medoids演算法與量子粒子群演算法結合進行帶有空間障礙約束的聚類分析[6]。

2.3 空間分類

分類,簡單地說是通過學習得到一定的分類模型,然後把數據對象按照分類模型劃分至預先給定類的過程。空間分類時,不僅考慮數據對象的非空間屬性,還要顧及鄰近對象的非空間屬性對其類別的影響,是一種監督式的分析方法。

空間分類挖掘方法有統計方法、機器學習的方法和神經網路方法等。貝葉斯分類器是基於統計學的方法,利用數據對象的先驗概率和貝葉斯公式計算出其後驗概率,選擇較大後驗概率的類作為該對象映射的類別。決策樹分類器是機器學習的方法,採取從上到下的貪心策略,比較決策樹內部節點的屬性值來往下建立決策樹的各分支,每個葉節點代表滿足某個條件的屬性值,從根節點到葉節點的路徑表示一條合適的規則。支持向量機也是機器學習的方法,思路是使用非線性映射把訓練數據集映射到較高維,然後尋找出最大邊緣超平面,將數據對象分類。神經網路是一種模擬人神經的網路,由一組連接的輸入和輸出單元組成,賦予各個連接相應的權值,通過調節各連接的權值使得數據對象得到正確分類。

針對融入空間自相關性的空間分類挖掘,SHEKHAR S等人使用空間自回歸模型和基於貝葉斯的馬可夫隨機場進行空間分類挖掘[7],汪閩、駱劍承、周成虎等人將高斯馬爾可夫隨機場與支持向量機結合並將其用於遙感圖像的信息提取[8]。

2.4 其他空間挖掘方法

空間數據挖掘的方法多種多樣,其他還包括:空間分析的方法,即利用GIS的方法、技術和理論對空間數據進行加工處理,從而找出未知有用的信息模式;基於模糊集、粗糙集和雲理論的方法可用來分析具有不確定性的空間數據;可視化方法是對空間數據對象的視覺表示,通過一定技術用圖像的形式表達要分析的空間數據,從而得到其隱含的信息;國內張自嘉、岳邦珊、潘琦等人將蟻群演算法與自適應濾波的模糊聚類演算法相結合用以對圖像進行分割[9]。

3.結論

空間數據挖掘作為數據挖掘的延伸,有很好的傳統數據挖掘方法理論的基礎,雖然取得了很大進步,然而其理論和方法仍需進一步的深入研究。伴隨著大數據時代,面對越來越多的空間數據,提升數據挖掘的准確度和精度是一個有待研究的問題。同時現在流行的空間數據挖掘演算法的時間復雜度仍停留在O(nlog(n))~O(n3)之間,處理大量的異構數據,數據挖掘演算法的效率也需要進一步提高。數據挖掘在雲環境下已經得到很好的應用[10],對於處理空間數據的空間雲計算是有待學者們研究的方向。大多數空間數據挖掘演算法沒有考慮含有障礙約束的情況,如何解決現實中障礙約束問題值得探討。帶有時間屬性的空間數據呈現出了一種動態、可變的空間現象,時空數據挖掘將是未來研究的重點。

由於數據挖掘涉及多種學科,其基本理論與方法也已經比較成熟,針對空間數據挖掘,如何合理地利用和拓展這些理論方法以實現對空間數據的挖掘仍將是研究人員們需要長期努力的方向。

參考文獻

[1] 李德仁,王樹良,李德毅.空間數據挖掘理論與應用(第2版)[M].北京:科學出版社,2013.

[2] KOPERSKI K, HAN J W. Discovery of spatial association rules in geographic information databases[C]. Procedings of the 4th International Symposium on Advances in Spatial Databases, 1995: 47-66.

[3] SHEKHAR S, HUANG Y. Discovering spatial co-location patterns: a summary of results[C]. Procedings of the 7th International Symposium on Advances in Spatial and Temporal Databases, 2001:236-256.

[4] 柴思躍,蘇奮振,周成虎.基於周期表的時空關聯規則挖掘方法與實驗[J].地球信息科學學報,2011,13(4):455-464.

[5] 王家耀,張雪萍,周海燕.一個用於空間聚類分析的遺傳K-均值演算法[J].計算機工程,2006,32(3):188-190.

[6] Zhang Xueping, Du Haohua, Yang Tengfei, et al. A novel spatial clustering with obstacles constraints based on PNPSO and K-medoids[C]. Advances in Swarm Intelligence, Lecture Notes in Computer Science (LNCS), 2010: 476-483.

[7] SHEKHAR S, SCHRATER P R, VATSAVAI R R, et al.Spatial contextual classification and prediction models for mining geospatial data[J]. IEEE Transactions on Multimedia, 2002, 4(2):174-187.

[8] 汪閩,駱劍承,周成虎,等.結合高斯馬爾可夫隨機場紋理模型與支撐向量機在高解析度遙感圖像上提取道路網[J].遙感學報,2005,9(3):271-275.

[9] 張自嘉,岳邦珊,潘琦,等.基於蟻群和自適應濾波的模糊聚類圖像分割[J].電子技術應用,2015,41(4):144-147.

[10] 石傑.雲計算環境下的數據挖掘應用[J].微型機與應用,2015,34(5):13-15.

來源 | AET電子技術應用

Ⅳ 統計學學生的數據挖掘發展之路

樓主你好,我也想往數據挖掘方面轉。不知可否交流一下。
就我本科生的水平給樓主稍微回答一下,不對之處請各位糾正:
1-2.統計學是一個研究隨機性的學科。其方法理論常常被數據挖掘、機器學習領域運用,但統計不等同於數據挖掘。這方面理解不是很深,樓主可以搜索COS上的文章。
3.當真如此,如果一個統計學學生只會很多統計方法,而不是腳踏實地地去研究此領域的特點,實事求是地分析問題,那麼再高深的理論也無法得出一個好的結論。
4.需要的知識結構可參考這個圖http://nirvacana.com/thoughts/wp-content/uploads/2013/07/RoadToDataScientist1.png
5.我目前理解較淺,但是了解過去和現在,預測未來一直是統計學、數據科學想要完成的目標。
6.數據科學慢慢會發展,今後可能需要更多的人才不僅限於理論研究,而是更多能夠將方法很好地應用到實際領域中的人(我猜測)。所以樓主不必糾結學習路徑問題,盡可能多掌握幾種技能,總會有用的

Ⅵ 數據挖掘概念綜述

數據挖掘概念綜述
數據挖掘又稱從資料庫中發現知識(KDD)、數據分析、數據融合(Data Fusion)以及決策支持。KDD一詞首次出現在1989年8月舉行的第11屆國際聯合人工智慧學術會議上。隨後在1991年、1993年和1994年都舉行KDD 專題討論會,匯集來自各個領域的研究人員和應用開發者,集中討論數據統計、海量數據分析算 法、知識表示、知識運用等問題。隨著參與人員的不斷增多,KDD國際會議發展成為年會。1998 年在美國紐約舉行的第四屆知識發現與數據 挖掘國際學術會議不僅進行了學術討論,並且有30多家軟體公司展示了他們的數據挖掘軟體產品,不少軟體已在北美、歐洲等國得到應用。
一、什麼是數據挖掘
1.1、數據挖掘的歷史
近十幾年來,人們利用信息技術生產和搜集數據的能力大幅度提高,千萬萬個資料庫被用於商業管理、政府辦公、科學研究和工程開發等等,這一勢頭仍將持續發展下去。於是,一個新的挑戰被提了出來:在這被稱之為信息爆炸的時代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發現有用的知識,提高信息利用率呢?要想使數據真正成為一個公司的資源,只有充分利用它為公司自身的業務決策和戰略發展服務才行,否則大量的數據可能成為包袱,甚至成為垃圾。因此,面對」人們被數據淹沒,人們卻飢餓於知識」的挑戰。另一方面計算機技術的另一領域——人工智慧自1956年誕生之後取得了重大進展。經歷了博弈時期、自然語言理解、知識工程等階段,目前的研究 熱點是機器學習。機器學習是用計算機模擬人類學習的一門科學,比較成熟的演算法有神經網路、遺傳演算法等。用資料庫管理系統來存儲數據,用機器學習的方法來分析數據,挖掘大量數據背後的知識,這兩者的結合促成了資料庫中的知識發現(KDD:Knowledge Discovery in Databases)的產生,因此,數據挖掘和知識發現(DMKD)技術應運而生,並得以蓬勃發展,越來越顯示出其強大的生命力。
數據挖掘又稱從資料庫中發現知識(KDD)、數據分析、數據融合(Data Fusion)以及決策支持。KDD一詞首次出現在1989年8月舉行的第11屆國際聯合人工智慧學術會議上。隨後在1991年、1993年和1994年都舉行KDD 專題討論會,匯集來自各個領域的研究人員和應用開發者,集中討論數據統計、海量數據分析算 法、知識表示、知識運用等問題。隨著參與人員的不斷增多,KDD國際會議發展成為年會。1998 年在美國紐約舉行的第四屆知識發現與數據 挖掘國際學術會議不僅進行了學術討論,並且有30多家軟體公司展示了他們的數據挖掘軟體產品,不少軟體已在北美、歐洲等國得到應用。
2.2數據挖掘的概念
從1989年到現在,KDD的定義隨著人們研究的不斷深入也在不斷完善,目前比較公認的定義是Fayyad 等給出的:KDD是從數據集中識別出有效的、新穎的、潛在有用的以及最終可理解模式的高級處理過程。從定義可以看出,數據挖掘(DataMining)就是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。人們把原始數據看作是形成知識的源泉,就像從礦石中采礦一樣。原始數據可以是結構化的,如關系資料庫中的數據,也可以是半結構化的,如文本、圖形、圖像數據,甚至是分布在網路上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現了的知識可以被用於信息管理、查詢優化、決策支持、過程式控制制等,還可以用於數據自身的維護。因此,數據挖掘是一門很廣義的交叉學科,它匯聚了不同領域的研究者,尤其是資料庫、人工智慧、數理統計、可視化、並行計算等方面的學者和工程技術人員。
特別要指出的是,數據挖掘技術從一開始就是面向應用的。它不僅是面向特定資料庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。
一般來說在科研領域中稱為KDD,而在工程領域則稱為數據挖掘。
二、數據挖掘的步驟
KDD包括以下步驟:
1、數據准備
KDD的處理對象是大量的數據,這些數據一般存儲在資料庫系統中,是長期積累的結果。但往往不適合直接在這些數據上面進行知識挖 掘,需要做數據准備工作,一般包括數據的選擇(選擇相關的數據)、凈化(消除噪音、冗餘數據)、推測(推算缺失數據)、轉換(離散值 數據與連續值數據之間的相互轉換,數據值的分組分類,數據項之間的計算組合等)、數據縮減(減少數據量)。如果KDD的對象是數據倉 庫,那麼這些工作往往在生成數據倉庫時已經准備妥當。數據准備是KDD 的第一個步驟,也是比較重要的一個步驟。數據准備是否做好將影 響到數據挖掘的效率和准確度以及最終模式的有效性。
2、數據挖掘
數據挖掘是KDD最關鍵的步驟,也是技術難點所在。研究KDD的人員中大部分都在研究數據挖掘技術,採用較多的技術有決策樹、分類、 聚類、粗糙集、關聯規則、神經網路、遺傳演算法等。數據挖掘根據KDD的目標,選取相應演算法的參數,分析數據,得到可能形成知識的模式 模型。
3、評估、解釋模式模型
上面得到的模式模型,有可能是沒有實際意義或沒有實用價值的,也有可能是其不能准確反映數據的真實意義,甚至在某些情況下是與事 實相反的,因此需要評估,確定哪些是有效的、有用的模式。評估可以根據用戶多年的經驗,有些模式也可以直接用數據來檢驗其准確性。 這個步驟還包括把模式以易於理解的方式呈現給用戶。
4、鞏固知識
用戶理解的、並被認為是符合實際和有價值的模式模型形成了知識。同時還要注意對知識做一
致性檢查,解決與以前得到的知識互相沖 突、矛盾的地方,使知識得到鞏固。
5、運用知識
發現知識是為了運用,如何使知識能被運用也是KDD的步驟之一。運用知識有兩種方法:一種是只需看知識本身所描述的關系或結果,就 可以對決策提供支持;另一種是要求對新的數據運用知識,由此可能產生新的問題,而需要對知識做進一步的優化
三、數據挖掘的特點及功能
3.1、數據挖掘的特點
數據挖掘具有如下幾個特點,當然,這些特點與數據挖掘要處理的數據和目的是密切相關的。
1、處理的數據規模十分巨大。
2、查詢一般是決策制定者(用戶)提出的即時隨機查詢,往往不能形成精確的查詢要求。
3、由於數據變化迅速並可能很快過時,因此需要對動態數據作出快速反應,以提供決策支持。
4、主要基於大樣本的統計規律,其發現的規則不一定適用於所有數據
3.2、數據挖掘的功能
數據挖掘所能發現的知識有如下幾種:
廣義型知識,反映同類事物共同性質的知識;
特徵型知識,反映事物各方面的特徵知識;
差異型知識,反映不同事物之間屬性差別的知識 ;關聯型知識,反映事物之間依賴或關聯的知識;
預測型知識,根據歷史的和當前的數據推測未來數據;偏離型知識,揭示事物偏離常規的異常現象。
所有這些知識都可以在不同的概念層次上被發現,隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。例如,從一家超市的數據倉庫中,可以發現的一條典型關聯規則可能是」買麵包和黃油的顧客十有八九也買牛奶」,也可能是」買食品的顧客幾乎都用信用卡」,這種規則對於商家開發和實施客戶化的銷售計劃和策略是非常有用的。至於發現工具和方法,常用的有分類、聚類、減維、模式識別、可視化、決策樹、遺傳演算法、不確定性處理等。歸納起來,數據挖掘有如下幾個功能:
預測/驗證功能:預測/驗證功能指用資料庫的若干已知欄位預測或驗證其他未知欄位值。預測方法有統計分析方法、關聯規則和決策樹預測方法、回歸樹預測方法等。
描述功能:描述功能指找到描述數據的可理解模式。描述方法包括以下幾種:數據分類、回歸分析、簇聚、概括、構造依賴模式、變化和偏差分析、模式發現、路徑發現等。
四、數據挖掘的模式
數據挖掘的任務是從數據中發現模式。模式是一個用語言L來表示的一個表達式E,它可用來描述數據集F中數據的特性,E 所描述的數據是集 合F的一個子集FE。E作為一個模式要求它比列舉數據子集FE中所有元素的描述方法簡單。例如,「如果成績在81 ~90之間,則成績優良」可稱 為一個模式,而「如果成績為81、82、83、84、85、86、87、88、89 或90,則成績優良」就不能稱之為一個模式。
模式有很多種,按功能可分有兩大類:預測型(Predictive)模式和描述型(Descriptive)模式。
預測型模式是可以根據數據項的值精確確定某種結果的模式。挖掘預測型模式所使用的數據也都是可以明確知道結果的。例如,根據各種 動物的資料,可以建立這樣的模式:凡是胎生的動物都是哺乳類動物。當有新的動物資料時,就可以根據這個模式判別此動物是否是哺乳動物。
描述型模式是對數據中存在的規則做一種描述,或者根據數據的相似性把數據分組。描述型模式不能直接用於預測。例如,在地球上,70 %的表面被水覆蓋,30 %是土地。
在實際應用中,往往根據模式的實際作用細分為以下6 種:
1、分類模式
分類模式是一個分類函數( 分 類 器),能夠把數據集中的數據項映射到某個給定的類上。分類模式往往表現為一棵分類樹,根據數據的 值從樹根開始搜索,沿著數據滿足的分支往上走,走到樹葉就能確定類別。
2、回歸模式
回歸模式的函數定義與分類模式相似,它們的差別在於分類模式的預測值是離散的,回歸模式的預測值是連續的。如給出某種動物的特徵,可以用分類模式判定這種動物是哺乳動物還是鳥類;給出某個人的教育情況、工作經驗,可以用回歸模式判定這個人的年工資在哪個范圍內,是在6000元以下,還是在6000元到1萬元之間,還是在1萬元以上。
3、時間序列模式
時間序列模式根據數據隨時間變化的趨勢預測將來的值。這里要考慮到時間的特殊性質,像一些周期性的時間定義如星期、月、季節、年 等,不同的日子如節假日可能造成的影響,日期本身的計算方法,還有一些需要特殊考慮的地方如時間前後的相關性(過去的事情對將來有 多大的影響力)等。只有充分考慮時間因素,利用現有數據隨時間變化的一系列的值,才能更好地預測將來的值。
4、聚類模式
聚類模式把數據劃分到不同的組中,組之間的差別盡可能大,組內的差別盡可能小。與分類模式不同,進行聚類前並不知道將要劃分成幾 個組和什麼樣的組,也不知道根據哪一(幾)個數據項來定義組。一般來說,業務知識豐富的人應該可以理解這些組的含義,如果產生的模式無法理解或不可用,則該模式可能是無意義的,需要回到上階段重新組織數據。
5、關聯模式
關聯模式是數據項之間的關聯規則。關聯規則是如下形式的一種規則:「在無力償還貸款的人當中,60%的人的月收入在3000元以下。」
6、序列模式
序列模式與關聯模式相仿,而把數據之間的關聯性與時間聯系起來。為了發現序列模式,不僅需要知道事件是否發生,而且需要確定事件 發生的時間。例如,在購買彩電的人們當中,60%的人會在3個月內購買影碟機
五、數據挖掘的發現任務
數據挖掘涉及的學科領域和方法很多,有多種分類法。根據挖掘任務分,可分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等等;根據挖掘對象分,有關系資料庫、面向對象資料庫、空間資料庫、時態資料庫、文本數據源、多媒體資料庫、異質資料庫、遺產資料庫以及環球網Web;根據挖掘方法分,可粗分為:機器學習方法、統計方法、神經網路方法和資料庫方法。機器學習中,可細分為:歸納學習方法(決策樹、規則歸納等)、基於範例學習、遺傳演算法等。統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。神經網路方法中,可細分為:前向神經網路(BP演算法等)、自組織神經網路(自組織特徵映射、競爭學習等)等。資料庫方法主要是多維數據分析或OLAP 方法,另外還有面向屬性的歸納方法。
從挖掘任務和挖掘方法的角度而言有數據總結、分類發現、聚類和關聯規則發現四種非常重要的發現任務。
5.1、數據總結
數據總結目的是對數據進行濃縮,給出它的緊湊描述。傳統的也是最簡單的數據總結方法是計算出資料庫的各個欄位上的求和值、平均值、方差值等統計值,或者用直方圖、餅狀圖等圖形方式表示。數據挖掘主要關心從數據泛化的角度來討論數據總結。數據泛化是一種把資料庫中的有關數據從低層次抽象到高層次上的過程。由於資料庫上的數據或對象所包含的信息總是最原始、基本的信息(這是為了不遺漏任何可能有用的數據信息)。人們有時希望能從較高層次的視圖上處理或瀏覽數據,因此需要對數據進行不同層次上的泛化以適應各種查詢要求。數據泛化目前主要有兩種技術:多維數據分析方法和面向屬性的歸納方法。
1、多維數據分析方法是一種數據倉庫技術,也稱作聯機分析處理(OLAP)。數據倉庫是面向決策支持的、集成的、穩定的、不同時間的歷史數據集合。決策的前提是數據分析。在數據分析中經常要用到諸如求和、總計、平均、最大、最小等匯集操作,這類操作的計算量特別大。因此一種很自然的想法是,把匯集操作結果預先計算並存儲起來,以便於決策支持系統使用。存儲匯集操作結果的地方稱作多維資料庫。多維數據分析技術已經在決策支持系統中獲得了成功的應用,如著名的SAS數據分析軟體包、Business Object公司的決策支持系統Business Object,以及IBM公司的決策分析工具都使用了多維數據分析技術。
採用多維數據分析方法進行數據總結,它針對的是數據倉庫,數據倉庫存儲的是離線的歷史數據。
2、為了處理聯機數據,研究人員提出了一種面向屬性的歸納方法。它的思路是直接對用戶感興趣的數據視圖(用一般的SQL查詢語言即可獲得)進行泛化,而不是像多維數據分析方法那樣預先就存儲好了泛化數據。方法的提出者對這種數據泛化技術稱之為面向屬性的歸納方法。原始關系經過泛化操作後得到的是一個泛化關系,它從較高的層次上總結了在低層次上的原始關系。有了泛化關系後,就可以對它進行各種深入的操作而生成滿足用戶需要的知識,如在泛化關系基礎上生成特性規則、判別規則、分類規則,以及關聯規則等。
5.2、分類發現
分類在數據挖掘中是一項非常重要的任務,目前在商業上應用最多。分類的目的是學會一個分類函數或分類模型(也常常稱作分類器),該模型能把資料庫中的數據項映射到給定類別中的某一個。分類和回歸都可用於預測。預測的目的是從利用歷史數據紀錄中自動推導出對給定數據的推廣描述,從而能對未來數據進行預測。和回歸方法不同的是,分類的輸出是離散的類別值,而回歸的輸出則是連續數值。
要構造分類器,需要有一個訓練樣本數據集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可為:( v1, v2, …, vn; c );其中vi表示欄位值,c表示類別。
分類器的構造方法有統計方法、機器學習方法、神經網路方法等等。統計方法包括貝葉斯法和非參數法(近鄰學習或基於事例的學習),對應的知識表示則為判別函數和原型事例。機器學習方法包括決策樹法和規則歸納法,前者對應的表示為決策樹或判別樹,後者則一般為產生式規則。神經網路方法主要是BP演算法,它的模型表示是前向反饋神經網路模型(由代表神經元的節點和代表聯接權值的邊組成的一種體系結構),BP演算法本質上是一種非線性判別函數。另外,最近又興起了一種新的方法:粗糙集(rough set),其知識表示是產生式規則。
不同的分類器有不同的特點。有三種分類器評價或比較尺度:1 預測准確度;2 計算復雜度;3 模型描述的簡潔度。預測准確度是用得最多的一種比較尺度,特別是對於預測型分類任務,目前公認的方法是10番分層交叉驗證法。計算復雜度依賴於具體的實現細節和硬體環境,在數據挖掘中,由於操作對象是巨量的資料庫,因此空間和時間的復雜度問題將是非常重要的一個環節。對於描述型的分類任務,模型描述越簡潔越受歡迎;例如,採用規則表示的分類器構造法就更有用,而神經網路方法產生的結果就難以理解。
另外要注意的是,分類的效果一般和數據的特點有關,有的數據雜訊大,有的有缺值, 有的分布稀疏,有的欄位或屬性間相關性強,有的屬性是離散的而有的是連續值或混合式的。目前普遍認為不存在某種方法能適合於各種特點的數據。
5.3、聚類
聚類是把一組個體按照相似性歸成若干類別,即」物以類聚」。它的目的是使得屬於同一類別的個體之間的距離盡可能的小,而不同類別上的個體間的距離盡可能的大。聚類方法包括統計方法、機器學習方法、神經網路方法和面向資料庫的方法。
在統計方法中,聚類稱聚類分析,它是多元數據分析的三大方法之一(其它兩種是回歸分析和判別分析)。它主要研究基於幾何距離的聚類,如歐式距離、明考斯基距離等。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。這種聚類方法是一種基於全局比較的聚類,它需要考察所有的個體才能決定類的劃分;因此它要求所有的數據必須預先給定,而不能動態增加新的數據對象。聚類分析方法不具有線性的計算復雜度,難以適用於資料庫非常大的情況。
在機器學習中聚類稱作無監督或無教師歸納;因為和分類學習相比,分類學習的例子或數據對象有類別標記,而要聚類的例子則沒有標記,需要由聚類學習演算法來自動確定。很多人工智慧文獻中,聚類也稱概念聚類;因為這里的距離不再是統計方法中的幾何距離 ,而是根據概念的描述來確定的。當聚類對象可以動態增加時,概念聚類則稱是概念形成。
在神經網路中,有一類無監督學習方法:自組織神經網路方法;如Kohonen自組織特徵映射網路、競爭學習網路等等。在數據挖掘領域里,見報道的神經網路聚類方法主要是自組織特徵映射方法,IBM在其發布的數據挖掘白皮書中就特別提到了使用此方法進行資料庫聚類分割。
5.4、關聯規則發現
關聯規則是形式如下的一種規則,」在購買麵包和黃油的顧客中,有90%的人同時也買了牛奶」(麵包+黃油 ( 牛奶 )。用於關聯規則發現的主要對象是事務型資料庫,其中針對的應用則是售貨數據,也稱貨籃數據。一個事務一般由如下幾個部分組成:事務處理時間 ,一組顧客購買的物品,有時也有顧客標識號(如信用卡號)。
由於條形碼技術的發展,零售部門可以利用前端收款機收集存儲大量的售貨數據。因此,如果對這些歷史事務數據進行分析,則可對顧客的購買行為提供極有價值的信息。例如,可以幫助如何擺放貨架上的商品(如把顧客經常同時買的商品放在一起),幫助如何規劃市場(怎樣相互搭配進貨)。由此可見,從事務數據中發現關聯規則,對於改進零售業等商業活動的決策非常重要。
如果不考慮關聯規則的支持度和可信度,那麼在事務資料庫中存在無窮多的關聯規則。事實上,人們一般只對滿足一定的支持度和可信度的關聯規則感興趣。在文獻中,一般稱滿足一定要求的(如較大的支持度和可信度)的規則為強規則。因此,為了發現出有意義的關聯規則,需要給定兩個閾值:最小支持度和最小可信度。前者即用戶規定的關聯規則必須滿足的最小支持度,它表示了一組物品集在統計意義上的需滿足的最低程度;後者即用戶規定的關聯規則必須滿足的最小可信度,它反應了關聯規則的最低可靠度。
在實際情況下,一種更有用的關聯規則是泛化關聯規則。因為物品概念間存在一種層次關系,如夾克衫、滑雪衫屬於外套類,外套、襯衣又屬於衣服類。有了層次關系後,可以幫助發現一些更多的有意義的規則。例如,」買外套,買鞋子」(此處,外套和鞋子是較高層次上的物品或概念,因而該規則是一種泛化的關聯規則)。由於商店或超市中有成千上萬種物品,平均來講,每種物品(如滑雪衫)的支持度很低,因此有時難以發現有用規則;但如果考慮到較高層次的物品(如外套),則其支持度就較高,從而可能發現有用的規則。另外,關聯規則發現的思路還可以用於序列模式發現。用戶在購買物品時,除了具有上述關聯規律,還有時間上或序列上的規律,因為,很多時候顧客會這次買這些東西,下次買同上次有關的一些東西,接著又買有關的某些東西。

Ⅶ 數據挖掘的應用現狀

數據挖掘的應用現狀
數據挖掘所要處理的問題,就是在龐大的資料庫中找出有價值的隱藏事件,並且加以分析,獲取有意義的信息,歸納出有用的結構,作為企業進行決策的依據。其應用非常廣泛,只要該產業有分析價值與需求的資料庫,皆可利用數據挖掘(DM)技術進行有目的的發掘分析。
常見的應用案例多發生在零售業、財務金融保險、製造業、通訊及醫療服務行業:
1、零售商從顧客購買商品中發現一定的關系,提供打折購物券等,提高銷售額;
2、保險公司通過數據挖掘建立預測模型,辨別出可能的欺詐行為,避免道德風險,減少成本,提高利潤;
3、在製造業中,半導體的生產和測試中都產生大量的數據,就必須對這些數據進行分析,找出存在的問題,提高質量;
4、電子商務的作用越來越大,可以用數據挖掘對網站進行分析,識別用戶的行為模式,保留客戶,提供個性化服務,優化網站設計。

Ⅷ 數據分析行業中數據分析和數據挖掘

閱讀全文

與數據挖掘統計方法的研究現狀相關的資料

熱點內容
筆記本愛奇藝全屏卡頓解決方法 瀏覽:860
如何養好賽鴿的方法 瀏覽:854
qq電腦皮膚設置在哪裡設置方法 瀏覽:547
案例有什麼分析方法 瀏覽:784
499x32十32簡便方法 瀏覽:752
電子支付器怎麼使用方法 瀏覽:586
365天鍛煉方法 瀏覽:378
rnw使用方法步驟 瀏覽:504
怎麼賺錢方法 瀏覽:213
用什麼方法可以把肉弄成熟 瀏覽:446
小孩脾虛出夜汗怎麼調理食補方法 瀏覽:682
毛衣雞心領大了改小的簡單方法視頻 瀏覽:433
物理中減小摩擦力的方法有哪些 瀏覽:895
常用的有機物分析方法 瀏覽:334
人類有什麼打鬥方法 瀏覽:806
人物分析描寫方法 瀏覽:791
皂角刺如何食用方法 瀏覽:566
研究問卷的方法 瀏覽:830
古箏琴碼的安裝方法 瀏覽:579
國外大學研究方法有哪些 瀏覽:424