① 環境問題有哪些分類方法分幾類
1、環境問題又哪些分類方法?分幾類?
按環境要素分 大氣污染 水體污染 土壤污染
按人類活動分 工業環境污染 城市環境污染 農業環境污染
按污染的性質與來源劃分 化學污染 物理污染 生物污染 固體廢棄物污染 能源污染
② 常見的分類方法
主要分類方法介紹解決分類問題的方法很多[40-42] ,單一的分類方法主要包括:決策樹、貝葉斯、人工神經網路、K-近鄰、支持向量機和基於關聯規則的分類等;另外還有用於組合單一分類方法的集成學習演算法,如Bagging和Boosting等。
(1)決策樹
決策樹是用於分類和預測的主要技術之一,決策樹學習是以實例為基礎的歸納學習演算法,它著眼於從一組無次序、無規則的實例中推理出以決策樹表示的分類規則。構造決策樹的目的是找出屬性和類別間的關系,用它來預測將來未知類別的記錄的類別。它採用自頂向下的遞歸方式,在決策樹的內部節點進行屬性的比較,並根據不同屬性值判斷從該節點向下的分支,在決策樹的葉節點得到結論。
主要的決策樹演算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT演算法等。它們在選擇測試屬性採用的技術、生成的決策樹的結構、剪枝的方法以及時刻,能否處理大數據集等方面都有各自的不同之處。
(2)貝葉斯
貝葉斯(Bayes)分類演算法是一類利用概率統計知識進行分類的演算法,如樸素貝葉斯(Naive
Bayes)演算法。這些演算法主要利用Bayes定理來預測一個未知類別的樣本屬於各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。由於貝葉斯定理的成立本身需要一個很強的條件獨立性假設前提,而此假設在實際情況中經常是不成立的,因而其分類准確性就會下降。為此就出現了許多降低獨立性假設的貝葉斯分類演算法,如TAN(Tree
Augmented Na?ve Bayes)演算法,它是在貝葉斯網路結構的基礎上增加屬性對之間的關聯來實現的。
(3)人工神經網路
人工神經網路(Artificial
Neural
Networks,ANN)是一種應用類似於大腦神經突觸聯接的結構進行信息處理的數學模型。在這種模型中,大量的節點(或稱」神經元」,或」單元」)之間相互聯接構成網路,即」神經網路」,以達到處理信息的目的。神經網路通常需要進行訓練,訓練的過程就是網路進行學習的過程。訓練改變了網路節點的連接權的值使其具有分類的功能,經過訓練的網路就可用於對象的識別。
目前,神經網路已有上百種不同的模型,常見的有BP網路、徑向基RBF網路、Hopfield網路、隨機神經網路(Boltzmann機)、競爭神經網路(Hamming網路,自組織映射網路)等。但是當前的神經網路仍普遍存在收斂速度慢、計算量大、訓練時間長和不可解釋等缺點。
(4)k-近鄰
k-近鄰(kNN,k-Nearest
Neighbors)演算法是一種基於實例的分類方法。該方法就是找出與未知樣本x距離最近的k個訓練樣本,看這k個樣本中多數屬於哪一類,就把x歸為那一類。k-近鄰方法是一種懶惰學習方法,它存放樣本,直到需要分類時才進行分類,如果樣本集比較復雜,可能會導致很大的計算開銷,因此無法應用到實時性很強的場合。
(5)支持向量機
支持向量機(SVM,Support
Vector Machine)是Vapnik根據統計學習理論提出的一種新的學習方法[43]
,它的最大特點是根據結構風險最小化准則,以最大化分類間隔構造最優分類超平面來提高學習機的泛化能力,較好地解決了非線性、高維數、局部極小點等問題。對於分類問題,支持向量機演算法根據區域中的樣本計算該區域的決策曲面,由此確定該區域中未知樣本的類別。
(6)基於關聯規則的分類
關聯規則挖掘是數據挖掘中一個重要的研究領域。近年來,對於如何將關聯規則挖掘用於分類問題,學者們進行了廣泛的研究。關聯分類方法挖掘形如condset→C的規則,其中condset是項(或屬性-值對)的集合,而C是類標號,這種形式的規則稱為類關聯規則(class
association
rules,CARS)。關聯分類方法一般由兩步組成:第一步用關聯規則挖掘演算法從訓練數據集中挖掘出所有滿足指定支持度和置信度的類關聯規則;第二步使用啟發式方法從挖掘出的類關聯規則中挑選出一組高質量的規則用於分類。屬於關聯分類的演算法主要包括CBA[44]
,ADT[45] ,CMAR[46] 等。
(7)集成學習(Ensemble Learning)
實際應用的復雜性和數據的多樣性往往使得單一的分類方法不夠有效。因此,學者們對多種分類方法的融合即集成學習進行了廣泛的研究。集成學習已成為國際機器學習界的研究熱點,並被稱為當前機器學習四個主要研究方向之一。
集成學習是一種機器學習範式,它試圖通過連續調用單個的學習演算法,獲得不同的基學習器,然後根據規則組合這些學習器來解決同一個問題,可以顯著的提高學習系統的泛化能力。組合多個基學習器主要採用(加權)投票的方法,常見的演算法有裝袋[47]
(Bagging),提升/推進[48, 49] (Boosting)等。
有關分類器的集成學習見圖2-5。集成學習由於採用了投票平均的方法組合多個分類器,所以有可能減少單個分類器的誤差,獲得對問題空間模型更加准確的表示,從而提高分類器的分類准確度。
圖2-5:分類器的集成學習
以上簡單介紹了各種主要的分類方法,應該說其都有各自不同的特點及優缺點。對於資料庫負載的自動識別,應該選擇哪種方法呢?用來比較和評估分類方法的標准[50]
主要有:(1)預測的准確率。模型正確地預測新樣本的類標號的能力;(2)計算速度。包括構造模型以及使用模型進行分類的時間;(3)強壯性。模型對雜訊數據或空缺值數據正確預測的能力;(4)可伸縮性。對於數據量很大的數據集,有效構造模型的能力;(5)模型描述的簡潔性和可解釋性。模型描述愈簡潔、愈容易理解,則愈受歡迎。
③ 決策問題有哪些分類方法
對於不同的情況有不同的決策方法。
①確定性情況:每一個方案引起一個、而且只有一個結局。當方案個數較少時可以用窮舉法,當方案個數較多時可以用一般最優化方法。
②隨機性情況:也稱風險性情況,即由一個方案可能引起幾個結局中的一個,但各種結局以一定的概率發生。通常在能用某種估算概率的方法時,就可使用隨機性決策,例如決策樹的方法。
③不確定性情況:一個方案可能引起幾個結局中的某一個結局,但各種結局的發生概率未知。這時可使用不確定型決策,例如拉普拉斯准則、樂觀准則、悲觀准則、遺憾准則等來取捨方案。
④多目標情況:由一個方案同時引起多個結局,它們分別屬於不同屬性或所追求的不同目標。這時一般採用多目標決策方法。例如化多為少的方法、分層序列法、直接找所有非劣解的方法等。
⑤多人決策情況:在同一個方案內有多個決策者,他們的利益不同,對方案結局的評價也不同。這時採用對策論、沖突分析、群決策等方法。
除上述各種方法外,還有對結局評價等有模糊性時採用的模糊決策方法和決策分析階段序貫進行時所採用的序貫決策方法等。
不同決策分析的區別
風險型情況下的決策分析。這類決策問題與確定型決策只在第一點特徵上有所區別:
風險型情況下,未來可能狀態不只一種,究竟出現哪種狀態,不能事先肯定,只知道各種狀態出現的可能性大小(如概率、頻率、比例或權等)。常用的風險型決策分析技術有期望值法和決策樹法。
期望值法是根據各可行方案在各自然狀態下收益值的概率平均值的大小,決定各方案的取捨。
決策樹法有利於決策人員使決策問題形象比,可把各種可以更換的方案、可能出現的狀態、可能性大小及產生的後果等,簡單地繪制在一張圖上,以便計算、研究與分析,同時還可以隨時補充和不確定型情況下的決策分析。
如果不只有一個狀態,各狀態出現的可能性的大小又不確知,便稱為不確定型決策。常用的決策分析方法有:
a.樂觀准則。比較樂觀的決策者願意爭取一切機會獲得最好結果。決策步驟是從每個方案中選一個最大收益值,再從這些最大收益值中選一個最大值,該最大值對應的方案便是入選方案。
b.悲觀准則。比較悲觀的決策者總是小心謹慎,從最壞結果著想。決策步驟是先從各方案中選一個最小收益值,再從這些最小收益值中選出一個最大收益值,其對應方案便是最優方案。這是在各種最不利的情況下又從中找出一個最有利的方案,
c.等可能性准則。決策者對於狀態信息毫無所知,所以對它們一視同仁,即認為它們出現的可能性大小相等。於是這樣就可按風險型情況下的方法進行決策。