A. 參數的選擇
在支持向量機方法中,要選擇的參數主要有懲罰系數C、核函數參數g和不敏感損失函數參數ε。對於C和核函數參數g的選擇可採用交叉驗證(crossvalidation)和網格搜索(gride searching)方法,這樣可以選擇符合實際情況的最優參數。徑向基核函數為:
基坑降水工程的環境效應與評價方法
其中σ為徑向基函數的寬度,令γ=1/2σ2(γ>0),則核函數就化為下式:
基坑降水工程的環境效應與評價方法
在考慮訓數據有噪音的情況時,使用一個懲罰因子C,用來控制經驗風險。要純型確定的參數為徑向基函數的γ值以及懲罰程度的常數C值。在實際問題中,最佳參數C、γ值是未知的,故為了達到准確分類或回歸測試數據的目的,需要去搜索最佳參數。交叉驗證:就是將數據首先分成n個同樣大小數量的互不相交的子集。先用n-1個子集作為訓練樣本,預測那個沒有參加訓練的子集。這樣一個接一個,進行n次。這樣全部數據中的每個樣本點都被預測了一遍,准確率是比較穩定的。
網格搜索是交叉確敬悄認的一種方法。即嘗試所有的參數對(C,γ),計算其交叉確認正確度,挑出最佳參數對的過程。首先選定一組(C,γ)的范圍C=(2-5,2-4…215),和γ=(2-15,2-12…23),每一參數對(C,γ)相互獨立,ε可取0.005~0.5之間的值。為確保SVM模型有優良的預測性能,並考慮到回歸性能分亮褲渣析的結論:不敏感系數ε可控制模型的泛化推廣能力,懲罰因子C可控制擬合曲線復雜性,核函數寬度系數σ可影響回歸曲線的光滑程度。從大量的實驗分析比較可知,最終選定取如下值:C=0.01,g=10000,σ=0.01。