Ⅰ 第三章 語音信號特徵分析
語音合成音質的好壞,語音識別率的高低,都取決於對語音信號分析的准確度和精度。例如,利用線性預測分析來進行語音合成,其先決條件是要用線性預測方法分析語音庫,如果線性預測分析獲得的語音參數較好,則用此參數和成的語音音質就較好。例如,利用帶通濾波器組法來進行語音識別,其先決條件是要弄清楚語音共振峰的幅值,個數,頻率范圍及其分布情況。
語音信號特徵的分析可以分為時域,頻域和倒譜域。
時域分析簡單直觀,清晰易懂,物理意義明確。
更多有效的分析是圍繞頻域進行的,因為語音中最重要的感知特性反應在其功率譜中,其相位變化只起著很小的作用。
常用頻域分析有帶通濾波器組,傅里葉變換法和線性預測分析法。頻譜具有很明顯的聲學特性,利用頻域分析獲得的特徵具有實際的物理意義,如共振峰參數,基音參數周期等。
倒譜域是對對數功率譜進行傅里葉反變換得到的,可以將聲道特性和激勵特性有效的分開,更好的揭示語音信號的本質特徵。
可以將語音信號分析分為模型分析法和非模型分析法兩種。模型分析法是指依據語音信號產生的數學模型,來分析和提取表徵這些模型的特徵參數;共振峰模型分析法和線性預測都術語這種方法。凡不進行模型化分析的其他方法都屬於非模型分析法,包括上面提到的時域分析法,頻域分析法及同態分析法。
貫穿語音信號分析全過程的是「短時分析技術」。短時間內特性基本保持不變,相對穩定,准穩態過程。10~30ms內保持相對平穩。
實際信號常有一些低能量的信號分量超過采樣頻率的一半,如濁音的頻譜超過4khz的分量至少比峰值低40db,而清音,超過8khz,頻率分量也沒有顯著下降,因此語音信號所佔的頻率范圍可以達到10khz以上,但對語音清晰度的有明顯影響部分的最高頻率為5.7kHZ左右。
電話系統為8kHZ,而時間中,采樣頻率為8-10kHZ,而語音合成或者語音識別,獲得更高的質量,采樣頻率一般為15——20kHZ。
在一般的識別系統中,采樣率最高為16kHZ,當繼續增加采樣率是,識別率幾乎沒有增加。
量化: 有三種方式,零記憶量化,分組量化和序列量化。
假設語音信號在10~30ms內是平穩的,後面所有的分析都是在這個假設下進行的。
為了得到短時的語音信號,要對語音信號進行加窗的操作,窗函數平滑的在語音信號上滑動,將語音信號分成幀。分幀可以連續,也可以採用交疊分段,交疊部分稱為幀移,一般為窗長的一般。
加窗時,不同窗口將影響到語音信號分析的結果
窗的長度對能否反映語音信號的幅度變化起決定性作用。如果N特別大,即等於幾個基因周期量級,則窗函數等效於很窄的低通濾波器,此時信號短時信息將緩慢的變化,因而不能充分反映波形變化的細節。如果N特別小,即等於或小於一個基因周期的量級,則信號的能量將按照信號波形的細微狀況而很快的啟發,但如果N太小,濾波器的通帶變寬,則不能獲得平滑的短時信息,因此窗口的長度要選擇合適。窗的衰減基本與窗的持續時間無關,因此當改變寬度N時,會使帶寬發生變化。
窗口長度是相對於語音信號的汲引周期而言,通常認為一個語音幀內,應含有1~7個基音周期,然而不同人的基音周期變化范圍很大,基音周期的持續時間會從高音的約20個采樣點變化到低音調250個采樣點,這意味著可能需要多個不同的N值,所以N的選擇比較困難,通常在采樣頻率10kHZ的情況,N選擇100~200量級(10~20ms)持續時間是比較合適的。
有聲(V)無聲(S)清音(U)判決。
能夠實現這些判決的依據再於,不同性質的語音各種短時參數具有不同的概率密度函數,以及相鄰的若干幀具有一致的語音特性,不會再S , U, V之間快速變化。
每個語音的輸入起點和重點,利用短時平均幅度參數M和短時過零率可以做到這一點。
濁音情況下短時平均幅度參數的概率密度函數P(M|V)確定一個閾值參數M_H.根據M_H可以確定前後兩個點A_1和A_2 後肯定是語音段,但精確起點,還要仔細查找。
為此,再設定一個較低的閾值參數M_L, 然後確定B_1 和 B_2, 從這兩個點之後用短時過零率搜索。 清音的過零率高於無聲段,但是能量低。
但是在研究結果中表明,利用短時平均過零率區分無聲和清音在有些情況下不是很可靠,由於清音的強度會比無聲段高一下,將門限提高一些對清音的影響不大,但在沒有背景雜訊的情況下,無聲段將不會穿越這一提高的電平,因為可以正確區分清音和無聲段。
因此採用這種過零率,具有抗干擾能力
濾波器可以是寬頻帶通濾波器,具有平攤的特性,粗略求語音的頻譜,頻率解析度低,可以是窄帶濾波器,頻率解析度較高。
現在一般都在用數字濾波器,其中如何將模擬濾波器數字化,涉及到零點極點的內容,需要參考DSP的內容。極點波峰,零點波谷。
為窗口函數。
兩種方式來理解物理意義
在實際計算時,一般用離散傅里葉變換代替連續傅里葉變換,則需要對信號進行周期延拓。(非周期->連續譜,周期->離散譜),這時候得到的是功率譜 。 如果窗長度為 , 那麼 的長度為 , 如果對 以 進行周期拓展,則自相關就會出現混疊現象,即這個周期的循環相關函數在一個周期中的值就與線性相關 的值不同,這樣得到的功率譜就是一組前采樣,若想得到全部的 個值,可以補充L個零,擴展成2L的信號,並做離散傅里葉變換,這時的循環相關與現行相關是等價的。( 後面這句話對我來說暫時是天書 )
在對窗函數的分析中,我們知道對於任何一個窗函數都存在旁瓣效應,這時候有諧波效應。
語譜圖的時間解析度和頻率解析度是由所採用的窗函數決定的。假設時間固定,對信號乘以窗函數相當於在頻域用窗函數的頻率響應與信號頻譜的卷積。如果窗函數的頻率響應 的通帶寬度為 ,那麼語譜圖中的頻率解析度的寬度即為 。即卷積的作用將使任何兩個相隔間隔頻率小於 的譜峰合並為一個單峰。對於窗函數而言,通帶寬度與窗長成反比,如果希望頻率解析度高,則窗長應該盡量長一些。
對於時間解析度,假設頻率固定,相當於對時間序列 做低通濾波,輸出信號的帶寬就是 的帶寬b,根據采樣定理,只需要以 的采樣率就可以反映出信號的所有頻率成分,這時候所具有的時間解析度的寬度為 . 因此如果希望時間解析度高,則窗長應該短一些。因此時間解析度和頻率解析度是相互矛盾的,這也是短時傅里葉變換本身固有的缺點。
點評:
1.26新增理解:
這類線性主要有短時傅里葉變換與Gabor變換和小波變換,其中STFT和Gabor變換是一種加窗的傅里葉變換,使用固定大小的時頻網格,時頻網格在時頻變換只限於時間平移和頻率平移,窗函數固定的,只適用於分析帶寬固定的非平穩信號,實際應用中,希望對低頻分析,頻率解析度高,高頻時間解析度高,要求窗函數寬度能隨之頻率變化而變化。小波分析的視頻分析網格變化除了時間平移外,還有時間和頻率軸比例尺度的改變。適用於分析具有固定比例帶寬的非平穩信號。
這類時頻由能量譜或功率譜演化而來,其特點是變換為二次的。雙線性關系可以表示為
其中 為能量譜,而 表示取共軛操作。
點評: 好像沒見過,先跳過。。。。。
在信號分析與信號處理中,信號的「時間中心」及「時間寬度」以及頻率中心與頻率寬度是非常重要的概念,分別說明信號在時域和頻域中心位置在兩個域的擴展情況。
信號再這兩個物理量的測量上有一個重要的約束原則,就是著名的「不確定性原理」。它的意義是,信號波形在頻率軸上的擴張和時間軸上的擴張不可能同時小於某一界限,即若函數 和 構成一堆傅里葉變換,則不可能同時是短寬度的,即
等號成立的充分必要條件是 為高斯函數,即 . 證明,用Cauchy-Schwarts不等式可得。
窗函數為高斯函數的短時傅里葉變換稱為Gabor變換。
是大於0的固定常數。由於 , 因此 . 這表明,信號 的gabor 變換 是對任何 在時間 附近對 傅里葉變換的局部化(在說什麼??),達到了對 的精確分解。
Gabor變換是具有最小時頻窗的短時傅里葉變換。但進一步研究發現,這兩種變換都沒有離散的正交基, 所以沒有像離散傅里葉變換FFT那種快速演算法。而且窗函數固定不變,不能隨著所分析信號的成分是高頻還是低頻做相應的變化。所以這時候有小波變換,能夠自動調節窗口長度。
小波理論採用多解析度的分析的思想,非均勻地劃分時頻空間,為非平穩信號的分析提供了新途徑。
定義: 小波是函數空間 中滿足下述條件的一個函數或者信號
其中 表示全體非零實數, 為 的頻域表示形式。 稱為小波母函數。對於任意實數對,稱如下形式的函數為右小波母函數生成的依賴於參數(a,b)的連續小波函數,稱為小波,其中a必須為非零實數。
的作用是把基本小波 做伸縮, 的作用是確定對 分析的時間位置,也即是實踐中心。 在 的附近存在明顯的波動,而且波動范圍的大小完全依賴於尺度因子 的變化。 時,一致, 時,范圍比原來小波函數 范圍大些,小波的波形變得矮寬,變化越來越緩慢,當 時, 在 附近波動范圍葯效,小波波形尖銳而消瘦。
給定平方可積的信號 ,即 , 則 的小波變換定義為
與傅里葉變換不同,小波變換是一個二元函數。另外,因為母函數 只在原點附近才會有明顯偏離水平軸的移動,遠離原點,迅速衰減為0.
假設小波函數 及傅里葉變換 都滿足窗口函數的要求,他們的窗口中心和半徑分別記為 和 和 和 , 可以證明對於任意任意參數對,連續小波變換和其傅里葉變換都滿足窗口函數的要求,他們的窗口中心和寬度分別為
則時頻窗是平面一個可變的矩形,面積為 . 這個面積只與小波的母函數 有關,與 無關,但形狀隨著a變換。
如果按照線性模型理論,語音信號是由激勵信號和聲道響應卷積產生。解卷就是將各卷積分量分開。解卷演算法分為兩大類,一類稱為「參數解卷」,即線性預測分析,另一類演算法稱為「非參數解卷」,即同態解卷積,對語音信號進行同態分析後,將得到語音信號的倒譜參數,此時同態分析也稱為 倒譜分析或者同態處理。
同態處理是一種較好的解卷積方法,它可以較好的將語音信號中的激勵信號和聲道響應分離,並且只需要用十幾個倒譜系數就能相當好的描述語音信號的聲道特性,因此占很重要的位置。
通常的加性信號可以用線性系統處理,滿足線性疊加原理。然後很多信號是由乘性信號或者卷積信號組合的信號。這樣的信號不能用線性系統處理,得用非線性系統處理。但是非線性系統分析起來困難,同態語音辛哈就是將非線性問題轉換為線性問題處理。語音信號可以看做是聲門激勵信號與聲道響應的卷積結果,所以下面僅討論卷積同態信號的處理問題。
同態語音信號處理的一個通用的系統如圖3-23所示,其符號 表示由卷積組合規則組合起來的空間,即該系統的輸入和輸出都是卷積性信號。同態系統的一個最主要理論結果是同態系統理論分解,分解的目的是用兩個特徵系統和一個線性系統來代替非線性的同態系統。分解的情形如下面所示。
分別對應聲門激勵信號(excitation 和 vocal tract),特徵信號 是將卷積信號轉化為加性信號,這時候進行Z變換,將卷積信號轉化為乘積信號(疑問1),這時候得到的就是頻譜,然後通過對數運算,變成加性信號,但是這個時候是對數頻譜,使用不便。最後再變換回時域信號。
是在倒譜域對信號處理,常見處理方式是將語音聲源信號與聲道信號分離。 在倒譜域,總可以找到一個 ,當 時,聲道濾波器的倒譜為0,當 時,激勵的倒譜接近於0.
如果想再恢復語音信號,用d所示的逆特徵系統運算即可。
MFCC (Mel Frequency cepstrum coefficient),MFCC是將人耳的聽覺感知特性和語音產生機制相結合,因此目前大多數語音識別系統廣泛使用這種特徵。
耳蝸的濾波作用是在對數頻率尺度進行的,在1000Hz以下為線性,在1000Hz以上為對數,這就使得人耳對低頻比高頻更敏感
對頻率軸不均勻劃分是MFCC特徵區別於前面普通倒譜特徵的最重要的特點,變換到Mel域後,Mel帶通濾波器組的中心頻率是按照Mel刻度均勻排列的,實際應用中,MFCC計算過程如下
MFCC有效利用的聽覺特性,因此改變了識別系統的性能,如果倒譜位數增加,對識別性能影響不大。但採用動態特徵,誤識率有20%的下降。
點評2019.01.30:第三四次囫圇吞棗的看完MFCC,即使知道了倒譜,但最後按個離散餘弦變換還是比較不能聯繫上,反正感覺亂亂的吧,包括差分之類的,想被打回哪門語音信號處理課上回爐了,Mark一下,始終有一天會懂其中的深意的。
一 最基本的是傅里葉變換,基於信號的頻率特性進行分析,這個是最經典最基本的方法,關於這個方法網上有很多資料,可以查閱
二小波分析方法,有小波閾值消噪,提取小波系數,對你需要處理的高頻系數做閾值處理,然後重構即可,小波分析方法也是有很多論文和參考資料,建議還是先學習一下基本理論,在傅里葉的基礎上入門不是很難,
三 HHT希爾伯特黃故障分析方法,這個是把故障信號分解為各頻率的子型號的疊加,分析其頻譜特性,頻譜圖上出現尖峰的一般就是故障頻率,
另外還有盲源分離技術, 信號的原子分解方法,這些我只是接觸過,並不理解,最好在網上查閱資料仔細研究,另外還會有好多方法,查閱SCI文獻應該能獲得最新的故障信號分析方法
Ⅲ 常見信號處理過程中的平均方式有哪幾種
一、算術平均濾波法
算術平均濾波法是指對一點數據連續采n個值,然後取其平均值。這種方法能夠濾除一般的隨機干擾信號,使信號變的平滑,但當n值較大時,靈敏度會降低,故n值要視具體情況進行選取。一般情況下取3~5平均即可。
二、滑動平均濾波法
算術平均濾波法每計算一次數據需要採集n次數據,這對於測量數據較慢或要求數據計算速度較快的實時控制系統則無法使用,此時可採用滑動平均濾波法。滑動平均濾波法是把n個采樣值看成一個隊列,隊列是長度為n,每進行一次采樣就把采樣值放入隊尾,而去掉原隊首的一個采樣值,這樣,隊列中就始終有n個「最新」的采樣值,對這n個值進行平均就可以得到新的濾波值。
滑動平均濾波法對周期性的干擾具有較好的抑製作用,但對偶然出現的脈沖性干擾抑製作用差,難以消除由於脈沖干擾而引起的采樣值的偏差。
三、去極值濾波法
算術平均濾波法和滑動平均濾波法都難以消除脈沖干擾所引起的誤差,會將脈沖干擾「平均」到結果中去。在脈沖干擾嚴重的場合可採用去極值平均濾波法。去極值平均濾波法的思想是:連續采樣n個值,找出並去除其中的最大值和最小值,然後對其餘的n-2個值求平均,即可得到有效采樣值。為了使演算法簡單,n通常取偶數,如4,6,8,10等。
四、中位值濾波法
對某一被測信號連續采樣n次,然後把n次采樣值按大小排序,取中間值為本次采樣值。為方便,n一般取奇數。演算法上,則可以採用「冒泡法」來對這n個數據進行排序。中位值濾波法能有效地克服因偶然因素引起的波動干擾,但對於一些快變參數則不宜採用。