語音識別成文字有兩種方法,如下:
方法一:
windows 7系統自帶語音識別功能。
1、點擊,進入「控制面板」。
2、 點擊「輕松訪問」。
3、點擊「啟動語音識別」那幾個較小的字。
4、點擊下一步,選擇麥克風類型,再下一步,最後選「啟用文檔審閱」。
5、使用手動激活模式。啟動過程中可以看頁面上的教程。
方法二:
就是採用ocr文字識別工具中的語音識別功能來識別語音,就以「迅捷ocr文字識別」為例,參考方法如下:
首先,打開ocr文字識別,點擊上面「語音識別」功能;
接著,點擊「添加文件」;
然後,點擊「開始識別」;
最後,點擊右下角的「保存為TXT」。
好了,以上就是語音識別成文字的全部方法,希望上面的方法可以幫助到您。
㈡ 語音識別技術的基本方法
一般來說,語音識別的方法有三種:基於聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網路的方法。 該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由於其模型及語音知識過於復雜,現階段沒有達到實用的階段。
通常認為常用語言中有有限個不同的語音基元,而且可以通過其語音信號的頻域或時域特性來區分。這樣該方法分為兩步實現:
第一步,分段和標號
把語音信號按時間分成離散的段,每段對應一個或幾個語音基元的聲學特性。然後根據相應聲學特性對每個分段給出相近的語音標號
第二步,得到詞序列
根據第一步所得語音標號序列得到一個語音基元網格,從詞典得到有效的詞序列,也可結合句子的文法和語義同時進行。 模板匹配的方法發展比較成熟,目前已達到了實用階段。在模板匹配方法中,要經過四個步驟:特徵提取、模板訓練、模板分類、判決。常用的技術有三種:動態時間規整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術。
1、動態時間規整(DTW)
語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特徵訓練和識別的基礎。所謂端點檢測就是在語音信號中的各種段落(如音素、音節、詞素)的始點和終點的位置,從語音信號中排除無聲段。在早期,進行端點檢測的主要依據是能量、振幅和過零率。但效果往往不明顯。60年代日本學者Itakura提出了動態時間規整演算法(DTW:DynamicTimeWarping)。演算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特徵與模型特徵對正。
2、隱馬爾可夫法(HMM)
隱馬爾可夫法(HMM)是70年代引入語音識別理論的,它的出現使得自然語音識別系統取得了實質性的突破。HMM方法現已成為語音識別的主流技術,目前大多數大詞彙量、連續語音的非特定人語音識別系統都是基於HMM模型的。HMM是對語音信號的時間序列結構建立統計模型,將之看作一個數學上的雙重隨機過程:一個是用具有有限狀態數的Markov鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態相關聯的觀測序列的隨機過程。前者通過後者表現出來,但前者的具體參數是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據語法知識和言語需要(不可觀測的狀態)發出的音素的參數流。可見HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩性和局部平穩性,是較為理想的一種語音模型。
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用於小詞彙量、孤立詞的語音識別中。其過程是:將語音信號波形的k個樣點的每一幀,或有k個參數的每一參數幀,構成k維空間中的一個矢量,然後對矢量進行量化。量化時,將k維無限空間劃分為M個區域邊界,然後將輸入矢量與這些邊界進行比較,並被量化為「距離」最小的區域邊界的中心矢量值。矢量量化器的設計就是從大量信號樣本中訓練出好的碼書,從實際效果出發尋找到好的失真測度定義公式,設計出最佳的矢量量化系統,用最少的搜索和計算失真的運算量,實現最大可能的平均信噪比。
核心思想可以這樣理解:如果一個碼書是為某一特定的信源而優化設計的,那麼由這一信息源產生的信號與該碼書的平均量化失真就應小於其他信息的信號與該碼書的平均量化失真,也就是說編碼器本身存在區分能力。
在實際的應用過程中,人們還研究了多種降低復雜度的方法,這些方法大致可以分為兩類:無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級矢量量化。 利用人工神經網路的方法是80年代末期提出的一種新的語音識別方法。人工神經網路(ANN)本質上是一個自適應非線性動力學系統,模擬了人類神經活動的原理,具有自適應性、並行性、魯棒性、容錯性和學習特性,其強的分類能力和輸入-輸出映射能力在語音識別中都很有吸引力。但由於存在訓練、識別時間太長的缺點,目前仍處於實驗探索階段。
由於ANN不能很好的描述語音信號的時間動態特性,所以常把ANN與傳統識別方法結合,分別利用各自優點來進行語音識別。