『壹』 哈夫曼編碼的原理是什麼
霍夫曼(Huffman)編碼屬於碼詞長度可變的編碼類,是霍夫曼在1952年提出的一種編碼方法,即從下到上的編碼方法。同其他碼詞長度可變的編碼一樣,可區別的不同碼詞的生成是基於不同符號出現的不同概率。
『貳』 哈夫曼編碼的編碼方法怎樣
哈夫曼編碼是一種編碼方式,是可變字長編碼(VLC)的一種。
以哈夫曼樹—即最優二叉樹,帶權路徑長度最小的二叉樹,經常應用於數據壓縮。 在計算機信息處理中,「哈夫曼編碼」是一種一致性編碼法(又稱"熵編碼法"),用於數據的無損耗壓縮。這一術語是指使用一張特殊的編碼表將源字元(例如某文件中的一個符號)進行編碼。這張編碼表的特殊之處在於,它是根據每一個源字元出現的估算概率而建立起來的(出現概率高的字元使用較短的編碼,反之出現概率低的則使用較長的編碼,這便使編碼之後的字元串的平均期望長度降低,從而達到無損壓縮數據的目的)。這種方法是由David.A.Huffman發展起來的。 例如,在英文中,e的出現概率很高,而z的出現概率則最低。當利用哈夫曼編碼對一篇英文進行壓縮時,e極有可能用一個位(bit)來表示,而z則可能花去25個位(不是26)。用普通的表示方法時,每個英文字母均佔用一個位元組(byte),即8個位。二者相比,e使用了一般編碼的1/8的長度,z則使用了3倍多。倘若我們能實現對於英文中各個字母出現概率的較准確的估算,就可以大幅度提高無損壓縮的比例。
『叄』 信息編碼的基本方法有哪些
1、ASCII碼
學過計算機的人都知道ASCII碼,總共有128個,用一個位元組的低7位表示,0~31是控制字元如換行回車刪除等;32~126是列印字元,可以通過鍵盤輸入並且能夠顯示出來。
2、ISO-8859-1
128個字元顯然是不夠用的,於是ISO組織在ASCII碼基礎上又制定了一些列標准用來擴展ASCII編碼,它們是ISO-8859-1~ISO-8859-15,其中ISO-8859-1涵蓋了大多數西歐語言字元,所有應用的最廣泛。ISO-8859-1仍然是單位元組編碼,它總共能表示256個字元。
3、GB2312
它的全稱是《信息交換用漢字編碼字元集基本集》,它是雙位元組編碼,總的編碼范圍是A1-F7,其中從A1-A9是符號區,總共包含682個符號,從B0-F7是漢字區,包含6763個漢字。
4、GBK
全稱叫《漢字內碼擴展規范》,是國家技術監督局為windows95所制定的新的漢字內碼規范,它的出現是為了擴展GB2312,加入更多的漢字,它的編碼范圍是8140~FEFE(去掉XX7F)總共有23940個碼位,它能表示21003個漢字,它的編碼是和GB2312兼容的,也就是說用GB2312編碼的漢字可以用GBK來解碼,並且不會有亂碼。
5、GB18030
全稱是《信息交換用漢字編碼字元集》,是我國的強制標准,它可能是單位元組、雙位元組或者四位元組編碼,它的編碼與GB2312編碼兼容,這個雖然是國家標准,但是實際應用系統中使用的並不廣泛。
6、UTF-16
說到UTF必須要提到Unicode(UniversalCode統一碼),ISO試圖想創建一個全新的超語言字典,世界上所有的語言都可以通過這本字典來相互翻譯。可想而知這個字典是多麼的復雜,關於Unicode的詳細規范可以參考相應文檔。Unicode是Java和XML的基礎,下面詳細介紹Unicode在計算機中的存儲形式。
UTF-16具體定義了Unicode字元在計算機中存取方法。UTF-16用兩個位元組來表示Unicode轉化格式,這個是定長的表示方法,不論什麼字元都可以用兩個位元組表示,兩個位元組是16個bit,所以叫UTF-16。UTF-16表示字元非常方便,每兩個位元組表示一個字元,這個在字元串操作時就大大簡化了操作,這也是Java以UTF-16作為內存的字元存儲格式的一個很重要的原因。
『肆』 哈夫曼編碼(Huffman編碼)
Huffman編碼又稱霍夫曼編碼,是一種編碼方式,哈夫曼編碼是可變[字長]編碼(VLC)的一種。Huffman於1952年提出一種編碼方法,該方法完全依據[字元]出現概率來構造異字頭的平均長度最短的碼字,有時稱之為最佳編碼,一般就叫做Huffman編碼(有時也稱為霍夫曼編碼)。
假設4個字元出現頻次不同,具體如下:
上面那個例子可以按照上面的演算法邏輯進行編碼,得到的總長度為
70×1+3×3+20×3+37×2=213Mbit
『伍』 請各位大蝦提供以下具體的霍夫曼編碼方法,要有具體說明和例題~~~
屬於數字壓縮編碼技術:
霍夫曼編碼是可變字長編碼(VLC)的一種。 Huffman於1952年提出一種編碼方法,該方法完全依據字元出現概率來構造異字頭的平均長 度最短的碼字,有時稱之為最佳編碼,一般就叫作Huffman編碼。下面引證一個定理,該定 理保證了按字元出現概率分配碼長,可使平均碼長最短。
� 定理:在變字長編碼中,如果碼字長度嚴格按照對應符號出現的概率大小逆序排列,則其平 均碼字長度為最小。
� 現在通過一個實例來說明上述定理的實現過程。設將信源符號按出現的概率大小順序排列為 : �
U: ( a1 a2 a3 a4 a5 a6 a7 )
0.20 0.19 0.18 0.17 0.15 0.10 0.01
� 給概率最小的兩個符號a6與a7分別指定為「1」與「0」,然後將它們的概率相加再與原來的 a1~a5組合並重新排序成新的原為:
U′: ( a1 a2 a3 a4 a5 a6′ )
0.20 0.19 0.18 0.17 0.15 0.11
� 對a5與a′6分別指定「1」與「0」後,再作概率相加並重新按概率排序得
U〃:(0.26 0.20 0.19 0.18 0.17)…
� 直到最後得 U〃〃:(0.61 0.39)
� 分別給以「0」,「1」為止,如圖4-4所示。}
� 霍夫曼編碼的具體方法:先按出現的概率大小排隊,把兩個最小的概率相加,作為新的概率 和剩餘的概率重新排隊,再把最小的兩個概率相加,再重新排隊,直到最後變成1。每次相 加時都將「0」和「1」賦與相加的兩個概率,讀出時由該符號開始一直走到最後的「1」, 將路線上所遇到的「0」和「1」按最低位到最高位的順序排好,就是該符號的霍夫曼編碼。
� 例如a7從左至右,由U至U〃〃,其碼字為0000;
� a6按踐線將所遇到的「0」和「1」按最低位到最高位的順序排好,其碼字為0001…
� 用霍夫曼編碼所得的平均比特率為:∑碼長×出現概率
� 上例為:� 0.2×2+0.19×2+0.18×3+0.17×3+0.15×3+0.1×4+0.01×4=2.72 bit
� 可以算出本例的信源熵為2.61bit,二者已經是很接近了。
『陸』 指令編碼方式有哪幾種
三種,直接表示法,編碼表示法,混合表示法
2. 編碼表示法是將微指令進行分組編碼,將不同時出現的相斥信號分在一個組中,然後將其編碼成較短的代碼。這種方法減少了控制存儲器所需要的存儲器的代碼的數量,但是編碼的指令代碼需要解碼器解碼,增加了控制信號的延遲,影響CPU的工作頻率。
3. 混合表示法是把直接表示法與編碼方法相結合使用,即採用部分直接表示部分編碼的方法,將一些速度要求較高,或與其他控制信號都相容的控制信號以直接方式表示,而將剩餘信號以編碼方式。混合表示法便於綜合考慮指令字長、靈活性和執行速度方面的要素。