1. 漢字輸入編碼可分幾類各有何特點
漢字輸入編碼可分5類,特點如下:
1、整字輸入法:
前一階段,一般是將三四千個常用漢字排列在一個具有三四百個鍵位的大鍵盤上。大多是將這些漢字按XY坐標排列在一張字表上,通常叫「字表法」,或「筆觸字表法」。
比如,X25行和Y90列交叉的字為「國」,當電筆點到字表上的「國」字時,機器自動將該字的代碼2590輸入。鍵盤上或字表中字按部首或按音序或按字義聯想而排列。不常用的字作為盤外字或表外字,另行編碼處理。
2、字形分解法:
將漢字的形體分解成筆畫或部件,按一定順序輸進機器。筆畫一般分成 8種:橫一、豎(丨)、撇(丿)、點(丶)、折(□)、彎(□)、叉十、方(口)。
部件一般歸納出一二百個。由於一般鍵盤上只有42個鍵(包括數字和標點),容納不下這么多部件,因而有人設計中鍵盤,也有人利用部件形體上的相似點或出現概率的不同,而把100多個部件分布在26個字母鍵上。
3、字形為主、字音為輔的編碼法:
這種編碼法與字形分解法的不同在於還要利用某些字音信息。如有的方案為了簡化編碼規則,縮短碼長,在字形碼上附加字音碼,有的方案為了採用標准英文電傳機,將分解歸納出來的字素通過關系字的讀音轉化為拉丁字母。
4、全拼音輸入法:
絕大多數是以現行的漢語拼音方案為基礎進行設計。關鍵問題是區分同音字,因而有的方案提出「以詞定字」的方法,還有的方案提出「拼音-漢字轉換法」,即「漢語拼音輸入 ──機內軟體變換(實為查機器詞表)──漢字輸出」系統。
5、拼音為主、字形為輔的編碼法:
一般在拼音碼前面或後面再添加一些字形碼。拼音碼有用現行漢語拼音方案或稍加簡化的,還有的為了縮短碼長而把聲母和韻母都用單字母或單字鍵表示的「雙拼方案」或「雙打方案」。
如F鍵既表聲母F,又表韻母ang,連擊兩下,便是Fang「方」字。區分同音字的字形碼也多種多樣。除了大部分採用偏旁部首的信息外,還有採用起末筆或採用語義類別的。
(1)漢字編碼方法有哪些擴展閱讀:
漢字編碼研究的趨勢:
1、混合式編碼法。筆觸字表示法中除整體字之外,增加一些部件或字元,可以解決盤外字問題,甚至能具有字形分解法的全部優點。而筆畫方案為了提高速度,一般也增加一些部件或整字。
2、充分利用簡碼和詞彙碼。這樣可以提高輸入速度。因而人們為少量出現頻率高的字或詞設計了單字母和雙字母的簡碼。
詞彙碼也是提高速度的手段。有一種形碼方案的詞彙碼是根據每個字的部件規定的,如「漢字編碼」的詞彙碼是43、45、55、13(氵冖糹石)。另一種形碼方案的詞彙碼是利用計算機引導方式輸入的。
例如,當「中」字輸入後,一按語詞鍵,屏幕上便顯示出「中國」、「中型」、「中性」、「中華」等雙音詞;選擇「中國」後,如再按一下語詞鍵,便可顯示出「(中國)話」、「(中國)人民」、「(中國)共產黨、」、「(中國)工農紅軍」等詞或片語。
音碼方案的詞彙碼實際上為片語碼,如 ZRG「中華人民共和國」,ZZXY「中國中文信息研究會」。詞彙碼不僅能提高速度,而且也能區別同碼。但是,如果用得太多,也會產生重碼。因此,有必要劃分通用詞彙碼和專業詞彙碼,以減少重碼。
3、充分發揮「電腦」的作用,盡量減少「人腦」的負擔。上述計算機引導輸入法就是一例。還有的方案不斷以開窗口方式向操作員提供選擇的范圍。這樣,操作員不必再記憶大量的編碼規則。
2. 漢字的三大編碼
三大編碼???
不止三種把??
漢字的編碼體系主要有以下幾種:
⑴ 國標、區位、「准國標」
國標是將七千餘個漢字以及標點符號、外文字母等,排成一個94行、94列的方陣。方陣中每一橫行稱為一個「區」,每個區有94個「位」。一個漢字在方陣中的坐標,稱為該字的區位碼。為了與美標(ASCII)的形象碼的范圍重合,出現了「國標碼」,即將區位碼的兩個十進制數都加上32,得到該漢字的國標碼。
當需要區分國標碼和美標碼時,出現了「准國標」,即將國標碼的兩個數字各加上128,而把原來的國標碼稱為「純國標」。
⑵ GBK
GBK碼是GB碼的擴展字元編碼,對多達兩萬多的簡繁漢字進行了編碼。
⑶ BIG5碼
BIG5碼是針對繁體漢字的漢字編碼。
⑷ HZ碼
HZ碼是在Internet上廣泛使用的一種漢字編碼,它是以「純國標」的中文與美標碼混用為方案。
⑸ ISO 2022 CJK碼
這是國際標准組織為各種語言字元制定的編碼標准。CJK是中、日、韓語的合稱。它主要在Internet中使用。
⑹ UCS和ISO 10646
UCS是由ISO 10646定義的,是其他字元集標準的一個超集,保證與其他字元集是雙向兼容的,它包含了所有已知語言的字元。
⑺ Unicode
Unicode提供一種統一的字元標識方法,它是16位編碼的,具備世界各地計算機與出版行業所用字元的全部代碼。而且它的產生是以各個國家或國標字元編碼為基礎的。目前,Unicode在網路、Windows系統和很多大型軟體中得到應用。
建議你去圖書館找些書查查,書本會介紹得很清楚的,嘿嘿.
3. 漢字涉及到幾種編碼
漢字在計算機上的編碼主要有三種:輸入碼、機,內碼和輸出碼,1.用於輸入的漢字的編碼——輸入碼(外碼)
計算機上輸入漢字的方法很多,如鍵盤編碼輸入、語音輸入、手寫輸入、掃描輸入等,其中鍵盤編碼輸入是最容易實現和最常用的一種漢字輸入方法。英文等可以用鍵盤上的每個字母鍵來輸入,而輸入漢字則不同,不可能用有限的按鍵來對應每一個漢字,為了讓用戶能直接使用英文鍵盤輸入漢字,於是就有了輸入漢字時使用的漢字輸入碼,它一般由鍵盤上的字母或數字組成,代表某個漢字或某些漢字、片語或句子。當前用於漢字輸入的編碼方案很多,如區位碼、拼音碼、王碼(五筆字型)、自然碼等。
2.用於儲存漢字的編碼——機內碼(內碼)
由於漢字輸入碼的編碼方案多種多樣,同一個漢字如果採用的編碼方案不一樣,其輸入碼就有可能不一樣。如果計算機內部存放的是漢字輸入碼本身,就會造成相同漢字在機內可以用不同的編碼表示,這樣顯然不合理,也給計算機內部的漢字處理增加了難度。為了將漢字的各種輸入碼在計算機內部統一起來,就引進了漢字的機內碼。
3.用於輸出漢字的編碼——輸出碼(字型碼)
存儲在計算機內的漢字在屏幕上顯示或在列印機上列印出來時,必須以漢字字形輸出,才能被人們所接受和理解。漢字的輸出碼實際上是漢字的字型碼,它是由漢字的字模信息所組成的。漢字是一種象形文字,每個漢字東可以看成一個特定的圖形,這種圖形可以用點陣、向量等方式表示,而最基本的是用點陣表示。所謂點陣方式,就是將漢字分解成由若干個「點」??組成的點陣字型,將此點陣字型至於網狀方格上,每個方各試點陣中的一個「點」。
4. 漢字常用的編碼有哪幾種呢
由此可見,漢字的輸入編碼、漢字內碼、字模碼是計算機中用於輸入、內部處理、輸出三種不同用途的編碼 這是我的回答,希望對你有幫助。
5. 漢字的編碼有幾種各有什麼用途
漢字的編碼分為外碼、交換碼、機內碼、字形碼和地址碼。具體用途如下:
1、外碼(輸入碼)
外碼也叫輸入碼,是用來將漢字輸入到計算機中的一組鍵盤符號。常用的輸入碼有拼音碼、五筆字型碼、自然碼、表形碼、認知碼、區位碼和電報碼等,一種好的編碼應有編碼規則簡單、易學好記、操作方便、重碼率低、輸入速度快等優點,每個人可根據自己的需要進行選擇。
2、交換碼(國標碼)
計算機內部處理的信息,都是用二進制代碼表示的,漢字也不例外。而二進制代碼使用起來是不方便的,於是需要採用信息交換碼。中國標准總局1981年制定了中華人民共和國國家標准GB2312--80《信息交換用漢字編碼字元集--基本集》,即國標碼。
3、機內碼
根據國標碼的規定,每一個漢字都有了確定的二進制代碼,在微機內部漢字代碼都用機內碼,在磁碟上記錄漢字代碼也使用機內碼。
4、漢字的字形碼
字形碼是漢字的輸出碼,輸出漢字時都採用圖形方式,無論漢字的筆畫多少,每個漢字都可以寫在同樣大小的方塊中。通常用16×16點陣來顯示漢字。
5、漢字地址碼
漢字地址碼是指漢字型檔中存儲漢字字形信息的邏輯地址碼。它與漢字內碼有著簡單的對應關系,以簡化內碼到地址碼的轉換。
(5)漢字編碼方法有哪些擴展閱讀
1、機器自動識別漢字:計算機通過「視覺」裝置(光學字元閱讀器或其他),用光電掃描等方法識別漢字。
2、通過語音識別輸入:計算機利用人們給它配備的「聽覺器官」,自動辨別漢語語音要素,從不同的音節中找出不同的漢字,或從相同音節中判斷出不同漢字。
3、通過漢字編碼輸入:根據一定的編碼方法,由人藉助輸入設備將漢字輸入計算機。
6. 漢字編碼有哪些
漢字的編碼體系主要有以下幾種:
⑴ 國標、區位、「准國標」
國標是將七千餘個漢字以及標點符號、外文字母等,排成一個94行、94列的方陣。方陣中每一橫行稱為一個「區」,每個區有94個「位」。一個漢字在方陣中的坐標,稱為該字的區位碼。為了與美標(ASCII)的形象碼的范圍重合,出現了「國標碼」,即將區位碼的兩個十進制數都加上32,得到該漢字的國標碼。
當需要區分國標碼和美標碼時,出現了「准國標」,即將國標碼的兩個數字各加上128,而把原來的國標碼稱為「純國標」。
⑵ GBK
GBK碼是GB碼的擴展字元編碼,對多達兩萬多的簡繁漢字進行了編碼。
⑶ BIG5碼
BIG5碼是針對繁體漢字的漢字編碼。
⑷ HZ碼
HZ碼是在Internet上廣泛使用的一種漢字編碼,它是以「純國標」的中文與美標碼混用為方案。
⑸ ISO 2022 CJK碼
這是國際標准組織為各種語言字元制定的編碼標准。CJK是中、日、韓語的合稱。它主要在Internet中使用。
⑹ UCS和ISO 10646
UCS是由ISO 10646定義的,是其他字元集標準的一個超集,保證與其他字元集是雙向兼容的,它包含了所有已知語言的字元。
⑺ Unicode
Unicode提供一種統一的字元標識方法,它是16位編碼的,具備世界各地計算機與出版行業所用字元的全部代碼。而且它的產生是以各個國家或國標字元編碼為基礎的。目前,Unicode在網路、Windows系統和很多大型軟體中得到應用。
建議你去圖書館找些書查查,書本會介紹得很清楚的,嘿嘿.
7. 漢字編碼有哪些類型,各有什麼特點
漢字編碼有五種類型,分別是整字輸入法、字形分解法、字形為主字音為輔的編碼法、拼音為主字形為輔的編碼法、全拼音輸入法。具體特點如下:
1、整字輸入法
將三四千個常用漢字排列在一個具有三四百個鍵位的大鍵盤上;一字一格(鍵),無重碼,直觀性好,操作簡單;但需特製鍵盤,速度較慢。
2、字形分解法
漢字的形體分解成筆畫或部件,按一定順序輸進機器;按形取碼,不涉及字音,因而不認識的字也同樣可以編碼輸入;漢字形體結構非常復雜,寫法也有許多差異,分解標准不易統一。
3、字形為主、字音為輔的編碼法
要利用某些字音信息,如有的方案為了簡化編碼規則,縮短碼長,在字形碼上附加字音碼;有的方案為了採用標准英文電傳機,將分解歸納出來的字素通過關系字的讀音轉化為拉丁字母。
4、全拼音輸入法
以現行的漢語拼音方案為基礎進行設計;操作簡捷,可以「盲打」,不受漢字簡化、字形改變的影響,符合拼音化方向,並且還便於作進一步信息處理。
5、拼音為主、字形為輔的編碼法
在拼音碼前面或後面再添加一些字形碼,拼音碼有用現行漢語拼音方案或稍加簡化的,還有的為了縮短碼長而把聲母和韻母都用單字母或單字鍵表示的「雙拼方案」或「雙打方案」;除了大部分採用偏旁部首的信息外,還有採用起末筆或採用語義類別的。
(7)漢字編碼方法有哪些擴展閱讀:
定型標准
1、定型化
編碼方案的定型化,即一般所說的選優工作,對計算機的普及應用非常重要。當然,定型或選優並不意味著只定一種或只選一種,而要照顧到多種用戶的需要。
2、標准化
1981年,國家標准局公布了《信息交換用漢字編碼字元集基本集》(簡稱漢字標准交換碼),共分兩級,一級3755個字,二級3008個字,共6763個字。這種漢字標准交換碼可以為各種輸入輸出設備的設計提供統一的標准,使各種系統之間的信息交換有共同一致性。
8. 什麼是漢字編碼
每天,我們都窩在格子間里噼里啪啦敲代碼敲到脫發,對代碼我們是再熟悉不過的老朋友了。
但不知道小夥伴們有沒有想過這樣一個問題:
那些讓我們「英年早禿」的代碼,到底是怎麼來的呢?
今天,麗斯老師就帶大家看看,這個讓我們愛恨兩難的「老朋友」究竟是何方神聖。
什麼是編碼?
編碼,是信息從一種形式或格式轉換為另一種形式的過程,簡單來講就是語言的翻譯過程。
我們都知道計算機使用的是機器語言即二進制碼,相信大部分人都無法流暢的閱讀二進制碼。
於是為了能夠讓人類更好的理解計算機輸出的結果就需要將機器語言轉換為自然語言。
比如英語、俄語和中文等。
這看似簡單的語言轉換過程,隨著計算機的普及,與互聯網化對語言字元的編碼沖擊也越來越大。
編碼規范的調整也伴隨著整個計算機發展歷史在逐步完善,甚至「愈演愈烈」。
UTF-8又是什麼
Unicode確實是一套能夠滿足全球使用的字元集,但是難道真的需要每一個字元都佔用4個位元組嗎?
雖然現在的存儲空間已經足夠大了,但是4個位元組一個字元的方式還是很不明智的。
比如字元「A」二進制碼01000001卻需要以的方式存儲。
這一定不是我們想要的。
於是UTF(Unicode/UCS Transformation Format)應運而生。
UTF是字元編碼五層次模型的第三層,通過特定的規則對Unicode字元編碼進行一定的壓縮和轉換以便快捷傳輸。
UTF的代表就是UTF-16和UTF-8。
千萬不要以為UTF-16比UTF-8更厲害能夠容納更多字元。
字元容納數量都是是Unicode編碼集所確定的范圍,UTF只是通過不同的轉換形式更快更高效的找到特定字元。
而UFT-16 比較奇葩,它使用 2 個或者 4 個位元組來存儲。
對於 Unicode 編號范圍在 0 ~ FFFF 之間的字元,UTF-16 使用兩個位元組存儲,並且直接存儲 Unicode 編號,不用進行編碼轉換,這跟 UTF-32 非常類似。
對於 Unicode 編號范圍在 10000~10FFFF 之間的字元。
UTF-16 使用四個位元組存儲,具體來說就是:
將字元編號的所有比特位分成兩部分。
較高的一些比特位用一個值介於 D800~DBFF 之間的雙位元組存儲。
較低的一些比特位(剩下的比特位)用一個值介於 DC00~DFFF 之間的雙位元組存儲。
設計UTF-8編碼表達方式的理由:
1、單位元組字元的最高有效比特永遠是0(大家可以看看其他編碼方式如何別扭的兼容ASCII碼的);
2、多位元組序列中的首個字元組的幾個最高有效比特決定了序列的長度。最高有效位為110的是2位元組序列,而1110的是三位元組序列,如此類推;
3、多位元組序列中其餘的位元組中的首兩個最高有效比特為10。
轉換關系如下圖:
這樣我們根據所要兼容的語言不同根據UTF-8多位元組最高有效比特,去判斷編碼最終使用了多少個位元組來存儲。
其餘的位元組也都滿足最高有效比特為10的特點有了一定的糾錯功能。
簡單一些理解就是UTF-16就是通過2個位元組16位來控制壓縮比例。
而UTF-8已經以高精度的1個位元組8位來控制壓縮比例了。
當然還有中UTF-32就可想而知,基本跟Unicode如出一轍。
9. 漢字輸入編碼有4種方式,哪一種的編碼方式是固定的
數字編碼方式是固定的。
漢字編碼方案的一種,可歸結為下列幾種類型:
1、漢字拼音編碼。以漢語拼音為基礎的漢字輸入編碼,在漢語拼音鍵盤或經過處理的西文鍵盤上,根據漢字讀音直接鍵入拼音。
2、漢字字形編碼。所有的漢字都由橫、豎、撇、點、折、彎有限的幾種筆劃構成,並且又可分為『左右』、『上下』、『包圍』、『單體』有限的幾種構架,每種筆劃都賦予一個編碼並規定選取字形構架的順序。
不同的漢字因為組成的筆劃和字形構架不同,就能獲得一組不同的編碼來表達一個特定的漢字,廣泛使用的『五筆字形』就屬於這一種。
3、漢字直接數字編碼。利用一串數字表示一個漢字,電報碼就屬於這種。
4、整字編碼。設置漢字整字大鍵盤,每個漢字佔一個鍵,類似中文列印機,操作人員選取漢字,機器根據所選漢字在盤面上的位置將其對應編碼送入計算機。
(9)漢字編碼方法有哪些擴展閱讀
大多數數字編碼採用位置表示法,即任何一個數字量都可以通過一些數字的和來表示。根據這些數字碼在表示式中所處的不同位置,有不同的值。也就是說,每個不同的位置,都具有自己的「權"。
十進制數據系統為人們最熟悉的數字系統,但是在數據轉換和計算機處理中,使用十進制數據系統是很困難的,甚至是不現實的,這需要使用十個不同的電路狀態分別表示十個數字元號。然而,可以採取許多方法使電路表示出兩種不同的狀態,於是,二進制數據系統得到了廣泛的應用。
對數字數據的數字編碼是指將二進制0/1數字數據變換成具有一定極性、幅度、比特速率,跳變規則的方波波形(數字信號)。
10. 漢字編碼按編碼方法不同,可分為哪四大類
漢字編碼主要分為四大類:漢字輸入碼、漢字交換碼、漢字內碼和漢字字形碼。
(1)漢字的外部碼
漢字的外部碼簡稱外碼,又叫輸人碼,是輸人漢字的一組鍵盤符號。使用不同的輸入方法,同一漢字的外部碼不同。用戶應選用易記憶、操作簡單、位碼少、重碼少和輸人速度快的外碼。
(2)漢字的內部碼
漢字的內部碼又稱漢字內碼或漢字機內碼。機器接收到外碼後,要轉換成內碼進行存儲、運算和傳送。用二個位元組表示漢字的內碼。為了和西文符號區分,內碼的最高位設為「1」。內碼通常用漢字在車庫中的物理位置表示,可以是漢字在字型檔中的序號,也可以是字型檔中的存儲位置。
(3)漢字交換碼
在計算機之間交換信息時,要求傳送的漢字代碼符合國家規定的交換碼標准,即符合GB2312-80信息交換用漢字編碼集,又稱為國標碼。國標碼收集了7445個圖形字元,其中有6763個漢字和各種符號709個。
國標碼規定,每個漢字用兩個位元組表示,每個位元組僅用低7位,最高位為0。漢字的國標碼和內碼有—一對應關系,即將高位加l,國標碼就變為內碼。
(4)漢字字形碼
在顯示或列印漢字時,還涉及到字形碼,又稱輸出碼。漢字字形是指原來鉛字排版漢字的大小和形狀,在計算機中指組成漢字的點陣。盡管漢字字形有多種變化,筆畫繁簡不一,但都是方塊字且大小相同,都可以寫在同樣的方塊中。把一個方塊看成m行n列矩陣,共有m×n個點,稱為漢字點陣。如16×16點陣的漢字,共有256個點
漢字點陣和字形的對應關系是,有筆畫處的點為1,無筆畫處的點為0。這樣,漢字的點陣可以對應若干位元組長的字形碼。這種表示漢字點陣的方法稱為漢字字形的數字化表示法。