常见字符集及编码,常见的字符编码

作者: 网络编程  发布:2019-11-03

     字符编码(立陶宛语:Character encoding卡塔尔国、字集码是把字符聚集的字符编码为钦命集结中某豆蔻梢头对象(例如:比特格局、自然数种类、8位组大概电脉冲卡塔尔,以便文本在微处理机中积攒和通过通讯互连网的传递。熟视无睹的例证包涵将拉丁字母表编码成摩斯电码和ASCII。此中,ASCII将字母、数字和别的符号编号,并用7比特的二进制来表示这些大背头。平常会附加使用一个恢宏的比特,以便于以1个字节的点子存款和储蓄。

基本概念

  • 字符(Character) 是各个文字和标识的总称,富含多个国家家文字、标点符号、图形符号、数字等。
  • 字符集(Character set) 是三个系统扶助的有着抽象字符的汇集。经常以二维表的样式存在,二维表的内容和分寸是由使用者的言语而定。如ASCII,GBxxx,Unicode等。
  • 字符编码(Character encoding) 是把字符聚焦的字符编码为一定的二进制数,以便在微计算机中蕴藏。每一个字符聚焦的字符都对应一个唯风流倜傥的二进制编码。

字符集和字符编码通常都以成对现身的,如ASCII、IOS-8859-1、GB2312、GBK,都以即表示了字符集又象征了对应的字符编码。Unicode比较奇特,有种种字符编码(UTF-8,UTF-16等卡塔尔


    ASCII(American Standard Code for Information Interchange,美利坚合资国音信置换标准代码卡塔 尔(阿拉伯语:قطر‎是依据拉丁字母的意气风发套计算机编码系统。它主要用于展示今世法文,而其扩充版本EASCII则足以部分协助任何西欧语言,并大器晚成致国际标准ISO/IEC 646。将ASCII字符集调换为Computer能够采用的数字系统的数的规行矩步。使用7位(bits卡塔尔表示一个字符,共128字符;不过7位编码的字符集只好援助1贰二十个字符,为了表示更加多的亚洲常用字符对ASCII举办了扩展,ASCII扩展字符集使用8位(bits卡塔尔表示一个字符,共256字符。ASCII字符集映射到数字编码法则如下图所示:

广阔字符集及编码

金沙澳门官网 1

1. ASCII字符集&编码

ASCII(American 斯坦dard Code for Information Interchange, 美利坚同盟军信息沟通标准代码)是依附拉丁字母的黄金年代套电脑编码系统。它根本用以展示今世俄语,而其扩充版本EASCII则能够部分扶助其余西欧语言,并大器晚成致国际标准ISO/IEC 646

 

字符集范围

ASCII风流倜傥共定义了1叁十个字符,包含叁16个调整字符,和92个可呈现字符。抢先四分之二的调控字符已经被遗弃。

金沙澳门官网 2

编码格式

ASCII码为单字节,用7位二进制数表示,由于Computer1个字节是8位二进制数,所以最高位为0,即00000000-011111110x00-0x7F
金沙澳门官网 3
Unicode,GBXXX,UTF-8等字符编码都包容ASCII编码。

EASCII(Extended ASCII,延伸美利哥专门的学问消息交流码)是将ASCII码由7位扩展为8位而成。EASCII的内码是由0到255共有259个字符组成。EASCII码比ASCII码扩展出来的标识满含表格符号、总计符号、希腊(Ελλάδα卡塔 尔(阿拉伯语:قطر‎字母和特别的拉丁符号。


 

2. GB2312字符集&编码

GB 2312GB 2312–80 是中国国标简体中文字符集,全称《音信置换用汉字编码字符集·基本集》,又称GB0,由中夏族民共和国国家规范总局宣布,一九八一年10月1日实施。GB 2312编码通行于中华次大陆;新加坡等地也接收此编码。中华夏族民共和国新大陆大概具有的中国语言艺术学系统和国际化的软件都援救GB 2312。

    ASCII的局限在于只好展现28个主导拉丁字母、阿拉伯数字和英式标点符号,因此不能不用于展示今世美利坚联邦合众国匈牙利(Magyarország卡塔尔语(并且在管理匈牙利语当中的外来词如naïve、café、élite等等时,全部重音符号都只可以去掉,纵然如此做会背离拼写准则卡塔尔国。而EASCII就算缓和了生机勃勃部分西欧语言的显得难题,但对越多其余语言照旧不能够。

字符集范围

GB 2312标准共收音和录音67六13个汉字,此中一级汉字37伍15个,二级汉字3008个;同不正常间收音和录音了回顾拉丁字母、希腊语(Greece卡塔 尔(阿拉伯语:قطر‎字母、斯洛伐克语平假名及片假名字母、西班牙语西萨克拉门托字母在内的6八十三个字符。

GB 2312的现身,基本满意了汉字的微机管理需要,它所援用的方块字已经覆盖中国陆上99.伍分叁的采纳功能。但对于人名、古普通话等方面现身的罕用字和繁体字,GB 2312不能够管理,因而后来GBK及GB 18030汉字字符集相继现身以清除这个主题素材。

    GB 2312 或 GB 2312–80 是中国国标简体粤语字符集,全称《音讯沟通用汉字编码字符集·基本集》,又称GB0,由中国国标办事处揭露,壹玖捌叁年5月1日实施。GB 2312编码通行于中华陆地;新加坡等地也应用此编码。中中原人民共和国陆上大致具有的中文系统和国际化的软件都帮衬GB 2312。

分区

GB 231第22中学对所收汉字实行了“分区”处理,每区含有九十四个汉字/符号。这种代表方法也称为区位码。

  • 01–09区为特殊符号。
  • 16–55区为顶尖汉字,按拼音排序。
  • 56–87区为二级汉字,按部首/笔画排序。

比释迦牟尼佛讲来讲,“啊”字是GB 231第22中学间的率先个汉字,它的区位码就是1601。
10–15区及88–94区则未有编码。

    GB2312(壹玖柒陆年)生机勃勃共收音和录音了74四十一个字符,富含67陆10个汉字和6捌12个其余符号。汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。在那之中有5个空位是D7FA-D7FE。
    GB2312辅助的汉字太少。1992年的汉字扩大规范GBK1.0录取了218九十几个标记,它分成汉字区和图片符号区。汉字区包含21003个字符。2003年的GB18030是顶替GBK1.0的正统国标。该职业收录了274捌十二个汉字,相同的时候还援引了藏文、蒙文、维吾尔文等根本的少数民族文字。今后的PC平台必须扶植GB18030,对嵌入式付加物暂不作供给。所以手提式有线电话机、MP5貌似只辅助GB2312。

编码格式

在使用GB 2312的次序平时使用EUC仓库储存方法,以便宽容于ASCII。
各类汉字及符号以四个字节来代表。第三个字节称为“高位字节”,第4个字节称为“低位字节”。
“高位字节”使用了0xA1–0xF7(把01–87区的区号加上0xA0),“低位字节”使用了0xA1–0xFE(把01–94加上0xA0卡塔尔国。 由于一流汉字从16区起头,汉字区的“高位字节”的范围是0xB0–0xF7,“低位字节”的界定是0xA1–0xFE,占用的码位是72*94=6768。在那之中有5个空位是D7FA–D7FE。


    GBK 汉字内码扩展标准,全名字为《汉字内码扩大标准(GBK)》1.0版,由中国全国音讯技术标准化技委一九九四年12月1日制定,国家技监局标准化司和电工部科技(science and technology)与质监司1993年7月二十八19日伙同以《本事标函[1995]229号》文件的样式发布。 GBK共收音和录音218九十个汉字和图形符号,在那之中汉字(包含部首和零件卡塔尔国21003个,图形符号885个。

3. GBK字符集&编码

汉字内码扩充规范,称GBK,全名为金沙澳门官网 ,《汉字内码扩充标准(GBK)》1.0版,由中国全国消息工夫标准化技术委员会一九九一年四月1日制定,国家技监局规范化司和电工部科学技术与品质监督司1992年八月二十六日协同以《才干标函[1995]229号》文件的样式揭橥。

GBK的K为普通话拼音Kuo Zhan(扩大卡塔尔中“扩”字的声母。英语全称Chinese Internal Code Extension Specification。

    由于GB 2312-七十九头收音和录音6759个汉字,有比很多汉字,如某些在GB 2312-80出产之后才简化的汉字(如“啰”卡塔尔,部分人名用字(如中华夏族民共和国前线总指挥部理朱镕基的“镕”字卡塔 尔(阿拉伯语:قطر‎,湖南及香岛利用的繁体字,日文及爱尔兰语汉字等,并未有收音和录音在内。于是商家微软采取GB 2312-80未接纳的编码空间,收音和录音GB 13000.1-93全数字符制订了GBK编码。

字符集

GB 2312-七十六头录取67六13个汉字,有不菲汉字,如有的在GB 2312-80临蓐之后才简化的方块字(如“啰”卡塔尔国,部分人名用字(如神州前线总指挥部理朱镕的“镕”字卡塔尔国,山西及香港(Hong Kong卡塔 尔(英语:State of Qatar)利用的繁体字,阿拉伯语及日文汉字等,并未有有收音和录音在内。GBK对GB 2312-80开展扩大, 总结具备 239三十八个码位,共收入21886个汉字和图形符号,在那之中汉字(包罗部首和零件卡塔尔国21003 个,图形符号883 个。

    依照微软资料,GBK是对GB2312-80的扩张,也正是CP936字码表(Code Page 936)的恢弘(此前CP936和GB 2312-80大同小异卡塔 尔(英语:State of Qatar),最先落到实处于Windows 95简体普通话版。就算GBK收音和录音GB 13000.1-93的一切字符,但GBK是意气风发种编码格局并向下包容GB2312;而GB 13000.1-93后生可畏致Unicode 1.1是风姿罗曼蒂克种字符集,它的两种编码形式如UTF8、UTF16LE等,与GBK完全不相配。

编码格式

GBK 亦选拔双字节表示,总体编码范围为8140-FEFE,首字节在81-FE 之间,尾字节在40-FE 之间,剔除 xx7F一条线。
金沙澳门官网 4

GBK向下完全合作GB2312-80编码。支持GB2312-80编码不辅助的片段普通话姓,汉语繁体,丹麦语假名,还包罗希腊语(Greece卡塔 尔(英语:State of Qatar)字母以致西班牙语字母等字母。不过这种编码不辅助南韩字,也是其在事实上行使中与unicode编码相比较欠缺的部分。


     Big5 又称为大五码或中国共产党第五次全国代表大会码,是运用繁体中文(正体普通话卡塔尔国社区中最常用的Computer汉字字符集规范,共收音和录音13,0伍二十个汉字。汉语码分为内码及沟通码两类,Big5属粤语内码,有名的华语调换码有CCCII、CNS11643。Big5虽普遍于浙江、东方之珠与澳门等繁体中文通行区,但一如既往并非地点的国标,而只是产业界标准。倚蒲月国语言工学系统、Windows等重大系统的字符集都以以Big5为基准,但商家又分别扩充不一致的造字与造字区,派生成各种差别版本。二零零四年,Big5被录用到CNS11643中文标准调换码的附录在那之中,获得了较标准的地点。那几个最新版本被称得上Big5-二〇〇三。

4. GB 18030字符集&编码

GB 18030,全称:国标GB 18030-2006《新闻工夫 中文编码字符集》,是中国今昔新星的内码字集,是GB 18030-二零零四《新闻技艺 新闻置换用汉字编码字符集 基本集的增添》的修定版。与GB 2312-一九八零通通相称,与GBK基本极度;扶植GB 13000(93版等同于Unicode 1.1;二〇〇九版等同于Unicode 4.0卡塔 尔(阿拉伯语:قطر‎及Unicode的整体统后生可畏汉字,共收音和录音汉字70,2肆十七个。

本准则的初版是由中国消息行业部电子工业规范化研究所起草,由国家质量技监局于二零零一年4月四日发布。现行反革命版本为国家质监核准根据地和中黄炎子孙民共和国国标化管委于二零零五年二月8日表露,2007年八月1日实施。

此规范内的单字节编码部分、双字节编码部分,和四字节编码部分收音和录音的中国和东瀛韩会集表意文字扩展A区汉字,为强制性标准。其余部分则归属规模性标准。在中国境内全部软件出品,都亟待协助这一个同时包含单字节、双字节和四字节编码的条件。

GB 18030至关心尊崇要有以下特点:

  • 和UTF-8相似都施用多字节编码,每一种字可以由1个、2个或4个字节组成。
  • 编码空间宏大,最多可定义161万个字元。
  • 扶持中华夏族民共和国境内少数民族的文字,不需求接收造字区。
  • 汉字收音和录音范围包蕴繁体汉字以至日韩汉字。

    Big5码是风度翩翩套双字节字符集,使用了双八码存款和储蓄方法,以七个字节来放手二个字。第四个字节称为"高位字节",第一个字节称为"低位字节"。"高位字节"使用了0x81-0xFE,"低位字节"使用了0x40-0x7E,及0xA1-0xFE。

编码格局
  • 单字节,其值从0x00到0x7F。
  • 双字节,第一个字节的值从0x81到0xFE,第三个字节的值从0x40到0xFE(不包括0x7F卡塔 尔(英语:State of Qatar)。
  • 四字节,首个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第多少个字节从0x81到0xFE,第七个字节从0x30到0x39。

本文由金沙澳门官网发布于网络编程,转载请注明出处:常见字符集及编码,常见的字符编码

关键词: 金沙澳门官网

上一篇:微信域名检测的C
下一篇:没有了