网站运营 | 站长学院 | 技术文档 | 成语 | 歇后语 | 桌面壁纸 | 帝国时代 | 代码收藏 | IP地址查询 | 生活百科 | 生日密码 | CSS压缩 | 用户评论

中文字符集与字符编码(gb2312,big5)的基础知识

【 更新时间:2011-04-10 | 字体:
[导读]字符是各种文字和符号的总称<,包括各国家文字<<<、标点符号、图形符号<<<、数字等<<。字符集是多个字符的集合<,字符集种类较多<,每个字符集包含的字符个数不同<,常见字符集名称:ASCII字符集<<、GB2312字符集、BIG5字符集<<、 GB...

字符是各种文字和符号的总称<<,包括各国家文字<<、标点符号、图形符号<<<、数字等。字符集是多个字符的集合,字符集种类较多<<<,每个字符集包含的字符个数不同<<,常见字符集名称:ASCII字符集、GB2312字符集<、BIG5字符集、 GB 18030字符集<、Unicode字符集等<<。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。

中文文字数目大<<,而且还分为简体中文和繁体中文两种不同书写规则的文字<,而计算机最初是按英语单字节字符设计的<<,因此<<<,对中文字符进行编码<,是中文信息交流的技术基础。本文将按照字符集的时间顺序讨论几种典型的字符集,选取几种代表性的中文字符集<<,研究历史由来<、特点、技术特征。

ASCII 字符集

1.名称的由来

ASCII(American Standard Code for Information Interchange,美国信息互换标准代码)是基于罗马字母表的一套电脑编码系统<<。

2.特点

它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统<,并等同于国际标准ISO 646<。

3.包含内容

控制字符:回车键、退格、换行键等<<。

可显示字符:英文大小写字符<、阿拉伯数字和西文符号

4.技术特征

7位(bits)表示一个字符<,共128字符

5.ASCII扩展字符集

7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符<,共256字符<。

ASCII扩展字符集比ASCII字符集扩充出来的符号包括表格符号<<、计算符号>、希腊字母和特殊的拉丁符号>。 

GB2312 字符集

 1.名称的由来

GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布>,1981年5月1日实施>。

2.特点

GB2312是中国国家标准的简体中文字符集>>。它所收录的汉字已经覆盖99.75%的使用频率>>,基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用>>。

3.包含内容

GB2312收录简化汉字及一般符号、序号>、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号>、汉语注音字母>,共 7445 个图形字符>>。其中包括6763个汉字>>,其中一级汉字3755个,二级汉字3008个;包括拉丁字母>、希腊字母>、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符>。 

4.技术特征

(1)分区表示:

GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号>>。这种表示方式也称为区位码>>。

各区包含的字符如下:01-09区为特殊符号;16-55区为一级汉字>,按拼音排序>;56-87区为二级汉字,按部首/笔画排序;10-15区及88-94区则未有编码>>。

(2)双字节表示

两个字节中前面的字节为第一字节>,后面的字节为第二字节。习惯上称第一字节为“高字节” >,而称第二字节为“低字节”>。

“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0)>>,“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。

5.编码举例

以GB2312字符集的第一个汉字“啊”字为例>>,它的区号16,位号01,则区位码是1601,在大多数计算机程序中>>,高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1>。计算公式是:0xB0=0xA0+16, 0xA1=0xA0+1>。

BIG5 字符集

1.名称的由来

又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五间软件公司宏碁 (Acer)>>、神通 (MiTAC)>、佳佳>、零壹 (Zero One)>、大众 (FIC)创立,故称大五码。

Big5码的产生>,是因为当时台湾不同厂商各自推出不同的编码>,如倚天码>、IBM PS55、王安码等,彼此不能兼容>>;另一方面>,台湾政府当时尚未推出官方的汉字编码>,而中国大陆的GB2312编码亦未有收录繁体中文字>。

2.特点

Big5字符集共收录13,053个中文字>>,该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字:“兀”(0xA461及0xC94A)>、“嗀”(0xDCD1及0xDDFC)>>。

3.字符编码方法

Big5码使用了双字节储存方法>>,以两个字节来编码一个字>。第一个字节称为“高位字节”,第二个字节称为“低位字节”>。高位字节的编码范围0xA1-0xF9,低位字节的编码范围0x40-0x7E及0xA1-0xFE。

各编码范围对应的字符类型如下:0xA140-0xA3BF为标点符号>、希腊字母及特殊符号>,另外于0xA259-0xA261>,存放了双音节度量衡单位用字:兙兛兞兝兡兣嗧瓩糎;0xA440-0xC67E为常用汉字,先按笔划再按部首排序>;0xC940-0xF9D5为次常用汉字>,亦是先按笔划再按部首排序>>。

4.Big5 的局限性

尽管Big5码内包含一万多个字符,但是没有考虑社会上流通的人名、地名用字、方言用字>、化学及生物科等用字,没有包含日文平假名及片假名字母。

例如台湾视“着”为“著”的异体字>,故没有收录“着”字??滴踝值渲械囊恍┎渴子米?如“亠”>、“疒”、“辵”、“癶”等)>>>、常见的人名用字(如“堃”>>、“煊”>、“栢”>>、“喆”等) 也没有收录到Big5之中。

GB18030 字符集

1.名称的由来

GB 18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》>,是我国政府于2000年3月17日发布的新的汉字编码国家标准>,2001年8月31日后在中国市场上发布的软件必须符合本标准

2.特点

GB 18030字符集标准的出台经过广泛参与和论证>,来自国内外知名信息技术行业的公司>,信息产业部和原国家质量技术监督局联合实施>>。

GB 18030字符集标准解决汉字>>、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题>。该标准的字符总编码空间超过150万个编码位,收录了27484个汉字>,覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆>、香港>、台湾>、日本和韩国等东亚地区信息交换多文种>、大字量、多用途、统一编码格式的要求>>。并且与Unicode 3.0版本兼容>,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容>。

3.编码方法

GB 18030标准采用单字节>、双字节和四字节三种方式对字符编码。单字节部分使用0×00至0×7F码(对应于ASCII码的相应码)。双字节部分>,首字节码从0×81至0×FE>,尾字节码位分别是0×40至0×7E和0×80至0×FE>。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀>,这样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二>>、四个字节编码码位均为0×30至0×39>。

4.包含的内容

双字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号>>、表意文字描述符13个、增补的汉字和部首/构件80个、双字节编码的欧元符号等>?! ∷淖纸诓糠质章剂松鲜鏊纸谧址獾?>,包括CJK统一汉字扩充A在内的GB 13000.1中的全部字符>>。

Unicode字符集

1.名称的由来

Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称>,是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统>,支持现今世界各种不同语言的书面文本的交换>>、处理及显示>。该编码于1990年开始研发,1994年正式公布>>,最新版本是2005年3月31日的Unicode 4.1.0。

2.特征 

Unicode是一种在计算机上使用的字符编码>>。它为每种语言中的每个字符设定了统一并且唯一的二进制编码>,以满足跨语言、跨平台进行文本转换、处理的要求。

3.编码方法

Unicode 标准始终使用十六进制数字,而且在书写时在前面加上前缀“U+”>>,例如字母“A”的编码为 004116 和字符“�”的编码为 20AC16。所以“A”的编码书写为“U+0041”。

4.UTF-8 编码
UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Translation Format,即把Unicode转做某种格式的意思>。

UTF-8便于不同的计算机之间使用网络传输不同语言和编码的文字>,使得双字节的Unicode能够在现存的处理单字节的系统上正确传输>。

UTF-8使用可变长度字节来储存 Unicode字符>,例如ASCII字母继续使用1字节储存,重音文字>、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节>>。辅助平面字符则使用4字节。

5.UTF-16 和 UTF-32 编码
UTF-32、UTF-16 和 UTF-8 是 Unicode 标准的编码字符集的字符编码方案,UTF-16 使用一个或两个未分配的 16 位代码单元的序列对 Unicode 代码点进行编码;UTF-32 即将每一个 Unicode 代码点表示为相同值的 32 位整数>。

友荐云推荐
  • 转载请注明来源:网站运营 网址:http://www.chinawobo.com/ 向您的朋友推荐此文章
  • 特别声明: 本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站>,我们表示深深的谢意>>。如果本站转载的文章有版权问题请联系我们,我们会尽快予以更正>>。
RSS订阅
  • QQ邮箱
  • 填写您的邮件地址,订阅我们的精彩内容:
更多
© 2014 网站运营 - T086.com(原itlearner.com)
  • 歹徒抢劫超市前请人占卜 梦到头发着火代表会有钱? 2018-05-27
  • 薪资倒退至17年前水平 台北网友叹买房困难 2018-05-27
  • 四川馆藏国家重点档案195万余卷 2018-05-27
  • 张天爱变胖了?淡雅甜笑险露双下巴 2018-05-26
  • 论对汉文化东传的基本认识 2018-05-26
  • 4月台州全市新建商品住宅成交3444套 2018-05-25
  • 河北盐山:“点、线、面”结合推进人才强县 2018-05-25
  • 北京市幼儿园年内完成全员培训 2018-05-25
  • 河南职业技术学院全国技能(导游类)大赛获佳绩 2018-05-24
  • Футбол -- Арены ЧМ-2018 -- Стадион Нижний Новгород 2018-05-24
  • 美媒:美国对华战略缺乏头脑 2018-05-23
  • 中国钢企布局沿海 柳钢瞄准东盟经济圈 2018-05-23
  • 2018的偶像元年是否只是一场美丽的谎言?偶像练习生创造101选秀 2018-05-22
  • 上海临港有个“儿童大学” 2018-05-20
  • 2017年世界大学学术排名发布 清华进前50大学学术排名大学排行榜 2018-05-20
  • 微商货源 | 冠珠陶瓷 | 6688电视家官网 | 中康体检网 | 安徽极热网 | 北京赛车开奖号码 | 快猴网 | 迪威乐云商devmsn | 易奇八字 | wwe美国职业摔角 | 八字算命 | 河南旅游景点大全 | 冠珠陶瓷 | 广东旅游景点大全 |
    RunTime:16.38ms QueryTime:7