编码字符集与字符集编码
编码字符集是字符的集合,即对所有的字符进行编号,通过这个编号,就可以知道对应的字符。对于同一个字符,不同的字符集所制定的整数编号也不尽相同,例如“儿”这个字,在Unicode中,它的编号是0x513F,而在另一种编码字符集比如Big5中,这个字就是第0xA449个字符了。
字符集编码是如何将字符集中的一个字符的整数编号对应到一个计算机认识的二进制的整数值的编码方法。英文所有的字符集编码方案中,英文字母的整数编号与其在计算机内部存储的二进制形式都一致。但很多编码方案都将字符的编号进行转换后存储在计算机中。以“汉”字为例,“汉”的Unicode值为0x6C49,但其编码为UTF-8格式后的值为0xE6B189。另一种编码方案UTF-16,对于Unicode中的前65536个字符编号都不做变换,直接作为计算机存储时使用的值,但对65536以后的字符,仍然要做变换。Unicode是一个编码字符集,不是字符集编码,通常口头说的Unicode编码指的是UTF-16。UTF-16提供了surrogate pair机制,使得Unicode中码位大于65536的那些字符得以表示,基本的思想就是用两个16位的编码表示一个字符。UTF-32,他对所有的Unicode字符均不做变换,直接使用编号存储!但这种编码方案太浪费存储空间,1个字节就可以搞定的英文字符,它都必须使用4个字节。
参考自:http://www.blogjava.net/zhenandaci/archive/2008/12/24/248041.html
相关推荐
GB 18030-2005 信息技术 中文编码字符集
而由字符组成的集合则成为字符集,字符集由于包含字符的多少与异同而形成了各种不同的字符集。我们知道,所有字符在计算机中都是以二进制来存储的。那么一个字符究竟由多少个二进制位来表示呢?这就涉及到字符编码的...
GB18030-2005 信息技术 中文编码字符集,单双四字节所有字符,包含简繁生僻字。
GB-T 2312-1980 信息交换用汉字编码字符集 基本集
GB 2312-1980 信息交换用汉字编码字符集 基本集
字符集与字符集编码简介 我们知道,计算机只能识别诸如0101这样的二进制数,于是人们必须以二进制数据与计算机进行交互,或者先将人类使用的字符按一定规则转换为二进制数。 那什么是字符呢?在计算机领域,我们把...
GB 18030-2000信息技术 信息交换用汉字编码字符集 基本集的扩充.PDF
Java中的字符集编码入门(二)编码字符集与字符集编码的区别[参考].pdf
GB/T 1988-1998信息技术 信息交换用七位编码字符集.PDF
GB2312汉字编码字符集对照表.xls
文档中主要介绍了各类字符集以及相关的字符编码,字符的显示原理,从输入到显现的整个过程,程序中出现的乱码问题以及解决方案
1.此版本为传统蒙古文C编码字符集1.0版,为了保持版本的相对稳定,半年以内版本不升级,征集到意见和建议后,改进下一版本,使其更能满足广大用户的需求; 2.C编码的目标是:为全世界传统蒙古文编码统一贡献力量,...
GB∕T 1988-1998 信息技术 信息交换用七位编码字符集,
标准的现代维吾尔文字符集unicode编码表
字符集编码问题字符集编码问题字符集编码问题
Java字符集和编码 ,Java字符集和编码Java字符集和编码
GB 2312-1980信息交换用汉字编码字符集基本集.PDF
GB2312汉字编码字符集1
字符集和编码, 原来是这样