GB

ISO 8859

为解决 256 个字符不够用的问题,ISO 8859 采取的不再是单个独立的编码规则,而是由一系列的字符集(共 15 个)所组成,分别称为 ISO 8859-n(n=1,2,3…11,13…16,没有 12)。其每个字符集对应不同的语言,如 ISO 8859-1 对应西欧语言,ISO 8859-2 对应中欧语言等。其中大家所熟悉的 Latin-1 就是 ISO 8859-1 的别名,它表示整个西欧的字符集范围。需要注意的一点的是,ISO 8859-n 与 ASCII 是兼容的,即其 0000000(0x00)-01111111(0x7f)范围段与 ASCII 保持一致,而 10000000(0x80)-11111111(0xFF)范围段被扩展用到不同的字符集。

ISO 8859 是在 1980 年代中期甚至 1990 年代才陆续公布的。因此,微软公司与 IBM 公司等此前已经在其产品,如 MS-DOS,IBM PC 上使用了各自定义的编码字符集(即“代码页”Codepage)。ISO 8859 公布后,也出现了一些广泛使用的代码页兼容并扩充了 ISO 8859。例如,Windows 代码页 1252 作为英文及一些西欧语言版 Windows 操作系统的默认编码(locale),是 ISO 8859-1 的超集。主要扩充之处是把 ISO 8859-1 的保留未用的 C1 区(即码位 0x80-0x9F)用来编码一些可打印字符:€ ‚ ƒ „ … † ‡ ˆ ‰ Š ‹ Œ Ž ‘ ’ “ ” • – — ˜ ™ š › œ ž Ÿ 共计 27 个,其中各种引号就有 8 个。

GB 系列

中国国家标准总局制定了 GB 2312 码,即中华人民共和国国家汉字信息交换用编码,并于 1981 年 5 月 1 日实施。GB 2312 字符集中除常用简体汉字字符外还包括希腊字母等可能会用到的字符,但是未收录繁体中文汉字和一些生僻字。

微软利用 GB 2312-80 未使用的编码空间,收录 GB 13000.1-93 全部字符制定了 GBK 编码。根据微软资料,GBK 是对 GB2312-80 的扩展,也就是 CP936 字码表 (Code Page 936)的扩展(之前 CP936 和 GB 2312-80 一模一样),最早实现于 Windows 95 简体中文版。虽然 GBK 收录 GB 13000.1-93 的全部字符,但编码方式并不相同。GBK 自身并非国家标准,只是曾由国家技术监督局标准化司、电子工业部科技与质量监督司公布为”技术规范指导性文件”。

GB 18030,全称:“国家标准 GB 18030-2005《信息技术 中文编码字符集》”,是中华人民共和国现时最新的变长度多字节字符集,是 GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》的修订版。对 GB 2312-1980 完全向后兼容,与 GBK 基本向后兼容;支持 GB 13000 及 Unicode 的全部统一汉字,共收录汉字 70244 个。GB 18030 主要有以下特点:

  • 采用变长多字节编码,每个字可以由 1 个、2 个或 4 个字节组成。

  • 编码空间庞大,最多可定义 161 万个字符。

  • 支持中国国内少数民族文字,不需要动用造字区。

  • 汉字收录范围包含繁体汉字以及日韩汉字。

  • GB 18030 对应 Windows 代码页为 CP54936。

Big5,又称为大五码或五大码,是使用繁体中文(正体中文)社区中最常用的电脑汉字字符集标准,共收录 13,060 个汉字。中文码分为内码及交换码两类,Big5 属中文内码,知名的中文交换码有 CCCII、CNS11643。Big5 虽普及于台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家标准,而只是业界标准。倚天中文系统、Windows 等主要系统的字符集都是以 Big5 为基准,但厂商又各自增加不同的造字与造字区,派生成多种不同版本。2003 年,Big5 被收录到 CNS11643 中文标准交换码的附录当中,取得了较正式的地位。这个最新版本被称为 Big5-2003。Big5 对应 Windows 代码页为 CP950。