传统的C风格的字符串是以字符 '\0 '为结尾的一系列字节的集合,其一个单元为char类型,
可以保存世界上的几百种不同的字符集,包括ASCII、ISO-8859、GBK、BIG-5、SHIFT-JIS、
UTF-8等等。通常这些字符集都是兼容ASCII字符集的。我们可以把这些兼容ASCII字符集统称
为ANSI字符集。正因为各种不同的字符集的存在,所以在实际的使用中会产生各种缺字和乱码
的现象。 Unicode是包含世界上各种语言和符号的编码。
在实际应用中,Unicode以UTF-8和UTF-16、UTF-32这三种形式存在,这三种形式都可以完
美地表示Unicode的各个码位。
例如:中文的 "中 "字,其Unicode码位为U+4E2D,用UTF-8用三个8位的字节来表示为:0xE4
0xB8 0xAD,UTF-16则使用一个16位的整数0x4E2D来表示,UTF-32则使用一个32位的整数
0x00004E2D来表示。(当字符码位大于0xFFFF时,UTF-8要用四个8位的字节来表示,UTF-16需要
最新评论