C#之字符编码

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› Node.js›Node.js教程

原作者: [db:作者] 来自: [db:来源] 收藏邀请

　　在 Windows Vista 及之后的版本中，每个Unicode字符都使用UTF-16编码，UTF的全称是 Unicode Transformation Format（Unicode 转换格式）。UTF-16将每个字符编码为2个字节（或者说16位）。Windows 之所以使用 UTF-16，是因为全球各地使用的大部分语言中，每个字符很容易用一个16位值来表示。这样一来应用程序很容易遍历字符串并计算出它的长度。但是，16位不足以表示某些语言的所有字符。对于这些语言，UTF-16 支持使用代理（suurrigate），后者是用32位（或者说4个字符）来表示一个字符的一种方式。由于只有少数应用程序需要表示这些语言中的字符，所以 UTF-16 在节省空间和简化编码这两个目标之间，提供了一个很好的折衷。注意，.Net Framework 始终使用 UTF-16来编码所有字符和字符串，所以在我们开发的 Windows 应用程序中，如果需要本机代码（native code）和托管代码之间传递字符或字符串，使用 UTF-16能改进性能和减少内存消耗。

　　UTF-8 将一些字符编码为1个字节，一些字符编码为2个字节，一些字符编码为3个字节，一些字符编码为4个字节。值在0x0080一下的字符压缩为1个字节，这对美国使用的字符非常合适。0x0080 和0x07FF之间的字符转换为2个字节，这对欧洲和中东地区的语言非常使用。0x0800以上的字符都转换为3个字节，适合东亚地区的语言。最后，代理对（surrogate pair）被写为4个字节。UTF-8 是一种相当流行的编码格式。但在对值为0x0800及以上的大量字符进行编码的时候，不如 UTF-16 高效。

　　UTF-32 将每个字符都编译为4个字节。如果打算写一个简单的算法来遍历字符（任何语言中使用的字符），但又不想处理字节数不定的字符，这种编码方式就非常有用。例如，如果采用UTF-32 编码方式，就不需要关系代理（surrogate）的问题，因为每个字符都是4个字节。显然，从内存使用的角度来看，UTF-32 并不是一种高效的编码格式。因此在将字符串保存到文件或传到网络的时候，很少会用到这种格式。这种编码格式一般在应用程序内部使用。

为何要用Unicode

　　Unicode 有利于应用程序本地化。

　　只用 Unicode ，只需发布一个二进制（.exe或dll）文件，即可支持所有语言。

　　Unicode 提升了应用程序的效率，因为代码执行速度更快，占用内存更少。 Windows内部的一切工作都是使用 Unicode 字符和 Unicode 字符串来进行的。所以，加入我们坚持传入 ANSI 字符或者字符串，Windows 就会被迫分配内存，并将 ANSI 字符或字符串转换为等价的 Unicode 形式。

　　使用 Unicode，应用程序能轻松调用所有尚未弃用（nondeprecated）的 Windows 函数，因为一些 Windows 函数提供的版本只能处理 Unicode 字符和字符串。

　　使用 Unicode，应用程序的代码很容易与 COM 集成（后者要求使用 Unicode 字符和 Unicode 字符串）。

　　使用 Unicode，应用程序的代码很容易与 .NET Framework 集成（后者要求使用 Unicode 字符和 Unicode 字符串）。

　　使用 Unicode，能保证应用程序的代码能够轻松操纵我们自己的资源（其中的字符串总是 Unicode 形成的）。