[PHP][位转换积累]之pack和unpack

PHP的pack和unpack提供了为一系列数据打包(pack)和解包(unpack)成2进制流的功能，这个功能在面向字节的字符串处理和套接字的编程环境中尤为适用。

在了解这两个函数之前，我们必须掌握一些关于面向字节流编程的概念，否则很难真正上理解它们。

计算机在传输或存储多字节的时候，会对每个字节进行双方排序的约定，例如，单字节高位在前还是在后？是需要用1000 0000 0001 0000还是0001 0000 1000 0000 去表示32784？0x00ff需要两个字节的空间才能存储，那是把00还是ff放在前面呢？

BIG-ENDIAN、LITTLE-ENDIAN与多字节类型的数据有关的比如int,short,long型，而对单字节数据byte却没有影响。

LITTLE-ENDIAN是最低地址存放最低有效字节。即常说的低位在先，高位在后。

Java中int类型占4个字节，一定要是“多字节类型的数据”才有字节序问题，汉字编码也有这个问题。请看下面4字节的例子：

指的是在JAVA虚拟机中多字节类型数据的存放顺序，JAVA字节序也是BIG-ENDIAN。

Intel的x86系列CPU是Little-Endian，而PowerPC 、SPARC和Motorola处理器是BIG-ENDIAN。

ARM同时支持 big和little，实际应用中通常使用little endian。是BIG-ENDIAN还是LITTLE-ENDIAN的跟CPU有关的，每一种CPU不是BIG-ENDIAN就是LITTLE-ENDIAN。

4个字节的32 bit值以下面的次序传输：首先是7～0bit，其次15～8bit，然后23～16bit，最后是31~24bit。这种传输次序称作大端字节序（BIG-ENDIAN）。 TCP/IP首部中所有的二进制整数在网络中传输时都要求以这种次序。

不同的CPU上运行不同的操作系统，字节序也是不同的，参见下表。

所以在用C/C++写通信程序时，在发送数据前务必用htonl和htons去把整型和短整型的数据进行从主机字节序到网络字节序的转换，而接收数据后对于整型和短整型数据则必须调用ntohl和ntohs实现从网络字节序到主机字节序的转换。如果通信的一方是JAVA程序、一方是C/C++程序时，则需要在C/C++一侧使用以上几个方法进行字节序的转换，而JAVA一侧，则不需要做任何处理，因为JAVA字节序与网络字节序都是BIG-ENDIAN，只要C/C++一侧能正确进行转换即可（发送前从主机序到网络序，接收时反变换）。如果通信的双方都是JAVA，则根本不用考虑字节序的问题了。

字符编码的基础在这里就不敷衍了，只大概说说各字符集之间的关系。

几乎所有字符集都兼容ASCII码，也可以说几乎所有字符集都包含了ASCII，而且码位是一样的

带符号的整型和无符号的整型计算机的解析方法和可供取值范围是不一样的，例如

8位无符号整型：0 -> 255
11111111     255
...
10000000     128
01111111     127
...
00000000       0

8位有符号整型：-128 -> 127
01111111    127
...
00000000      0
11111111     -1        取反加一
...
10000000   -128        取反加一

　在C中，默认的基础数据类型均为signed，现在我们以char为例，说明(signed) char与unsigned char之间的区别。

首先在内存中，char与unsigned char没有什么不同，都是一个字节，唯一的区别是，char的最高位为符号位，因此char能表示-127~127,unsigned char没有符号位，因此能表示0~255，这个好理解，8个bit，最多256种情况，因此无论如何都能表示256个数字。

在实际使用过程种有什么区别呢？主要是符号位，但是在普通的赋值，读写文件和网络字节流都没什么区别，反正就是一个字节，不管最高位是什么，最终的读取结果都一样，只是你怎么理解最高位而已，在屏幕上面的显示可能不一样。

二者的最大区别是：但是我们却发现在表示byte时，都用unsigned char，这是为什么呢？首先我们通常意义上理解，byte没有什么符号位之说，更重要的是如果将byte的值赋给int，long等数据类型时，系统会做一些额外的工作。如果是char，那么系统认为最高位是符号位，而int可能是16或者32位，那么会对最高位进行扩展（注意，赋给unsigned int也会扩展）而如果是unsigned char，那么不会扩展。最高位若为0时，二者没有区别，若为1时，则有区别了。同理可以推导到其它的类型，比如short， unsigned short，等等。

具体可以通过下面的小例子看看其区别

　　include <stdio.h>

　　void f(unsigned char v)
　　{
　　　　char c = v;
　　　　unsigned char uc = v;
　　　　unsigned int a = c, b = uc;
　　　　int i = c, j = uc;
　　　　printf("----------------\n");
　　　　printf("%%c: %c, %c\n", c, uc);
　　　　printf("%%X: %X, %X\n", c, uc);
　　　　printf("%%u: %u, %u\n", a, b);
　　　　printf("%%d: %d, %d\n", i, j);
　　}
　　

　　int main(int argc, char *argv[])
　　{
　　　　f(0x80);
　　　　f(0x7F);
　　　　return 0;
　　}

　　结果输出如下：

　　结果分析：

　　对于(signed)char来说，0x80用二进制表示为1000 0000，当它作为char赋值给unsigned int或 int 时，系统认为最高位是符号位，会对最高位进行扩展。而0x7F用二进制表示为0111 1111，最高位为0，不会扩展。

　　对于unsigned char来说，不管最高位是0，还是1，都不会做扩展。

--------------------------------------------------------------------------------------------------------------------------------------------------

客服电话

电子邮件

请发表评论

全部评论

上一篇：

下一篇：

GitbookIO/gitbook:

CVE-2016-6314

juleswhite/mobile-cloud-asgn1

兆的笔顺,分享兆的笔画,诠释兆的部首

kyamagu/matlab-json: Use official API: h

kojino/Harvard-Robust-Machine-Learning:

cescoffier/puppet-nexus: A Puppet Module

文的笔顺,诠释文的笔画,解读文的部首

Cassolotl/sentient.cloud · GitHub

zentyal/zentyal: Linux Small Business Se

updownpress/markdown-lint: Markdown Lint

关于我们

产品与服务

解决方案

139-2527-9053