如何透彻理解C语言中指针的概念强大的指针功能是C语言区别于众多高级语言的一个重要特征。
C语言指针的功能强大,使用灵活多变,可以有效地表示复杂的数据结构、动态分配内存、高效地使用数组和字符串、使得调用函数时得到多个返回值。
而它的应用远不限于此。
初学者对于指针的概念总是感到无所适从,有时觉得“自己懂了,为什么编译器就是不懂呢”,常有茫然和无助的感觉。
学好指针的关键在于深入了解内存地址的空间可以理解为一个一维线性空间,内存的编址和寻址方法,以及指针在使用上的一些规定。
事实上,指针就是方便我们对内存地址直接进行操作的,是为程序员服务的,我们只要抓住指针想要帮助我们解决什么问题这个核心,就可以轻松地理解它的工作原理。
什么是指针,指针有什么作用指针就是指向一个特定内存地址的一个变量。
简化了的内存空间模型是按照从0到某一个数(比如1048575=1M-1)的一维线性空间,其中的每一个数对应一个存储单元,即1个字节。
指针有两个属性:指向性和偏移性。
指向性指的是指针一定要有一个确定的指向,偏移性则是体现指针重要应用的方面,即指针可以按程序员的要求向前或向后偏移。
指针的应用往往与数组联系在一起,为了方便说明问题,不妨从数组开始解释指针的偏移。
数组就是许多的变量,它的一个重要特征就是在内存空间中连续地存放,而且是按下标顺序存放。
比如我们定义一个有100个变量的一维整型数组,它一定从内存的某一个存储单元开始按数组下标顺序存放,连续占用100*4=400字节。
当我们定义一个数组时,系统就会自动为它分配一个指针,这个指针指向数组的首地址。
(在本文剩余部分的论述中,不加区分地使用“指向数组的首地址”与“指向数组的第一个元素”这两种说法,事实上这两种说法也是一致的。
)为了让系统了解每一次指针偏移的单位,也为了方便程序员进行指针偏移(让程序员记住一个整形变量占用4字节,一个字符型变量占用1字节……等等是很麻烦的),不用每次去计算要偏移多少个字节,C语言引入了指针的基类型的概念。
基类型的作用就是让系统了解某个指针每次偏移的字节数。
比如,对于一个字符型指针,它每次偏移(比如ptr=ptr+1)所起到的作用就是让指针偏移1字节;而对于一个整型指针,它每次偏移就应该是4字节。
这样操作数组时就带来了方便。
比如对于一个指向某个整型数组起始存储单元(称为首地址)的指针ptr,ptr=ptr+1就表示将该指针指向这个数组的下一个元素的存储单元,即向后移动4字节,而不仅仅是移动一个存储单元(即移动1字节)。
&()、*()、和[ ]运算符的意义在本文中,将&()、*()和[ ]都看成是运算符。
这样可以方便理解这三个概念。
简单地说,&()将某个标识符(比如变量)转化为其在内存空间中的地址,而*()是产生一个对应于某个地址的标识符,[ ]就更复杂一点,ptr[i]表示将ptr这个指针虚拟地按其基类型进行i个单位的后移,再进行*(ptr)运算。
但这是一个虚拟的后移,即ptr[i]并不改变ptr的指向,只是将其后移i个单位并取*()运算的结果算出来了而已。
要改变指针的指向,我们只能通过类似于ptr=ptr+i这样的语句来实现。
实际中,我们往往不愿意经常改变指针的指向,因为指针的移动虽然是自由的,但移动后往往会“移不回来”,因为我们可能无法清楚地确定指针的偏移量。
后面我们将看到,对于用指针来表示的数组,其元素的引用和赋值是完全可以不用改变指向这个数组的首地址的指针指向的,而一旦要改变这个指针的指向,问题就会变得复杂一些,我们在后面有一个关于程序的命令行参数处理例子专门介绍这个问题。
指针类型和系统自动分配的指针指针可以指向几乎所有我们感兴趣的程序设计要素:函数、数组、结构体、链表节点等等。
其中不同函数间往往并不存在严格的线性关系。
链表节点可以根据算法需要在逻辑上(或物理上)不按线性连续存储。
但数组、结构体的共同特征就是它们在物理上都是线性连续存储的。
只要指针指向了它们的首地址,就可以通过简单的偏移来访问各个它们的元素。
指针的偏移性在这两种数据结构中发挥着至关重要的作用。
这时,我们再回想基类型的定义目的,就会有更深层次的认识了。
对于一个数组或结构体,它的基类型长度应当是其元素的长度(这里的长度即指在内存空间中占用的字节数),而不再限于定义为某种简单数据类型的长度。
在我们定义数组和函数时,系统都会为其自动分配一个指向其首地址的指针。
其中,指针在数组中的应用是最频繁的,也是最基础的。
对于一个数组,其名称就是一个指针变量,亦即假如我们定义“int a[10];”的同时就定义了“int *a=a;”(这只是为了说明问题,这样的语句显然是不合法的)。
数组应用中典型的二级指针设定一个指向指针的指针,即设定一个二级指针。
一般认为,指针不宜超过二级,否则会大大增加逻辑错误出现的可能性。
因此,下面详细解释数组二级指针的实现方法及原理。
在此基础上理解指针的其它相关概念是非常简单的。
刚才一直提及指针的基类型,以及对它的正确理解方法。
请在阅读下面论述的过程中不断地考虑“我们所提到的每个指针的基类型是什么”这个问题。
首先我们先要对二维数组进行重新定义,即将一个M*N的二维数组定义为有M个元素的一维数组,它的每个元素都是一个具有N个元素的一维数组。
这种理解方式对于以前学习过Basic、Pascal等语言的程序员来说比较难以接受,因为它们更容易直观地将其理解为一张二维表。
事实上,二维数组在内存中的线性存储是这样实现的:把每一行看作它的一个元素,然后按照一维数组的按下标顺序排列的原则以每一行为单位进行排列。
而对于每一行,也还是按照一维数组按下标顺序排列的原则进行排列。
也就是说,我们可以按行优先的方式将数组的数字逐个“填入”内存空间。
或者也可以说,多维数组在内存中的排列方式是递归定义的。
既然如此,当我们定义“int a[10][10];”的时候,a是什么样的指针呢?是的,a就是一个二级指针。
它的基类型是有10个元素的一维数组,不再是整型变量了。
它所指向的是一维数组指针(第一行的数组指针)。
当我们执行a=a+1的时候,a将指向二维数组第二行的数组指针,而不是第一行的第二个元素,因为基类型的长度决定了a+1跨越了一整行。
因此,我们要得到数组a的(i,j)位置上的元素的值,应该按照下面的步骤来进行:1、 a+i,这表示将a指针移到第i行的首地址。
2、*(a+i),这表示将第i行的首地址转化为第i行的标识符,前面已经述及,*()运算符的作用就是将地址转化为标识符。
但*(a+i)不是第i 行的第一个元素而是一个指针,这个指针的基类型已经变成了整型变量,不再是有10个元素的一维数组了。
或许你要说,第i行的首地址不就是第i行第一个元素的地址吗?那么*(a+i)不就是第i行第一个元素的值了?首先,我们可以肯定*(a+i)不是第i行第一个元素的值,但第i行的首地址的确就是第i行第一个元素的地址。
前面对*()运算符的说明只是一个表面现象,下面的说法可以辅助你理解*()运算符的真正本质:*()将指针还原为其所指,而不是简单地将地址变成这个地址所存储的值。
*()将地址变成这个地址所存储的值这样的说法只对一级指针是正确的。
对于二级指针,*()只是将二级指针还原为其所指,即还原为一级指针。
物理上“第i行的首地址同时就是第i行第一个元素的地址”这一事实,是容易导致混淆的根本原因。
但只我们要从逻辑的角度出发,就可以较为轻松地理解这个问题。
3、*(a+i)+j,这表示将一级指针向后偏移j个单位,要注意*(a+i)这个指针已经是一个以整型变量为基类型的指针了。
这时*(a+i)+j是一个偏移后的一级指针,它的值是a[i][j]元素的地址,亦即它所指的就是a[i][j]元素。
4、*(*(a+i)+j),将一级指针还原为其所指,即得到了a[i][j]元素的值。
理解了以上的概念,将会对指针有全新的认识,而对于二级以上的指针和其它类型的指针,原理也都是类似的。
对指针的更深入理解只有在编程的实践中得到。
从算法设计的角度来看,使用指针对数组进行遍历等操作可降低时间复杂度,因为指针按照基类型偏移1个单位的效率很高。
一维指针数组中的二级指针透彻地理解下面这段程序对于进一步理解指针的原理是很有裨益的。
下面是一个将系统分配的指针(即数组名指针)进行偏移的例子:main(int argc,char *argv[]){while (argc>1) {++argv;printf(“%s\n”,*argv);--argc;}}粗略地看,不难发现这个程序的作用就是将其命令行参数(不包括第一个程序路径及文件名参数)逐个输出。
但其中却用到了二级指针,究竟是也不是,我们从细节入手分析。
首先,argv是一个指针数组,它的每个元素所指向的是每个命令行参数字符串的首地址。
比如,我们的参数是“abc def”,那么argv[1]和argv[2]所指向的就分别是字符串“abc”和“def”的首地址(注意argv[0]指向的是程序路径及文件名字符串的首地址)。
那么,第四行的++argv是什么意思呢?我们知道,一个数组的名称就是一个指针,在没有被改动的情况下,它指向这个数组的首地址。
++argv 的作用就是将argv这个指针(数组名)按照其基类型宽度向后移动一个单位,如果原来argv所指向的是argv这个数组的首地址,那么执行以后它将指向其第二个元素(即argv[1])。
也就是说,这个程序改动了数组名(本身也就是一个指针)的指向,不断将其后移。
理解到这里,你可能已经初步感到问题并不像看上去那么简单了。
下面的一句“printf(“%s\n”,*argv)”更是有意义了。
你会不会觉得奇怪呢?因为printf(“%s”,ptr)或者puts(ptr)所需要的参数都是指针。
既然argv已经是指针,又为什么要在前面再加上一个“*”运算符呢?原因如下:argv确实是指针,但它所指的argv这个数组自己的某一个元素(因为我们已经分析过,argv这个指针是从自己的第一个元素argv[0]的地址开始不断地后移的)。
这看起来和一个指向字符串的指针char *ptr=”string content”是类似的。
但我们在输出ptr指针所指的字符串时是使用printf(“%s”,ptr)而不是printf(“%s”,*ptr)来输出的。
那如果我们的这句话是“printf(“%s\n”,argv)”会怎样呢?程序运行后得到的是一堆乱码。
那这堆乱码是什么呢?这堆乱码实际上是argv这个在不断向后移动的指针的所指,即argv数组的元素的地址(如&argv[1],&argv[2]等),也即指向某个命令行参数字符串的首地址的指针的地址。