重审C中老生常谈的swap函数交换数值

2023年1月23日 454次阅读来源: QihuaZhou

文章也同时在个人博客 http://kimihe.com/更新

概览

本文内容是关于C语言参数传值，以及x86底层实现的计算机科学。

包含了原理速览以及代码示例。

引言

如果你学习过C，可能会对经典的swap函数问题记忆深刻。简单的参数传值并不能在函数外部完成两个数的交换，而要用指针传地址。

对此的解释一般为：C语言是以传值的方式将参数传递给函数。因此传递进去的是参数的副本，纵使万千改动也无法触及本源丝毫。故有使用指针一说，以切实地修改两个参数地址处的值。

但对于单纯的传值与传指针(亦地址，引用)的区别是什么，能够道出原委的人可能并不多。因此笔者想通过本文进入更底层的汇编领域，向大家更加清晰地阐述在底层究竟发生了什么。

原料

基本必需配置

任意文本编辑器(可以用来copy文中出现的代码)
GCC(我们需要用GCC来编译C源代码，并以GCC的规则来讲解，其它编译器产生的结果可能会不同)

额外建议配置

类UNIX的环境(Linux与Mac等皆可，笔者是Mac)

实验

源代码

我们拥有swapValue.c与swapAddr.c两份源代码，作为研究swap原理的基础，内容分别如下：

// swapValue.c

void swapValue(int a, int b)
{
    int tmp = a;
    a = b;
    b = tmp;
}

void fun()
{
    int a = 2;
    int b = 3;
    
    swapValue(a, b);
}

// swapAddr.c

void swapAddr(int *a, int *b)
{
    int tmp = *a;
    *a = *b;
    *b = tmp;
}

void fun()
{
    int a = 2;
    int b = 3;
    
    swapAddr(&a, &b);
}

代码内容很简单，分别是用传值和传地址两种方式实现swap，并都在fun函数中调用swap。

使用汇编器

启动命令行窗口，针对上述两份源代码进行汇编，输入如下命令：

gcc   -S swapValue.c
gcc   -S -O1 swapAddr.c

第二行多了一个-O1参数是为了让汇编代码更加便于阅读。之后得到swapValue.s与swapAddr.s两份汇编代码。

分析汇编代码

swapValue.s

我们首先分析swapValue.s，撇去次要部分后，我们关注如下内容：

_swapValue:                             ## @swapValue
    ...
    ...
    movl    %edi, -4(%rbp)
    movl    %esi, -8(%rbp)
    movl    -4(%rbp), %esi
    movl    %esi, -12(%rbp)
    movl    -8(%rbp), %esi
    movl    %esi, -4(%rbp)
    movl    -12(%rbp), %esi
    movl    %esi, -8(%rbp)
    ...
    ...
    
_fun:                                   ## @fun
    ...
    ...
    movl    $2, -4(%rbp)
    movl    $3, -8(%rbp)
    movl    -4(%rbp), %edi
    movl    -8(%rbp), %esi
    callq   _swapValue
    ...
    ...

大家不必去理解汇编代码的含义，只需要理解笔者的讲解即可。可以看到汇编代码分为_fun和_swapValue两个部分，与C源码中两个函数是对应的。

注意：在汇编中我们把函数改用过程来称呼。

_fun过程

对于_fun过程，我们可以看到参数2和参数3被最终分别传递到了寄存器%edi和%esi中。随后调用了_swapValue子过程。

简而言之就是_fun过程将两个实参存放在两个寄存器中，然后调用_swapValue子过程。

在x86架构中，上述两个寄存器是专门用来向函数传递参数的，%edi负责传递第一个参数，%esi负责传递第二个参数。

_swapValue过程

可能是GCC优化问题，汇编代码拐弯抹角地实现了一个实际上很简单的操作。

上文有提到：两个参数存放在寄存器%edi和%esi中。这段代码首先把两个参数分别复制到函数的栈内存中，即把%edi复制到-4(%rbp)中，把%esi复制到-8(%rbp)中，通过栈内存来存放局部变量。

随后拐弯抹角地交换了-4(%rbp)与-8(%rbp)内部的值。可以看到：由于两个参数一开始就被复制，函数操作的一直都是这份副本。于是，这就是传值操作无法切实修改参数值的原因。

swapAddr.s

再来看看swapAddr.s，其中_fun过程没有特别的变化，区别集中在_swapAddr过程。

_swapAddr:                              ## @swapAddr
    ...
    movl    (%rdi), %eax
    movl    (%rsi), %ecx
    movl    %ecx, (%rdi)
    movl    %eax, (%rsi)
    ...
    ...
    
_fun:                                   ## @fun
    ...
    ...
    movl    $2, -4(%rbp)
    movl    $3, -8(%rbp)
    leaq    -4(%rbp), %rdi
    leaq    -8(%rbp), %rsi
    callq   _swapAddr
    ...
    ...

从外观上，可以看到_swapAddr中寄存器的操作，相比之前多了一对圆括号。(%rdi）与(%rsi)互相交换内容。

这对圆括号就是传地址的奥秘所在，该操作统称为间接寻址。

之前寄存器中存放的就是真实的数据，操作时直接取出寄存器中的内容即可。而这里，寄存器中存放的数据不能直接使用，它是一个索引(地址)，先取出这个索引，然后去内存中与该索引相对应的位置处取出数据。有点像图书馆中根据书籍的编号去找书。

再仔细想想，这个理念与C语言中的指针是不是很像？没错，指针的底层实现就是它！

因此，由于内存中的地址是唯一对应的，因此在_swapAddr中我们就直接修改了两个参数地址处的值，于是两个参数也就完成了数据交换。

总结

以上就是对于传值与传地址的讲解。普通的变量就是保存一个数值而已，而指针是一种保存变量地址的变量，它的第一层含义是地址，第二层含义是根据该地址去取值。

指针常常是表达某个计算的唯一途径，而且可以生成更加高效紧凑的代码。例如字符串复制函数，关键代码若用指针只需如下：

char * strcpy(char *dest, char *src)
{
    char *ret = dest;
    while ((*dest++ = *src++))
        ;
    
    return ret;
}

正是有了指针，很多高级的操作才成为了可能，宏伟的程序才得以构建。

希望本文对大家有所帮助，感谢阅读，欢迎分享~

    原文作者：QihuaZhou
    原文地址: https://www.jianshu.com/p/9789fb9bf757
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。