C语言修炼——代码的底层原理？编译与链接？预处理详解

编译和链接

一、翻译环境和链接

在ANSI C的任何⼀种实现中，存在两个不同的环境。

第1种是翻译环境，在这个环境中源代码被转换为可执行的机器指令（二进制指令）。
第2种是执行环境，它用于实际执行代码。

我们知道，我们所写的代码本质上只是文本罢了，机器是无法理解文本信息的，所以我们需要将文本翻译成机器可以理解的机器指令（二进制指令），然后才可以执行代码，运行程序。

代码可能有1个或多个源文件，我们是如何将它们翻译为机器指令，并得到执行程序呢？
环节大致如下：
在这里插入图片描述
拿之前文章里写过的扫雷游戏为例：

game.c与test.c两个源文件经过经过翻译环境得到.exe可执行程序，在运行环境执行。

二、翻译环境

那翻译环境是怎么将源代码转换为可执⾏的机器指令的呢？这⾥我们就得展开讲解⼀下翻译环境所做的事情。
其实翻译环境是由编译和链接两个⼤的过程组成的，⽽编译⼜可以分解成：预处理（有些书也叫预编译）、编译、汇编三个过程。
在这里插入图片描述
总结：

多个.c⽂件单独经过编译器，编译处理⽣成对应的⽬标⽂件。
- 在Windows环境下的⽬标⽂件的后缀是.obj，Linux环境下⽬标⽂件的后缀是.o
多个⽬标⽂件和链接库⼀起经过链接器处理⽣成最终的可执⾏程序。
- 链接库是指运⾏时库(它是⽀持程序运⾏的基本函数集合)或者第三⽅库。

编译过程拆解：
在这里插入图片描述
需要注意的细节是，编译时，其中预处理阶段、编译阶段产生的.i文件、.s文件我们在项目文件中是看不见的，只能看见经过汇编处理生成的.o或.obj目标文件。
例如扫雷游戏项目文件中，是不存在test.i、game.i、test.s或game.s的，只能看见test.obj与game.obj。
在这里插入图片描述

2.1 预处理（预编译）

在预处理阶段，源⽂件和头⽂件会被处理成为.i为后缀的⽂件。
在gcc环境下想观察⼀下，对test.c⽂件预处理后的.i⽂件，命令如下：

gcc -E test.c -o test.i

预处理阶段主要处理那些源⽂件中#开始的预编译指令。⽐如：#include,#define，处理的规则如下：

将所有的#define删除，并展开所有的宏定义。
处理所有的条件编译指令，如：#if、#ifdef、#elif、#else、#endif。
处理#include预编译指令，将包含的头⽂件的内容插⼊到该预编译指令的位置。这个过程是递归进⾏的，也就是说被包含的头⽂件也可能包含其他⽂件。
删除所有的注释
添加⾏号和⽂件名标识，⽅便后续编译器⽣成调试信息等。
或保留所有的#pragma的编译器指令，编译器后续会使⽤。

经过预处理后的.i⽂件中不再包含宏定义，因为宏已经被展开。并且包含的头⽂件都被插⼊到.i⽂件中。所以当我们⽆法知道宏定义或者头⽂件是否包含正确的时候，可以查看预处理后的.i⽂件来确认。
预处理这里只做简单的介绍，详细将在下一部分讲解。

2.2 编译

编译过程就是将预处理后的⽂件进⾏⼀系列的：词法分析、语法分析、语义分析及优化，⽣成相应的汇编代码⽂件，即从C语言代码到汇编代码的过程。
观察编译过程的命令如下：

gcc -S test.i -o test.s

对下⾯代码进⾏编译的时候，会怎么做呢？假设有下⾯的代码

array[index] = (index+4)*(2+6);

2.2.1 词法分析

将源代码程序输⼊扫描器，扫描器的任务就是简单的进⾏词法分析，把代码中的字符分割成⼀系列的记号（关键字、标识符、字⾯量、特殊字符等）。
上⾯程序进⾏词法分析后得到了16个记号：
在这里插入图片描述
词法分析就是将分析识别这16个记号，得到对应的类型。

2.2.2 语法分析

接下来语法分析器，将对扫描产⽣的记号进⾏语法分析，从⽽产⽣语法树。这些语法树是以表达式为节点的树。
在这里插入图片描述

2.2.3 语义分析

得到语法树后，由语义分析器来完成语义分析，即对表达式的语法层⾯分析。编译器所能做的分析是语义的静态分析。静态语义分析通常包括声明和类型的匹配，类型的转换等。这个阶段会报告错误的语法信息。
在这里插入图片描述
语义分析数根据语法数，对记号作了语义分析，且逻辑判断了表达式的计算是否符合规则。我们可以看到整型加整型得到整型这一系列的逻辑都是非常清晰无误的。

2.3 汇编

汇编器将汇编代码转变成机器可执⾏的指令，每⼀个汇编语句⼏乎都对应⼀条机器指令。就是根据汇编指令和机器指令的对照表⼀⼀的进⾏翻译，也不做指令优化。
汇编的命令如下：

gcc -c test.s -o test.o

2.4 链接

链接是⼀个复杂的过程，链接的时候需要把⼀堆⽂件链接在⼀起⽣成可执⾏程序。
链接过程主要包括：地址和空间分配，符号决议和重定位等步骤。
链接解决的是⼀个项⽬中多⽂件、多模块之间互相调⽤的问题。
⽐如：
在一个C项目中有两个.c文件
test.c文件

#include <stdio.h>
//声明外部函数
extern int Add(int x, int y);
//声明外部的全局变量
extern int g_val;
int main()
{
	int a = 10;
 	int b = 20;
 	int sum = Add(a, b);
 	printf("%d\n", sum);
 	return 0;
}

add.c文件

int g_val = 2022;
int Add(int x, int y)
{
	return x+y;
}

我们已经知道，每个源⽂件都是单独经过编译器处理⽣成对应的⽬标⽂件。

test.c经过编译器处理⽣成test.o
add.c经过编译器处理⽣成add.o

我们在test.c的⽂件中使⽤了add.c⽂件中的Add函数和g_val变量。
我们在test.c⽂件中每⼀次使⽤Add函数和g_val的时候必须确切的知道Add和g_val的地址，但是由于每个⽂件是单独编译的，在编译器编译test.c的时候并不知道Add函数和g_val变量的地址，所以暂时把调⽤Add的指令的⽬标地址和g_val的地址搁置。等待最后链接的时候由链接器根据引⽤的符号Add在其他模块中查找Add函数的地址，然后将test.c中所有引⽤到Add的指令重新修正，让他们的⽬标地址为真正的Add函数的地址，对于全局变量g_val也是类似的⽅法来修正地址。

这个地址修正的过程也被叫做：重定位。

前⾯我们⾮常简洁的讲解了⼀个C的程序是如何编译和链接，到最终⽣成可执⾏程序的过程，其实很多内部的细节⽆法展开讲解。⽐如：⽬标⽂件的格式elf，链接底层实现中的空间与地址分配，符号解析和重定位等，如果有兴趣，可以看《程序的⾃我修养》⼀书来详细了解。

三、运行环境

程序载⼊内存。在有操作系统的环境中，⼀般这个由操作系统完成；在独⽴的环境中，程序的载⼊只能由⼿⼯安排，也可能是通过可执⾏代码置⼊只读内存来完成。
程序放入内存后，程序开始执行。先调⽤main函数。
开始执⾏程序代码。这个时候程序将使⽤⼀个运⾏时堆栈（stack），存储函数的局部变量和返回地址。程序同时也可以使⽤静态（static）内存，存储于静态内存中的变量在程序的整个执⾏过程⼀直保留他们的值。
终⽌程序。正常终⽌main函数；也有可能是意外终⽌。

预处理详解

我们知道了C代码到成为执行程序被执行的大概逻辑，但预处理还有许多细节没有展开来讲，现在我们单就预处理环节来详细讲解一下。

一、预定义符号

C语⾔设置了⼀些预定义符号，可以直接使⽤，预定义符号也是在预处理期间处理的。

__FILE__ //进行编译的源文件
__LINE__ //文件当前的行号
__DATE__ //文件被编译的日期
__TIME__ //文件被编译的时间
__STDC__ //如果编译器遵循ANSI C，其值为1，否则未定义

使用示例：
在这里插入图片描述
如上，__LINE__打印的结果是这条语句当前所在的行号；__DATE__打印的结果是文件被编译时的年月日；__TIME__打印的结果是文件被编译时的详细时间，包括小时、分钟与秒。
而FILE同理，打印结果是该文件所在的路径。

对于__STDC__值得一提的是，如果是在VS2022上，那么这个标识符是未知的，这是因为VS并不是完全支持ANSI C标准的。

二、#define定义常量

基本语法：

#define name stuff

举例：

#define MAX 1000
#define reg register//为register这个关键字，创建⼀个简短的名字
#define do_forever for(;;)//⽤更形象的符号来替换⼀种实现
#define CASE break;case//在写case语句的时候自动把break写上。
// 如果定义的stuff过长，可以分成⼏行写，除了最后一行外，每行的后面都加⼀个反斜杠(续行符)。
#define DEBUG_PRINT printf("file:%s\tline:%d\t \
							date:%s\ttime:%s\n" ,\
 							__FILE__,__LINE__ , \
 							__DATE__,__TIME__)

思考一下：在define定义标识符时，需不需要加上分号;？
比如：

#define MAX 1000;
#define MAX 1000

建议不要加上;，这样容易导致问题。
⽐如下⾯的场景：

if(condition)
	max = MAX;
else
	max = 0;

如果是加了分号的情况，等替换后，if和else之间就是2条语句，⽽没有⼤括号的时候，if后边只能有⼀条语句。这⾥会出现语法错误。

三、#define定义宏

#define机制包括了⼀个规定，允许把参数替换到⽂本中，这种实现通常称为宏（macro）或定义宏
（define macro）。
下⾯是宏的申明⽅式：

#define name( parament-list ) stuff

其中的parament-list是⼀个由逗号隔开的符号表，它们可能出现在stuff中。
注意：

参数列表的左括号须与name紧邻，如果两者之间有任何空⽩存在，参数列表就会被解释为stuff的⼀部分。

举例：

#define SQUARE(x) x * x

这个宏接收⼀个参数x。如果在上述声明之后，程序中写有这样一条语句SQUARE(5);，预处理器就会⽤表达式5 * 5;替换上⾯的表达式SQUARE(5);。这也符号#define文本替换的特点。

但这种单纯的文本替换也使得这个宏存在⼀个问题，
观察下⾯的代码段：

int a = 5;
printf("%d\n" ,SQUARE(a + 1));

乍⼀看，可能大部分人会觉得这段代码将打印36，事实上它将打印11，为什么呢？
替换⽂本时，参数x被替换成a + 1,所以这条语句实际上变成了：

printf("%d\n", a + 1 * a + 1);

这样就⽐较清晰了，由替换产⽣的表达式并没有按照预想的次序进⾏求值。
在宏定义上加上两个括号，这个问题便轻松的解决了：

#define SQUARE(x) (x) * (x)

这样预处理之后就产⽣了预期的效果：

printf ("%d\n", (a + 1) * (a + 1));

这⾥还有⼀个宏定义：

#define DOUBLE(x) (x) + (x)

定义中我们使⽤了括号，想避免之前的问题，但是这个宏可能会出现新的错误。

int a = 5;
printf("%d\n" , 10 * DOUBLE(a));

这将打印什么值呢？看上去，好像打印100，但事实上打印的是55。
我们发现替换之后：

printf ("%d\n", 10 * (5) + (5));

乘法运算先于宏定义的加法，所以出现了55。
这个问题的解决办法是在宏定义表达式两边加上⼀对括号就可以了。

#define DOUBLE(x) ((x) + (x))

所以⽤于对数值表达式进⾏求值的宏定义都应该⽤这种⽅式加上括号，不要吝啬于括号的使用，尽量去避免在使⽤宏时由于参数中的操作符或邻近操作符之间不可预料的相互作⽤。

四、带有副作用的宏参数

当宏参数在宏的定义中出现超过⼀次的时候，如果参数带有副作⽤（前置、后置递增递减），那么你在使⽤这个宏的时候就可能导致不可预测的后果。副作⽤就是表达式求值的时候出现的永久性效果。
例如：

x+1;//不带副作用
x++;//带有副作用

MAX宏可以证明具有副作⽤的参数所引起的问题。

#define MAX(a, b) ((a) > (b)? (a): (b))
...
x = 5;
y = 8;
z = MAX(x++, y++);
printf("x=%d y=%d z=%d\n", x, y, z);//输出的结果是什么？

这⾥我们得知道预处理器处理之后的结果是什么：

z = ((x++) > (y++)? (x++): (y++));

所以输出的结果是：x=6 y=10 z=9。

五、宏替换的规则

在程序中扩展#define定义的符号和宏时，需要涉及⼏个步骤。

在调⽤宏时，⾸先对参数进⾏检查，看看是否包含任何由#define定义的符号。如果是，它们⾸先被替换。

//#define定义符号MAX,MIN
#define MAX 100
#define MIN 0
//#define定义Add宏
#define Add(x, y) ((x) + (y))
int main()
{
	//调用Add宏
	int sum = Add(MAX, MIN);//发现宏的参数包含#define定义的符号MAX,MIN
	//#define扩展时int sum = Add(MAX, MIN);先被替换为int sum = Add(100, 0);
	return 0;
}

替换⽂本随后被插⼊到程序中原来⽂本的位置。对于宏，参数名被他们的值所替换。

//#define定义符号MAX,MIN
#define MAX 100
#define MIN 0
//#define定义Add宏
#define Add(x, y) ((x) + (y))
int main()
{
	//调用Add宏
	int sum = Add(MAX, MIN);//已被替换为int sum = Add(100, 0);
	//#define定义的符号被替换后第二步是宏的替换
	//int sum = Add(100, 0);变成int sum = ((100) + (0));
	return 0;
}

最后，再次对结果⽂件进⾏扫描，看看它是否包含任何由#define定义的符号。如果是，就重复上述处理过程。

注意：

宏参数和#define定义中可以出现其他#define定义的符号。但是对于宏，不能出现递归。
当预处理器搜索#define定义的符号的时候，字符串常量的内容并不被搜索。

//例如：
#define MAX 100
printf("MAX is the biggest number.\n");//" "中的MAX不会被替换

六、宏与函数

宏与函数在调用的时候，操作是非常类似的，但前者本质上只是单纯的文本替换而已，而后者是在内存中开辟了一段空间并执行一系列操作，所以二者在本质上是不同的。

宏通常被应⽤于执⾏简单的运算。
⽐如在两个数中找出较⼤的⼀个时，写成下⾯的宏，更有优势⼀些。

#define MAX(a, b) ((a) > (b)? (a): (b))

那为什么不⽤函数来完成这个任务？
原因有两点：

调⽤函数和从函数返回的过程相比直接执⾏这个⼩型计算⼯作所需要的时间更多。所以宏⽐函数在程序的规模和速度⽅⾯更胜⼀筹。
更为重要的是函数的参数必须声明为特定的类型。所以函数只能在类型合适的表达式上使⽤。而宏可以适⽤于整型、⻓整型、浮点型等任意类型。宏的参数是类型⽆关的。

和函数相比宏的劣势：

每次使⽤宏的时候，⼀份宏定义的代码将插⼊到程序中。除⾮宏⽐较短，否则可能⼤幅度增加程序的⻓度。
宏是没法调试的。
宏由于类型⽆关，也就不够严谨。
宏可能会带来运算符优先级的问题，导致程序容易出现错误。

宏有时候可以做函数做不到的事情。⽐如：宏的参数可以出现类型，但是函数做不到。

#define MALLOC(num, type)\
	(type *)malloc(num, sizeof(type))
...
//使用
MALLOC(10, int);//类型作为参数
//预处理器替换之后：
(int *)malloc(10 sizeof(int));

七、#和##

7.1 #运算符

#运算符将宏的⼀个参数转换为字符串字⾯量。它仅允许出现在带参数的宏的替换列表中。
#运算符所执⾏的操作可以理解为“字符串化”。
当我们有⼀个变量int a = 10;的时候，我们想打印出：the value of a is 10.。
就可以写：

#define PRINT(n) printf("the value of "#n" is %d", n);

当我们调⽤PRINT(a);的时候，a被替换到宏的体内时，就出现了#a，#a就是转换为"a"——⼀个字符串。
代码就会被预处理为：

printf("the value of ""a"" is %d", a);
//需要注意printf打印是可以这样打印的，例如：
printf("I am a student.");
printf("I " "am " "a " "student" ".");//两者等价

运⾏代码就能在屏幕上打印：

 the value of a is 10

7.2 ##运算符

##可以把位于它两边的符号合成一个符号，它允许宏定义从分离的⽂本⽚段创建标识符。##被称为记号粘合。
这样的连接必须产⽣⼀个合法的标识符。否则其结果就是未定义的。
这⾥我们想想，写⼀个函数求2个数的较⼤值的时候，不同的数据类型就得写不同的函数。
⽐如：

int int_max(int x, int y)
{
	return (x > y? x: y);
}
float float_max(float x, float y)
{
	return （x > y? x: y);
}

但是这样写起来太繁琐了，现在我们这样写代码试试：

//宏定义
#define GENERIC_MAX(type)           \
	type type##_max(type x, type y) \
{                                   \
	return (x > y? x: y);           \
}

使⽤宏，定义不同函数：

GENERIC_MAX(int)   //替换到宏体内后type##_max生成了新的符号int_max做函数名
/*
//#define展开后相当于
int int_MAX(int x, int y)
{
	return (x > y? x: y);
}
*/
GENERIC_MAX(float) //替换到宏体内后type##_max生成了新的符号float_max做函数名
/*
//#define展开后相当于
float float_MAX(float x, float y)
{
	return (x > y? x: y);
}
*/
int main()
{
	//调用函数
 	int m = int_max(2, 3);
 	printf("%d\n", m);
 	float fm = float_max(3.5f, 4.5f);
 	printf("%f\n", fm);
 	return 0;
}

输出：

3
4.500000

八、命名约定

⼀般来讲函数的宏的使⽤语法很相似。所以语⾔本⾝没法帮我们区分⼆者。
大部分程序员遵循的习惯是：

把宏名全部大写
函数名不要全部大写

九、#undef

这条指令⽤于移除⼀个宏定义。

#define NAME 10
//使用NAME...
//如果现存的⼀个名字需要被重新定义，那么它的旧名字首先要被移除
#undef NAME
#define NAME 1
//使用NAME...

十、条件编译

在编译⼀个程序的时候我们如果要将⼀条语句（⼀组语句）编译或者放弃是很⽅便的。因为我们有条件编译指令。
比如说：

//调试性的代码，删除可惜，保留又碍事，所以我们可以选择性的编译
#include <stdio.h>
#define __DEBUG__
int main()
{
 	int arr[10] = { 0 };
 	for(int i = 0; i < 10; i++)
 	{
		arr[i] = i;
		#ifdef __DEBUG__
 		printf("%d\n", arr[i]);//为了观察数组是否赋值成功。
 		#endif //__DEBUG__
 	}
 	return 0;
}

#ifdef __DEBUG__的意思是如果__DEBUG__被定义，那么就进入下面的语句，如果__DEBUG__未定义，那就不进入下面的语句。
#endif是与#ifdef成对出现的，限定了#ifdef控制的语句范围。
通过#ifdef与#endif，我们可以在调试后，调试代码不再需要时，随时通过注释或删除#define定义的符号来决定是否调用调试代码。
像上面的代码，我们就可以通过注释或删除#define __DEBUG__的操作来使调试代码printf("%d\n", arr[i]);不参与编译，这样也能达到我们去除调试代码的目的。

常⻅的条件编译指令：

1.简单的条件编译
#if 常量表达式//常量表达式为真则进入下面语句
//...
#endif
//常量表达式由预处理器求值
如：
#define __DEBUG__ 1
#if __DEBUG__//__DEBUG__为1进入下面语句
//..
#endif

2.多个分支的条件编译
#if 常量表达式//类似if,else if,else
//...
#elif 常量表达式
//...
#else
//...
#endif

3.判断是否被定义
#if defined(symbol)//如果symbol被定义则进入语句
#ifdef symbol//如果symbol被定义则进入语句
#if !defined(symbol)//如果symbol被定义，!取非为假，不进入语句
#ifndef symbol//如果symbole未被定义，进入语句

4.嵌套指令
//情况1有选项1，选项2
#if defined(OS_UNIX)
 //选项1
 #ifdef OPTION1
 unix_version_option1();
 #endif
 //选项2
 #ifdef OPTION2
 unix_version_option2();
 #endif
//情况2只有选项2
#elif defined(OS_MSDOS)
 //选项2
 #ifdef OPTION2
 msdos_version_option2();
 #endif
#endif

十一、头文件的包含

11.1 头文件被包含的方式

11.1.1 本地文件包含

#include "filename"

查找策略：先在源⽂件所在⽬录下查找，如果该头⽂件未找到，编译器就像查找库函数头⽂件⼀样在标准位置查找头⽂件。如果找不到就提⽰编译错误。
Linux环境的标准头⽂件的路径：

/usr/include

VS环境的标准头⽂件的路径：

C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\include
//这是VS2013的默认路径

注意按照⾃⼰的安装路径去找。

11.1.2 库文件包含

#include <filename.h>

查找头⽂件直接去标准路径下去查找，如果找不到就提⽰编译错误。
这样是不是可以说，对于库⽂件也可以使⽤" "的形式包含？
答案是肯定的，但是这样做查找的效率就低些，当然这样也不容易区分是库⽂件还是本地⽂件了。

11.2 嵌套文件包含

我们已经知道，#include指令可以使另外⼀个⽂件被编译。就像它实际出现于#include指令的地⽅⼀样。
这种替换的⽅式很简单：预处理器先删除这条指令，并⽤包含⽂件的内容替换。
⼀个头⽂件被包含10次，那就实际被编译10次，如果重复包含，对编译的压⼒就⽐较⼤。

test.c：

#include "test.h"
#include "test.h"
#include "test.h"
#include "test.h"
#include "test.h"
int main()
{
	return 0;
}

test.h：

void test();
struct Stu
{
	int id;
 	char name[20];
};

如果直接这样写，test.c⽂件中将test.h包含5次，那么test.h⽂件的内容将会被拷⻉5份在test.c中。
test.c预编译后的test.i文件：

//1次
void test();
struct Stu
{
	int id;
 	char name[20];
};
//2次
void test();
struct Stu
{
	int id;
 	char name[20];
};
//3次
void test();
struct Stu
{
	int id;
 	char name[20];
};
//4次
void test();
struct Stu
{
	int id;
 	char name[20];
};
//5次
void test();
struct Stu
{
	int id;
 	char name[20];
};
int main()
{
	return 0;
}

如果test.h⽂件⽐较⼤，这样预处理后代码量会剧增。如果⼯程⽐较⼤，有公共使⽤的头⽂件，被⼤家都能使⽤，⼜不做任何的处理，那么后果不堪设想。
如何解决头⽂件被重复引⼊的问题？答案：条件编译。
每个头⽂件的开头写：

#ifndef __TEST_H__
#define __TEST_H__
//头文件的内容
#endif //__TEST_H__

或者

#pragma once

就可以避免头⽂件的重复引⼊。

注：
推荐《⾼质量C/C++编程指南》中附录的考试试卷（很重要）。
笔试题：

头⽂件中的ifndef/define/endif是⼲什么⽤的？
#include <filename.h>和#include "filename.h"有什么区别？

十二、其他预处理指令

#error
#pragma
#line
...
//不做介绍，自行了解。
#pragma pack()//在结构体一文介绍

参考《C语⾔深度解剖》学习。