学习：线程安全代码到底是怎么编写的？

这个词就是所谓的线程安全，thread safe。如果你不能理解线程安全，那么给你再多的方案也是无用武之地。接下来我们了解一下什么是线程安全，怎样才能做到线程安全。

当资源私有时，因为这些都是我私有的，只有我自己使用。而对应公共资源，大家都可以使用的公共资源。就必须遵守规则，这个规则就是排队，只有前一个人用完公共资源后下一个人才可以使用，而且不能同时使用，想使用就必须排队等待。

你自己家里使用私有资源就是所谓的线程安全，原因很简单，因为你随便怎么折腾自己的东西(资源)都不会妨碍到别人；公共场所必须有相应规则，这里的规则通常是排队，只有这样公共场所的秩序才不会被破坏，线程以某种不妨碍到其它线程的秩序使用共享资源就能实现线程安全。

因此我们可以看到，这里有两种情况：

线程私有资源，没有线程安全问题
共享资源，线程间以某种秩序使用共享资源也能实现线程安全。

本文都是围绕着上述两个核心点来讲解的，现在我们就可以正式的聊聊编程中的线程安全了。

什么是线程安全

我们说一段代码是线程安全的，当且仅当我们在多个线程中同时且多次调用的这段代码都能给出正确的结果，这样的代码我们才说是线程安全代码，Thread Safety，否则就不是线程安全代码，thread-unsafe.。非线程安全的代码其运行结果是运气决定的。这和redis的高并发一样，apache-jmeter搞并发发你发现不一定是第一个请求可以抢搞票的，纯看运气

线程安全的定义很简单吧，也就是说你的代码不管是在单个线程还是多个线程中被执行都应该能给出正确的运行结果，这样的代码是不会出现多线程问题的，就像下面这段代码：

int func() {  int a = 1;  int b = 1;  return a + b;}

对于这样段代码，无论你用多少线程同时调用、怎么调用、什么时候调用都会返回2，这段代码就是线程安全的。那么我们该怎样写出线程安全的代码呢？要回答这个问题，我们需要知道我们的代码什么时候呆在自己家里使用私有资源，什么时候去公共场所浪使用公共资源，也就是说你需要识别线程的私有资源和共享资源都有哪些（在栈区堆区代码区数据区），这是解决线程安全问题的核心所在。

线程私有资源

线程都有哪些私有资源呢？

进程和线程这两个话题是程序员绕不开的，操作系统提供的这两个抽象概念实在是太重要了。关于进程和线程有一个极其经典的问题，那就是进程和线程的区别是什么？“进程是操作系统分配资源的单位，线程是调度的基本单位，线程之间共享进程资源”。可是你真的理解了上面最后一句话吗？到底线程之间共享了哪些进程资源，共享资源意味着什么？共享资源这种机制是如何实现的？

查理芒格经常说这样一句话：“反过来想，总是反过来想”，如果你对线程之间共享了哪些进程资源这个问题想不清楚的话那么也可以反过来思考，那就是有哪些资源是线程私有的。

线程运行的本质其实就是函数的执行，函数的执行总会有一个源头，这个源头就是所谓的入口函数，CPU从入口函数开始执行从而形成一个执行流，只不过我们人为的给执行流起一个名字，这个名字就叫线程。既然线程运行的本质就是函数的执行，那么函数执行都有哪些信息呢？

函数运行时的信息保存在栈帧中，栈帧中保存了函数的返回值、调用其它函数的参数、该函数使用的局部变量以及该函数使用的寄存器信息，如图所示，假设函数A调用函数B：

此外，CPU执行指令的信息保存在一个叫做程序计数器的寄存器中，通过这个寄存器我们就知道接下来要执行哪一条指令。由于操作系统随时可以暂停线程的运行，因此我们保存以及恢复程序计数器中的值就能知道线程是从哪里暂停的以及该从哪里继续运行了。由于线程运行的本质就是函数运行，函数运行时信息是保存在栈帧中的，因此每个线程都有自己独立的、私有的栈区。

同时函数运行时需要额外的寄存器来保存一些信息，像部分局部变量之类，这些寄存器也是线程私有的，一个线程不可能访问到另一个线程的这类寄存器信息。从上面的讨论中我们知道，到目前为止，所属线程的栈区、程序计数器、栈指针以及函数运行使用的寄存器是线程私有的。以上这些信息有一个统一的名字，就是线程上下文，thread context。我们也说过操作系统调度线程需要随时中断线程的运行并且需要线程被暂停后可以继续运行，操作系统之所以能实现这一点，依靠的就是线程上下文信息。现在你应该知道哪些是线程私有的了吧。除此之外，剩下的都是线程间共享资源。那么剩下的还有什么呢？还有图中的这些。

这其实就是进程地址空间的样子，也就是说线程共享进程地址空间中除线程上下文信息中的所有内容，意思就是说线程可以直接读取这些内容。接下来我们分别来看一下这些区域。

代码区

进程地址空间中的代码区，这里保存的是什么呢？从名字中有的同学可能已经猜到了，没错，这里保存的就是我们写的代码，更准确的是编译后的可执行机器指令。那么这些机器指令又是从哪里来的呢？答案是从可执行文件中加载到内存的，可执行程序中的代码区就是用来初始化进程地址空间中的代码区的。

线程之间共享代码区，这就意味着程序中的任何一个函数都可以放到线程中去执行，不存在某个函数只能被特定线程执行的情况。

数据区

进程地址空间中的数据区，这里存放的就是所谓的全局变量。什么是全局变量？所谓全局变量就是那些你定义在函数之外的变量，在C语言中就像这样：

char c; // 全局变量
void func() {    }

其中字符c就是全局变量，存放在进程地址空间中的数据区。

在程序员运行期间，也就是run time，数据区中的全局变量有且仅有一个实例，所有的线程都可以访问到该全局变量。值得注意的是，在C语言中还有一类特殊的“全局变量”，那就是用static关键词修饰过的变量，就像这样：

void func(){    static int a = 10;}

注意到，虽然变量a定义在函数内部，但变量a依然具有全局变量的特性，也就是说变量a放在了进程地址空间的数据区域，即使函数执行完后该变量依然存在，而普通的局部变量随着函数调用结束和函数栈帧一起被回收掉了，但这里的变量a不会被回收，因为其被放到了数据区。
这样的变量对每个线程来说也是可见的，也就是说每个线程都可以访问到该变量。

堆区

堆区是程序员比较熟悉的，我们在C/C++中用malloc或者new出来的数据就存放在这个区域，很显然，只要知道变量的地址，也就是指针，任何一个线程都可以访问指针指向的数据，因此堆区也是线程共享的属于进程的资源。

栈区

唉，等等！刚不是说栈区是线程私有资源吗，怎么这会儿又说起栈区了？确实，从线程这个抽象的概念上来说，栈区是线程私有的，然而从实际的实现上看，栈区属于线程私有这一规则并没有严格遵守，这句话是什么意思？通常来说，注意这里的用词是通常，通常来说栈区是线程私有，既然有通常就有不通常的时候。不通常是因为不像进程地址空间之间的严格隔离，线程的栈区没有严格的隔离机制来保护，因此如果一个线程能拿到来自另一个线程栈帧上的指针，那么该线程就可以改变另一个线程的栈区，也就是说这些线程可以任意修改本属于另一个线程栈区中的变量。

这从某种程度上给了程序员极大的便利，但同时，这也会导致极其难以排查到的bug。试想一下你的程序运行的好好的，结果某个时刻突然出问题，定位到出问题代码行后根本就排查不到原因，你当然是排查不到问题原因的，因为你的程序本来就没有任何问题，是别人的问题导致你的函数栈帧数据被写坏从而产生bug，这样的问题通常很难排查到原因，需要对整体的项目代码非常熟悉，常用的一些debug工具这时可能已经没有多大作用了。说了这么多，那么同学可能会问，一个线程是怎样修改本属于其它线程的数据呢？接下来我们用一个代码示例讲解一下。

修改线程私有数据

不要担心，代码简单：

void thread(void* var) {    int* p = (int*)var;    *p = 2;}
int main() {    int a = 1;    pthread_t tid;        pthread_create(&tid, NULL, thread, (void*)&a);    return 0;}

这段代码是什么意思呢？
首先我们在主线程的栈区定义了一个局部变量，也就是 int a= 1这行代码，现在我们已经知道了，局部变量a属于主线程私有数据，但是，接下来我们创建了另外一个线程。在新创建的这个线程中，我们将变量a的地址以参数的形式传给了新创建的线程，然后我来看一下thread函数。在新创建的线程中，我们获取到了变量a的指针，然后将其修改为了2，也就是这行代码，我们在新创建的线程中修改了本属于主线程的私有数据。

现在你应该看明白了吧，尽管栈区是线程的私有数据，但由于栈区没有添加任何保护机制，一个线程的栈区对其它线程是可以见的，也就是说我们可以修改属于任何一个线程的栈区。就像我们上文说得到的，这给程序员带来了极大便利的同时也带来了无尽的麻烦，试想上面这段代码，如果确实是项目需要那么这样写代码无可厚非，但如果上述新创建线程是因bug修改了属于其它线程的私有数据的话，那么产生问题就很难定位了，因为bug可能距离问题暴露的这行代码已经很远了，这样的问题通常难以排查。

动态链接库

进程地址空间中除了以上讨论的这些实际上还有其它内容，还有什么呢？这就要从可执行程序说起了。什么是可执行程序呢？在Windows中就是我们熟悉的exe文件，在Linux世界中就是ELF文件，这些可以被操作系统直接运行的程序就是我们所说的可执行程序。那么可执行程序是怎么来的呢？有的同学可能会说，废话，不就是编译器生成的吗？实际上这个答案只答对了一半。假设我们的项目比较简单只有几个源码文件，编译器是怎么把这几个源代码文件转换为最终的一个可执行程序呢？原来，编译器在将可执行程序翻译成机器指令后，接下来还有一个重要的步骤，这就是链接，链接完成后生成的才是可执行程序。完成链接这一过程的就是链接器。你也知道代码编译后->目标文件->链接器->加标准库文件->可执行程序。

其中链接器可以有两种链接方式，这就是静态链接和动态链接。静态链接的意思是说把所有的机器指令一股脑全部打包到可执行程序中，动态链接的意思是我们不把动态链接的部分打包到可执行程序，而是在可执行程序运行起来后去内存中找动态链接的那部分代码，这就是所谓的静态链接和动态链接。动态链接一个显而易见的好处就是可执行程序的大小会很小，就像我们在Windows下看一个exe文件可能很小，那么该exe很可能是动态链接的方式生成的。而动态链接的部分生成的库就是我们熟悉的动态链接库，在Windows下是以DLL结尾的文件，在Linux下是以so结尾的文件。说了这么多，这和线程共享资源有什么关系呢？原来如果一个程序是动态链接生成的，那么其地址空间中有一部分包含的就是动态链接库，否则程序就运行不起来了，这一部分的地址空间也是被所有线程所共享的。

也就是说进程中的所有线程都可以使用动态链接库中的代码。

最后，如果程序在运行过程中打开了一些文件，那么进程地址空间中还保存有打开的文件信息，进程打开的文件也可以被所有的线程使用，这也属于线程间的共享资源。

实际上关于线程私有数据还有一项没有详细讲解，因为再讲下去本篇就撑爆了，而且本篇已经讲解的部分足够用了，剩下的这一点仅仅作为补充，也就是选学部分

关于线程私有数据还有一项技术，那就是线程局部存储，Thread Local Storage，TLS。这是什么意思呢？其实从名字上也可以看出，所谓线程局部存储，是指存放在该区域中的变量有两个含义：

存放在该区域中的变量是全局变量，所有线程都可以访问
虽然看上去所有线程访问的都是同一个变量，但该全局变量独属于一个线程，一个线程对此变量的修改对其他线程不可见。

说了这么多还是没懂有没有？没关系，接下来看完这两段代码还不懂你来打我。我们先来看第一段代码，不用担心，这段代码非常非常的简单：

int a = 1; // 全局变量
void print_a() {    cout<<a<<endl;}
void run() {    ++a;    print_a();}
void main() {    thread t1(run);    t1.join();
    thread t2(run);    t2.join();}

怎么样，这段代码足够简单吧，上述代码是用C++11写的，我来讲解下这段代码是什么意思。

首先我们创建了一个全局变量a，初始值为1
其次我们创建了两个线程，每个线程对变量a加1
线程的join函数表示该线程运行完毕后才继续运行接下来的代码

那么这段代码的运行起来会打印什么呢？全局变量a的初始值为1，第一个线程加1后a变为2，因此会打印2；第二个线程再次加1后a变为3，因此会打印3，让我们来看一下运行结果：

看来我们分析的没错，全局变量在两个线程分别加1后最终变为3。接下来我们对变量a的定义稍作修改，其它代码不做改动：

__thread int a = 1; // 线程局部存储

我们看到全局变量a前面加了一个__thread关键词用来修饰，也就是说我们告诉编译器把变量a放在线程局部存储中，那这会对程序带来哪些改变呢？简单运行一下就知道了：

和你想的一样吗？有的同学可能会大吃一惊，为什么我们明明对变量a加了两次，但第二次运行为什么还是打印2而不是3呢？想一想这是为什么。原来，这就是线程局部存储的作用所在，线程t1对变量a的修改不会影响到线程t2，线程t1在将变量a加到1后变为2，但对于线程t2来说此时变量a依然是1，因此加1后依然是2。因此，线程局部存储可以让你使用一个独属于线程的全局变量。也就是说，虽然该变量可以被所有线程访问，但该变量在每个线程中都有一个副本，一个线程对改变量的修改不会影响到其它线程。

回到线程私有资源

线程运行的本质其实就是函数的执行，函数的执行总会有一个源头，这个源头就是所谓的入口函数，CPU从入口函数开始执行从而形成一个执行流，只不过我们人为的给执行流起一个名字，这个名字就叫线程。

答案就是栈区，每个线程都有一个私有的栈区，因此在栈上分配的局部变量就是线程私有的，无论我们怎样使用这些局部变量都不管其它线程屁事。

线程私有的栈区就是线程自己家。

线程间共享数据

除了上一节提到的剩下的区域就是公共场合了，这包括：

用于动态分配内存的堆区，我们用C/C++中的malloc或者new就是在堆区上申请的内存
全局区，这里存放的就是全局变量
文件，我们知道线程是共享进程打开的文件

有的同学可能说，等等，在上一篇文章不是说还有代码区和动态链接库吗？要知道这两个区域是不能被修改的，也就是说这两个区域是只读的，因此多个线程使用是没有问题的。在刚才我们提到的堆区、数据区以及文件，这些就是所有的线程都可以共享的资源，也就是公共场所，线程在这些公共场所就不能随便浪了。线程使用这些共享资源必须要遵守秩序，这个秩序的核心就是对共享资源的使用不能妨碍到其它线程，无论你使用各种锁也好、信号量也罢，其目的都是在维护公共场所的秩序。知道了哪些是线程私有的，哪些是线程间共享的，接下来就简单了。值得注意的是，关于线程安全的一切问题全部围绕着线程私有数据与线程共享数据来处理，抓住了线程私有资源和共享资源这个主要矛盾也就抓住了解决线程安全问题的核心。接下来我们看下在各种情况下该怎样实现线程安全，依然以C/C++代码为例，但是这里讲解的方法适用于任何语言，请放心，这些代码足够简单。

只使用线程私有资源

我们来看这段代码：

int func() {  int a = 1;  int b = 1;  return a + b;}

这段代码在前面提到过，无论你在多少个线程中怎么调用什么时候调用，func函数都会确定的返回2，该函数不依赖任何全局变量，不依赖任何函数参数，且使用的局部变量都是线程私有资源，这样的代码也被称为无状态函数，stateless（无状态），很显然这样的代码是线程安全的。

这样的代码请放心大胆的在多线程中使用，不会有任何问题。有的同学可能会说，那如果我们还是使用线程私有资源，但是传入函数参数呢？

这样的代码是线程安全的吗？自己先想一想这个问题。答案是it depends要看情况。看什么情况呢？

1，按值传参如果你传入的参数的方式是按值传入，那么没有问题，代码依然是线程安全的：

int func(int num) {  num++;  return num;}

这这段代码无论在多少个线程中调用怎么调用什么时候调用都会正确返回参数加1后的值。原因很简单，按值传入的这些参数是线程私有资源。

2，按引用传参但如果是按引用传入参数，那么情况就不一样了：

int func(int* num) {  ++(*num);  return *num;}

如果调用该函数的线程传入的参数是线程私有资源，那么该函数依然是线程安全的，能正确的返回参数加1后的值。但如果传入的参数是全局变量，就像这样：

int global_num = 1;
int func(int* num) {  ++(*num);  return *num;}
// 线程1void thread1() {  func(&global_num);}
// 线程2void thread1() {  func(&global_num);}

那此时func函数将不再是线程安全代码，因为传入的参数指向了全局变量，这个全局变量是所有线程可共享资源，这种情况下如果不改变全局变量的使用方式，那么对该全局变量的加1操作必须施加某种秩序，比如加锁。

有的同学可能会说如果我传入的不是全局变量的指针(引用)是不是就不会有问题了？答案依然是it depends，要看情况。即便我们传入的参数是在堆上(heap)用malloc或new出来的，依然可能会有问题，为什么？答案很简单，因为堆上的资源也是所有线程可共享的。

假如有两个线程调用func函数时传入的指针(引用)指向了同一个堆上的变量，那么该变量就变成了这两个线程的共享资源，在这种情况下func函数依然不是线程安全的。改进也很简单，那就是每个线程调用func函数传入一个独属于该线程的资源地址，这样各个线程就不会妨碍到对方了，因此，写出线程安全代码的一大原则就是能用线程私有的资源就用私有资源，线程之间尽最大可能不去使用共享资源。如果线程不得已要使用全局资源呢？

使用全局资源

使用全局资源就一定不是线程安全代码吗？答案依然是要看情况。如果使用的全局资源只在程序运行时初始化一次，此后所有代码对其使用都是只读的，那么没有问题，就像这样：

int global_num = 100; //初始化一次，此后没有其它代码修改其值
int func() {  return global_num;}

我们看到，即使func函数使用了全局变量，但该全局变量只在运行前初始化一次，此后的代码都不会对其进行修改，那么func函数依然是线程安全的。

但，如果我们简单修改一下func：

int global_num = 100; 
int func() {  ++global_num;  return global_num;}

这时，func函数就不再是线程安全的了，对全局变量的修改必须加锁保护。

线程局部存储

接下来我们再对上述func函数简单修改：

__thread int global_num = 100; 
int func() {  ++global_num;  return global_num;}

我们看到全局变量global_num前加了关键词__thread修饰，这时，func代码就是又是线程安全的了。为什么呢？其实在上一篇文章中我们讲过，被__thread关键词修饰过的变量放在了线程私有存储中，Thread Local Storage，什么意思呢？意思是说这个变量是线程私有的全局变量：

global_num是全局变量
global_num是线程私有的

各个线程对global_num的修改不会影响到其它线程，因为是线程私有资源，因此func函数是线程安全的。说完了局部变量、全局变量、函数参数，那么接下来就到函数返回值了。

函数返回值

这里也有两种情况，一种是函数返回的是值；另一种返回对变量的引用。1，返回的是值我们来看这样一段代码：

int func() {  int a = 100;  return a;}

毫无疑问，这段代码是线程安全的，无论我们怎样调用该函数都会返回确定的值100。2，返回的是引用我们把上述代码简单的改一改：

int* func() {  static int a = 100;  return &a;}

如果我们在多线程中调用这样的函数，那么接下来等着你的可能就是难以调试的bug以及漫漫的加班长夜。。

很显然，这不是线程安全代码，产生bug的原因也很简单，你在使用该变量前其值可能已经被其它线程修改了。因为该函数使用了一个静态全局变量，只要能拿到该变量的地址那么所有线程都可以修改该变量的值，因为这是线程间的共享资源，不到万不得已不要写出上述代码，除非老板拿刀架在你脖子上。但是，请注意，有一个特例，这种使用方法可以用来实现设计模式中的单例模式，就像这样：

class S {public:  static S& getInstance() {    static S instance;    return instance;  }private:  S() {}  // 其它省略}

为什么呢？因为无论我们调用多少次func函数，static局部变量都只会被初始化一次，这种特性可以很方便的让我们实现单例模式。最后让我们来看下这种情况，那就是如果我们调用一个非线程安全的函数，那么我们的函数是线程安全的吗？

调用非线程安全代码

假如一个函数A调用另一个函数B，但B不是线程安全，那么函数A是线程安全的吗？答案依然是，要看情况。我们看下这样一段代码，这段代码在之前讲解过：

int global_num = 0;
int func() {  ++global_num;  return global_num;}

我们认为func函数是非线程安全的，因为func函数使用了全局变量并对其进行了修改，但如果我们这样调用func函数：

mutex l;
 
int funcA() {
  l.lock();
  func();
  l.unlock();
}

虽然func函数是非线程安全的，但是我们在调用该函数前加了一把锁进行保护，那么这时funcA函数就是线程安全的了，其本质就是我们用一把锁间接的保护了全局变量。再看这样一段代码：

int func(int *num) {  ++(*num);  return *num;}

一般我们认为func函数是非线程安全的，因为我们不知道传入的指针是不是指向了一个全局变量，但如果调用func函数的代码是这样的：

void funcA() {  int a = 100;  func(&a);}

那么这时funcA函数依然是线程安全的，因为传入的参数是线程私有的局部变量，无论多少线程调用funcA都不会干扰到其它线程。看了各种情况下的线程安全问题，最后让我们来总结一下实现线程安全代码都有哪些措施。

如何实现线程安全

从上面各种情况的分析来看，实现线程安全无外乎围绕线程私有资源和线程共享资源这两点，你需要识别出哪些是线程私有，哪些是共享的，这是核心，然后对症下药就可以了。

不使用任何全局资源，只使用线程私有资源，这种通常被称为无状态代码
线程局部存储，如果要使用全局资源，是否可以声明为线程局部存储，因为这种变量虽然是全局的，但每个线程都有一个属于自己的副本，对其修改不会影响到其它线程
只读，如果必须使用全局资源，那么全局资源是否可以是只读的，多线程使用只读的全局资源不会有线程安全问题。
原子操作，原子操作是说其在执行过程中是不可能被其它线程打断的，像C++中的std::atomic修饰过的变量，对这类变量的操作无需传统的加锁保护，因为C++会确保在变量的修改过程中不会被打断。我们常说的各种无锁数据结构通常是在这类原子操作的基础上构建的 。
同步互斥，到这里也就确定了你必须要以某种形式使用全局资源，那么在这种情况下公共场所的秩序必须得到维护，那么怎么维护呢？通过同步或者互斥的方式