什么是C++中的内存模型多线程环境下内存可见性问题-C++-PHP中文网

c++++内存模型通过定义内存操作的可见性和顺序性规则解决多线程环境下的数据一致性问题。1. 它引入“happens-before”关系确保操作顺序和可见性；2. 使用std::atomic配合不同memory_order（如relaxed、acquire/release、seq_cst）控制内存排序；3. 通过互斥量、条件变量、future/promise及线程join等机制建立同步和可见性保证；4. 在性能与正确性之间权衡，优先确保程序正确性再优化性能，避免伪共享等问题。

什么是C++中的内存模型多线程环境下内存可见性问题

C++内存模型本质上定义了在多线程环境中，程序中不同操作（尤其是内存读写）的可见性和顺序性规则。简单来说，它告诉我们一个线程对内存的修改，什么时候能被另一个线程看到，以及这些操作的顺序是否会被编译器或硬件重新排序。如果没有它，多线程程序的行为将是不可预测的混乱。

解决方案

多线程环境下，内存可见性问题是一个核心挑战。它源于现代处理器和编译器为了性能优化，会对指令进行重排序，以及每个CPU核心拥有自己的缓存。一个线程对共享变量的写入可能只停留在其本地缓存中，而不会立即刷新到主内存，导致其他线程读取到的是旧数据，这就是所谓的“内存可见性问题”。C++内存模型通过引入“happens-before”关系来解决这个问题。如果操作A happens-before 操作B，那么A的所有可见副作用都必须在B执行前完成，并且对B可见。这种关系是通过特定的同步机制（如互斥量或原子操作）来建立的。

std::atomic

登录后复制

如何解决内存可见性问题？

std::atomic

登录后复制

是C++11引入的强大工具，它提供了一种在多线程环境中安全访问共享变量的方式。它不仅仅保证了操作的原子性（即操作不可中断），更重要的是，它提供了内存排序（memory ordering）语义，直接解决了内存可见性问题。

立即学习“C++免费学习笔记（深入）”；

我们知道，普通变量的读写可能被编译器或CPU重新排序，或者被缓存起来。但当你使用

std::atomic

登录后复制

类型时，你可以指定不同的内存序来控制这些操作的可见性。

memory_order_relaxed
登录后复制
: 这是最弱的内存序。它只保证操作本身的原子性，不提供任何跨线程的同步或排序保证。这意味着一个relaxed的写入可能在其他线程的relaxed读取之后才变得可见，即使从逻辑上讲写入先发生。这通常用于简单的计数器，或者当你确定没有其他同步机制来建立happens-before关系时。
memory_order_acquire
登录后复制
/
memory_order_release
登录后复制
: 这是一对常用的内存序，它们共同建立happens-before关系。
- ```
release
```
  登录后复制
  操作（写）会确保所有在它之前发生的内存写入，在其他线程执行相应的
```
acquire
```
  登录后复制
  操作时都可见。
- ```
acquire
```
  登录后复制
  操作（读）会确保所有在它之后发生的内存读取，能够看到在另一个线程执行相应
```
release
```
  登录后复制
  操作之前的所有写入。想象一下，
```
release
```
  登录后复制
  就像是把一扇门锁上，确保门后的一切都已就绪；
```
acquire
```
  登录后复制
  就像是打开这扇门，确保你能看到门后的一切。这是一个非常常见的模式，比如生产者写入数据，然后通过一个
```
release
```
  登录后复制
  写来通知消费者；消费者通过一个
```
acquire
```
  登录后复制
  读来等待通知，然后安全地读取数据。
memory_order_acq_rel
登录后复制
: 这是一个读-改-写操作（如
```
fetch_add
```
登录后复制
,
```
compare_exchange_weak
```
登录后复制
）可以使用的内存序，它同时具有
```
acquire
```
登录后复制
和
```
release
```
登录后复制
的语义。
memory_order_seq_cst
登录后复制
: 这是最强的内存序，也是
```
std::atomic
```
登录后复制
操作的默认值。它不仅保证原子性和acquire/release语义，还保证所有
```
seq_cst
```
登录后复制
操作在所有线程中都具有单一的、总体的执行顺序。这就像有一个全局的时钟，所有
```
seq_cst
```
登录后复制
操作都按照这个时钟的顺序被看到。虽然它提供了最强的保证，但通常也意味着最高的性能开销，因为它可能需要更复杂的硬件指令或内存屏障。

举个例子，一个线程设置一个标志，另一个线程等待这个标志：

std::atomic<bool> ready_flag{false};
int shared_data = 0;

// Thread 1 (Producer)
void producer() {
    shared_data = 42; // (1)
    ready_flag.store(true, std::memory_order_release); // (2)
}

// Thread 2 (Consumer)
void consumer() {
    while (!ready_flag.load(std::memory_order_acquire)) { // (3)
        // Spin...
    }
    // (4)
    std::cout << "Data: " << shared_data << std::endl;
}

登录后复制

在这个例子中，

ready_flag.store(true, std::memory_order_release)

登录后复制

确保了

shared_data = 42

登录后复制

(1) 的写入在

ready_flag

登录后复制

被设置之前完成。而

ready_flag.load(std::memory_order_acquire)

登录后复制

确保了当它看到

ready_flag

登录后复制

为

true

登录后复制

时，

shared_data = 42

登录后复制

(1) 的写入对它也是可见的。没有这些内存序，消费者线程可能看到

ready_flag

登录后复制

为

true

登录后复制

，但

shared_data

登录后复制

仍然是旧值，因为写入操作可能被重排或缓存。

除了

std::atomic

登录后复制

，还有哪些机制能确保多线程内存可见性？

虽然

std::atomic

登录后复制

是处理单个变量可见性的利器，但C++标准库还提供了其他更高级的同步原语，它们在内部利用了内存模型，并为我们提供了更抽象、更易用的可见性保证。

```
std::mutex
```
登录后复制
: 互斥量是多线程编程中最基本的同步工具之一。它的核心作用是确保同一时间只有一个线程可以访问被保护的共享资源。但它不仅仅是排他锁，它也隐含了内存可见性保证。
- 当一个线程调用
```
mutex.lock()
```
  登录后复制
  时，这会隐式地执行一个
```
acquire
```
  登录后复制
  操作。这意味着在该锁之前由其他线程执行的任何写入操作，都将对当前线程可见。
- 当一个线程调用
```
mutex.unlock()
```
  登录后复制
  时，这会隐式地执行一个
```
release
```
  登录后复制
  操作。这意味着在该锁之内由当前线程执行的所有写入操作，都将对之后获取该锁的其他线程可见。因此，通过互斥量保护的临界区，其内部的所有操作都自然地满足happens-before关系。这是我们最常用的确保复杂数据结构可见性的方法。
```
std::condition_variable
```
登录后复制
: 条件变量通常与
```
std::mutex
```
登录后复制
配合使用，用于线程间的通知和等待。

存了个图
视频图片解析/字幕/剪辑，视频高清保存/图片源图提取

17

查看详情
- 当一个线程调用
```
notify_one()
```
  登录后复制
  或
```
notify_all()
```
  登录后复制
  时，这会隐式地执行一个
```
release
```
  登录后复制
  操作。
- 当一个线程调用
```
wait()
```
  登录后复制
  或
```
wait_for()
```
  登录后复制
  或
```
wait_until()
```
  登录后复制
  并成功返回时，这会隐式地执行一个
```
acquire
```
  登录后复制
  操作。这意味着，发送通知的线程在通知前对共享数据的修改，在接收到通知的线程被唤醒后，都将是可见的。这在生产者-消费者模型中非常关键。
```
std::future
```
登录后复制
和
std::promise
登录后复制
: 它们提供了一种在不同线程间传递结果或异常的机制。
- 当一个
```
std::promise
```
  登录后复制
  对象通过
```
set_value()
```
  登录后复制
  或
```
set_exception()
```
  登录后复制
  设置其值时，这会隐式地执行一个
```
release
```
  登录后复制
  操作。
- 当一个
```
std::future
```
  登录后复制
  对象通过
```
get()
```
  登录后复制
  获取其值时，这会隐式地执行一个
```
acquire
```
  登录后复制
  操作。所以，通过
```
std::promise
```
  登录后复制
  写入的值，在
```
std::future
```
  登录后复制
  读取时是可见的。
```
std::thread::join()
```
登录后复制
: 当一个线程调用另一个线程的
```
join()
```
登录后复制
方法时，
```
join()
```
登录后复制
操作的完成会与被
```
join
```
登录后复制
线程的退出操作建立happens-before关系。这意味着被
```
join
```
登录后复制
线程中所有操作的副作用，在
```
join()
```
登录后复制
返回后，都将对调用
```
join()
```
登录后复制
的线程可见。这确保了线程间安全地传递最终结果或状态。

这些高级原语在底层都依赖于C++内存模型提供的原子操作和内存屏障，但它们将复杂的内存同步细节封装起来，让我们能以更抽象、更安全的方式来编写多线程代码。

内存模型与性能优化：我们应该如何权衡？

理解C++内存模型，尤其是各种内存序的语义，不仅仅是为了编写正确的并发代码，更是为了在正确性和性能之间找到最佳平衡点。这是一个微妙的权衡游戏，因为更强的内存序通常意味着更高的性能开销。

```
memory_order_seq_cst
```
登录后复制
的代价: 作为默认选项，
```
seq_cst
```
登录后复制
提供了最强的保证，它确保了所有
```
seq_cst
```
登录后复制
操作在所有线程中都表现出单一的、全局一致的顺序。为了实现这种全局一致性，编译器和硬件可能需要插入更多的内存屏障指令，或者强制CPU缓存同步，这会增加延迟和消耗更多的CPU周期。对我来说，如果我没有充分的理由去选择更弱的内存序，我通常会从
```
seq_cst
```
登录后复制
开始，因为它最容易理解和推理，出错的概率最低。
```
acquire
```
登录后复制
/
release
登录后复制
的平衡: 对于大多数生产者-消费者模式，或者需要建立明确happens-before关系的场景，
```
acquire
```
登录后复制
/
```
release
```
登录后复制
对是一个非常好的选择。它比
```
seq_cst
```
登录后复制
更弱，因此通常性能更好，但又能提供足够的同步保证。它避免了不必要的全局同步开销，只在需要同步的边界上进行操作。比如，在一个队列中，生产者在入队后执行
```
release
```
登录后复制
操作，消费者在出队前执行
```
acquire
```
登录后复制
操作，就能保证数据的正确可见性。
```
memory_order_relaxed
```
登录后复制
的极限应用:
```
relaxed
```
登录后复制
内存序只保证操作的原子性，不提供任何排序保证。这意味着它通常是最快的原子操作。它适用于那些你只关心操作本身是原子的，而不关心其对其他内存操作的可见性或顺序性的场景。比如，一个简单的计数器，你只关心最终的计数值是正确的，而不关心中间某个时刻的计数值是否立刻对其他线程可见。但使用
```
relaxed
```
登录后复制
时必须极其小心，因为它很容易导致可见性问题，甚至产生“out-of-thin-air”的错误值，除非有其他同步机制来配合。
伪共享（False Sharing）: 这是另一个与内存模型和硬件缓存交互相关的性能陷阱。当多个独立的原子变量（或任何共享数据）恰好位于同一个CPU缓存行中时，即使它们本身没有直接的竞争，对其中一个变量的修改也会导致整个缓存行的失效，迫使其他CPU核心重新从主内存加载该缓存行。这会造成不必要的缓存同步开销，严重影响性能。避免伪共享的常见方法是使用填充（padding）技术，将不相关的共享变量放置在不同的缓存行中。这通常需要对结构体进行字节对齐，比如使用
```
alignas(std::hardware_destructive_interference_size)
```
登录后复制
。
性能剖析优先: 在实践中，我们不应该盲目地追求最弱的内存序来优化性能。过早的优化是万恶之源。正确的做法是：首先编写正确的、易于理解的代码，即使这意味着使用更强的内存序（如
```
seq_cst
```
登录后复制
或
```
mutex
```
登录后复制
）。只有当通过性能剖析（profiling）工具发现同步开销确实是性能瓶颈时，才考虑使用更弱的内存序或其他高级技术进行优化。而且，即使决定优化，也需要对代码进行严格的测试，以确保在各种复杂场景下仍然保持正确性。毕竟，一个错误的并发程序比一个慢的程序更糟糕。