0

0

C++的联合体union是什么以及它的内存共享特性如何工作

P粉602998670

P粉602998670

发布时间:2025-09-07 08:58:01

|

594人浏览过

|

来源于php中文网

原创

C++联合体union与结构体struct的核心差异在于内存布局:struct成员独立存储,可同时访问;union成员共享内存,任一时刻只能安全使用一个成员。union大小由最大成员决定,用于节省内存,而struct用于组织相关数据。

c++的联合体union是什么以及它的内存共享特性如何工作

C++中的

union
(联合体)是一种特殊的数据结构,它允许在同一块内存空间中存储不同的数据类型。它的核心内存共享特性意味着,
union
的所有成员都从相同的内存地址开始存储,并且在任何给定时刻,只有其中一个成员可以有效地持有值。这种设计旨在最大限度地节省内存,尤其是在你确定在程序执行的某个时间点,只需要用到多个数据类型中的某一个时。

解决方案

union
的工作机制可以这样理解:当编译器处理一个
union
定义时,它会为这个
union
分配足够的内存,以容纳其所有成员中最大的那个。例如,如果一个
union
包含一个
int
(通常4字节)和一个
double
(通常8字节),那么这个
union
的总大小就会是8字节。所有的成员,无论是
int
还是
double
,都会共享这8字节的起始地址。

当你给

union
的一个成员赋值时,这块共享的内存区域就会被该成员的数据所填充。如果你随后尝试访问
union
的另一个成员,你读取到的将是同一块内存区域,但会根据你访问的成员类型进行“重新解释”。这通常会导致读取到不正确或“垃圾”的数据,因为内存中的位模式是为前一个成员设计的,而不是当前你试图访问的这个。

举个例子:

立即学习C++免费学习笔记(深入)”;

#include 
#include  // 用于后续示例

union Data {
    int i;
    float f;
    char c_arr[4]; // 假设int和float都是4字节
};

int main() {
    Data d;

    d.i = 65; // 将整数65存入共享内存

    std::cout << "当d.i = 65时:" << std::endl;
    std::cout << "d.i: " << d.i << std::endl;
    std::cout << "d.f: " << d.f << std::endl; // 此时d.f会是什么?一个奇怪的浮点数
    // 65的二进制表示为01000001 00000000 00000000 00000000 (假设小端序,内存中实际是01 00 00 00)
    // 浮点数解释会非常不同

    d.f = 3.14f; // 将浮点数3.14存入共享内存,覆盖了之前的整数65

    std::cout << "\n当d.f = 3.14f时:" << std::endl;
    std::cout << "d.f: " << d.f << std::endl;
    std::cout << "d.i: " << d.i << std::endl; // 此时d.i会是什么?一个奇怪的整数
    // 3.14f的二进制表示,作为整数读出来会是一个大整数

    // 甚至可以尝试用char数组访问原始字节
    d.c_arr[0] = 'A';
    d.c_arr[1] = 'B';
    d.c_arr[2] = 'C';
    d.c_arr[3] = 'D';

    std::cout << "\n当d.c_arr被赋值为'A','B','C','D'时:" << std::endl;
    std::cout << "d.i: " << d.i << std::endl; // 此时d.i会是这四个字符的ASCII值组合成的整数
    std::cout << "d.f: " << d.f << std::endl; // 此时d.f会是这四个字符的ASCII值组合成的浮点数
    std::cout << "d.c_arr[0]: " << d.c_arr[0] << std::endl;
    std::cout << "d.c_arr[1]: " << d.c_arr[1] << std::endl;
    std::cout << "d.c_arr[2]: " << d.c_arr[2] << std::endl;
    std::cout << "d.c_arr[3]: " << d.c_arr[3] << std::endl;

    return 0;
}

从输出你会看到,每次给一个成员赋值后,其他成员的值都会变得“面目全非”,这就是内存共享的直接体现:同一块内存,不同的解释方式。

C++联合体union与结构体struct在内存管理和使用场景上的核心差异是什么?

说实话,

union
struct
虽然都是C++的复合数据类型,但它们的设计哲学和内存布局简直是天壤之别。在我看来,理解它们最关键的地方在于它们对内存的使用方式。

struct
(结构体)的成员在内存中是独立且顺序排列的。这意味着每个成员都有自己专属的内存空间,并且这些空间通常是按照成员声明的顺序依次分配的(当然,编译器为了对齐可能会在成员之间插入一些填充字节,即padding)。因此,一个
struct
的总大小是其所有成员大小之和,再加上可能存在的填充字节。你可以同时访问
struct
的所有成员,它们各自保存着自己的值,互不干扰。
struct
通常用于将一组逻辑上相关但数据类型可能不同的数据打包在一起,形成一个有意义的整体。比如,一个表示学生信息的
struct
可能包含
姓名
(string)、
学号
(int)和
成绩
(float)。

union
(联合体)则完全不同,它的所有成员都共享同一块内存空间。这块内存的大小,由
union
中占用内存最大的那个成员决定。当你给
union
的一个成员赋值时,这块共享内存就被这个成员的数据占据了。如果你接着访问其他成员,你实际上是在以不同的数据类型视角去解读同一块内存中的位模式。这就意味着,在任何给定时间,你只能“安全地”使用
union
的一个成员,即你最近一次赋值的那个成员。如果试图访问其他成员,结果是未定义的行为(Undefined Behavior),虽然在实践中你通常会得到一些奇怪的值,但语言标准不保证任何特定结果。
union
的主要使用场景是内存优化,当你明确知道在某个时刻只需要存储多种数据类型中的一种,并且希望节省内存时,
union
就派上用场了。例如,实现一个变体类型(variant type),或者在与底层硬件寄存器交互时,这些寄存器可能根据操作模式表示不同的数据。

简单来说:

Closers Copy
Closers Copy

营销专用文案机器人

下载
  • 内存布局:
    struct
    是“并排”存储,每个成员有自己的地盘;
    union
    是“叠加”存储,所有成员共享同一块地盘。
  • 大小:
    struct
    的总大小通常是成员大小之和(加填充);
    union
    的总大小是最大成员的大小。
  • 并发访问
    struct
    可以同时访问所有成员;
    union
    在任何时候只能安全地访问一个成员(最近被赋值的那个)。
  • 目的:
    struct
    用于组织相关数据;
    union
    用于节省内存,存储互斥的多种数据类型之一。

在实际项目中,如何安全有效地使用C++联合体union,并避免常见的编程陷阱?

老实说,直接裸用

union
,尤其是在现代C++项目中,是相当危险且容易出错的。最大的陷阱就是前面提到的:不清楚当前哪个成员是活跃的,然后错误地访问了其他成员,导致未定义行为和数据损坏。为了安全有效地使用
union
,通常我们会采用一种叫做“带标签的联合体”(Tagged Union 或 Discriminated Union)的模式。

这种模式的核心思想是,我们不会让

union
单独存在,而是将其封装在一个
struct
中,并在
struct
里添加一个额外的成员(通常是
enum
类型或
int
),这个成员就是“标签”,它用来明确指示当前
union
中哪个成员是活跃的。

#include 
#include 
#include  // 示例中可能会用到

// 定义一个枚举类型作为标签,指示union中当前存储的数据类型
enum class DataType {
    INT,
    FLOAT,
    STRING,
    VECTOR_INT // 假设我们还想存储一个整型向量
};

// 封装union的结构体
struct VariantData {
    DataType type; // 标签成员
    union {
        int i_val;
        float f_val;
        std::string s_val;
        std::vector v_val; // C++11及以上,union可以包含非平凡类型,但需要手动管理生命周期
    } data;

    // 构造函数和析构函数来管理非平凡类型的生命周期
    // 这部分是关键,也是最容易出错的地方
    VariantData() : type(DataType::INT) { data.i_val = 0; } // 默认构造为int

    // 析构函数:根据type销毁活跃的非平凡成员
    ~VariantData() {
        if (type == DataType::STRING) {
            data.s_val.~basic_string(); // 显式调用std::string的析构函数
        } else if (type == DataType::VECTOR_INT) {
            data.v_val.~vector(); // 显式调用std::vector的析构函数
        }
    }

    // 设置不同类型值的辅助函数
    void setInt(int val) {
        // 如果之前是其他非平凡类型,需要先销毁
        if (type == DataType::STRING) data.s_val.~basic_string();
        if (type == DataType::VECTOR_INT) data.v_val.~vector();
        type = DataType::INT;
        data.i_val = val;
    }

    void setFloat(float val) {
        if (type == DataType::STRING) data.s_val.~basic_string();
        if (type == DataType::VECTOR_INT) data.v_val.~vector();
        type = DataType::FLOAT;
        data.f_val = val;
    }

    void setString(const std::string& val) {
        if (type == DataType::STRING) { // 如果已经是string,直接赋值
            data.s_val = val;
        } else { // 否则,销毁旧成员,用placement new构造新string
            if (type == DataType::VECTOR_INT) data.v_val.~vector();
            new (&data.s_val) std::string(val);
            type = DataType::STRING;
        }
    }

    void setVectorInt(const std::vector& val) {
        if (type == DataType::VECTOR_INT) {
            data.v_val = val;
        } else {
            if (type == DataType::STRING) data.s_val.~basic_string();
            new (&data.v_val) std::vector(val);
            type = DataType::VECTOR_INT;
        }
    }

    // 复制构造函数和赋值运算符也需要手动实现,以正确处理非平凡类型
    // (此处省略,但实际项目中非常重要,否则会出浅拷贝问题)
};

int main() {
    VariantData var;

    var.setInt(123);
    if (var.type == DataType::INT) {
        std::cout << "当前是int: " << var.data.i_val << std::endl;
    }

    var.setFloat(45.67f);
    if (var.type == DataType::FLOAT) {
        std::cout << "当前是float: " << var.data.f_val << std::endl;
    }

    var.setString("Hello Union!");
    if (var.type == DataType::STRING) {
        std::cout << "当前是string: " << var.data.s_val << std::endl;
    }

    var.setVectorInt({10, 20, 30});
    if (var.type == DataType::VECTOR_INT) {
        std::cout << "当前是vector: ";
        for (int x : var.data.v_val) {
            std::cout << x << " ";
        }
        std::cout << std::endl;
    }

    // 再次设置为int,并观察string是否被正确销毁
    var.setInt(999);
    if (var.type == DataType::INT) {
        std::cout << "再次设置为int: " << var.data.i_val << std::endl;
    }

    return 0;
}

可以看到,即使是带标签的

union
,当涉及到
std::string
std::vector
这类“非平凡类型”(Non-trivial types,即带有自定义构造函数、析构函数或赋值运算符的类型)时,事情会变得非常复杂。你需要手动管理它们的生命周期:在切换类型时,显式调用前一个非平凡成员的析构函数,然后使用placement new来构造新的非平凡成员。这不仅繁琐,而且极易出错。

正因为如此,从C++17开始,标准库提供了

std::variant
,它本质上就是一个类型安全、自动管理生命周期的带标签的联合体。它大大简化了变体类型的使用,避免了手动管理生命周所有陷阱。如果你在现代C++项目中使用变体类型,强烈推荐
std::variant
union
现在更多地被保留在那些对内存布局有极高要求、与C语言接口、或者实现像
std::variant
这类底层库的特定场景中。

C++11及更高版本中,联合体union的非平凡类型成员支持带来了哪些变化与挑战?

C++11标准引入了一个非常重要的变化:

union
不再仅仅局限于POD(Plain Old Data)类型成员了。在此之前,
union
的成员不能拥有非平凡的构造函数、析构函数或赋值运算符。这意味着你不能在
union
中直接包含像
std::string
std::vector
或者任何自定义的带有复杂生命周期管理逻辑的类对象。这限制了
union
的应用场景,使其主要用于存储基本数据类型或C风格的结构体。

然而,从C++11开始,

union
被允许拥有非平凡的成员。这听起来很棒,因为它扩展了
union
的能力,理论上你可以用它来存储更复杂的数据类型。但随之而来的,是巨大的挑战和责任,主要是关于生命周期管理

编译器不会自动为

union
中的非平凡成员调用构造函数和析构函数。这是因为
union
的设计理念是内存共享,编译器无法“知道”在任何给定时间哪个成员是“活跃”的,因此它无法安全地决定何时调用哪个成员的构造函数或析构函数。

这意味着,如果你在

union
中使用了
std::string
这样的非平凡类型,你必须:

  1. 手动构造: 当你决定要使用某个非平凡成员时,你需要使用placement new
    union
    的内存空间中显式地构造那个对象。
  2. 手动销毁: 当你不再需要某个非平凡成员,或者要切换到
    union
    的另一个成员时,你必须显式地调用当前活跃的非平凡成员的析构函数,以释放它可能占用的资源(比如
    std::string
    的堆内存)。

这个过程远比想象的要复杂和容易出错。考虑以下场景:

  • 忘记调用析构函数: 导致内存泄漏。
  • 重复调用析构函数: 导致双重释放(double free),程序崩溃。
  • 在未构造的对象上调用方法: 导致未定义行为。
  • 在已销毁的对象上调用方法: 同样是未定义行为。
  • 复制构造和赋值操作符: 如果你的
    union
    被包含在一个类中,并且这个类需要复制构造函数或赋值运算符,你也必须手动实现它们,以确保正确地构造/

相关专题

更多
C语言变量命名
C语言变量命名

c语言变量名规则是:1、变量名以英文字母开头;2、变量名中的字母是区分大小写的;3、变量名不能是关键字;4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容,供大家免费下载使用。

379

2023.06.20

c语言入门自学零基础
c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识,应用十分广泛,本专题为大家c语言入门自学零基础的相关文章,以及相关课程,感兴趣的朋友千万不要错过了。

608

2023.07.25

c语言运算符的优先级顺序
c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

348

2023.08.02

c语言数据结构
c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念,用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等,而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

255

2023.08.09

c语言random函数用法
c语言random函数用法

c语言random函数用法:1、random.random,随机生成(0,1)之间的浮点数;2、random.randint,随机生成在范围之内的整数,两个参数分别表示上限和下限;3、random.randrange,在指定范围内,按指定基数递增的集合中获得一个随机数;4、random.choice,从序列中随机抽选一个数;5、random.shuffle,随机排序。

585

2023.09.05

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

519

2023.09.20

c语言get函数的用法
c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符,并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数 。

632

2023.09.20

c数组初始化的方法
c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍:1、直接赋值法,这种方法可以直接将数组的值进行初始化;2、不完全初始化法,。这种方法可以在一定程度上节省内存空间;3、省略数组长度法,这种方法可以让编译器自动计算数组的长度;4、二维数组初始化法等等。

595

2023.09.22

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

74

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 5.8万人学习

C 教程
C 教程

共75课时 | 3.8万人学习

C++教程
C++教程

共115课时 | 10.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号