二进制文件读写必须显式指定std::ios::binary标志,否则换行符转换和0x1A截断会导致数据损坏;read()/write()需用char*缓冲区和精确字节数,仅适用于POD类型;须用fail()/bad()而非eof()判断状态;跨平台需处理结构体对齐与字节序。

用 std::ifstream 和 std::ofstream 以二进制模式打开文件
默认情况下,C++ 的文件流是文本模式,会自动转换换行符(如 \r\n → \n),还会在读到 0x1A(EOF)时提前终止。二进制读写必须显式指定 std::ios::binary 标志,否则数据会被损坏。
常见错误:只写 std::ios::in | std::ios::out 却漏掉 binary,导致图片、音频、结构体等二进制内容读写异常。
-
std::ifstream fin("data.bin", std::ios::binary);—— 只读二进制 -
std::ofstream fout("data.bin", std::ios::binary);—— 只写二进制(会清空原文件) -
std::fstream fio("data.bin", std::ios::in | std::ios::out | std::ios::binary);—— 读写二进制,不自动截断
read() 和 write() 的正确调用方式
read() 和 write() 是面向字节的底层操作,参数是 char* 缓冲区指针和字节数,不是字符串或容器。传错类型(比如传 std::string.data() 但没保证空终止或长度)或长度计算错误,会导致读写越界或截断。
关键点:缓冲区必须足够大;长度必须是 size_t 类型且与实际字节数一致;对非 POD 类型(如含虚函数、引用、std::string 成员的 class)不能直接 write() 其对象地址——那是未定义行为。
立即学习“C++免费学习笔记(深入)”;
struct Record { int id; double value; };
Record r = {42, 3.14159};
std::ofstream fout("record.bin", std::ios::binary);
fout.write(reinterpret_cast(&r), sizeof(r)); // ✅ 正确:POD 结构体可直接写入
fout.close();
std::ifstream fin("record.bin", std::ios::binary);
Record r2;
fin.read(reinterpret_cast(&r2), sizeof(r2)); // ✅ 正确读回
检查读写是否成功:别只靠 eof()
eof() 只在尝试读取失败后才置位,不能用来预判;fail() 和 bad() 才是判断 I/O 状态的核心。典型误用:while (!fin.eof()) { fin.read(...); } —— 这会导致最后一次读失败后仍进入循环体一次,产生脏数据。
-
fin.gcount()返回上一次read()实际读取的字节数(常用于循环读取固定大小块) -
fin.fail()表示格式错误或读写失败(如磁盘满、权限不足) -
fin.bad()表示流内部状态严重错误(如缓冲区崩溃) - 推荐写法:
if (fin.read(buf, size)) { /* 成功 */ } else if (fin.gcount() > 0) { /* 部分读取 */ } else { /* 完全失败 */ }
跨平台注意事项:结构体对齐与字节序
直接用 sizeof(T) 读写结构体,在不同编译器或平台间可能因填充字节(padding)位置不同而无法兼容。例如 struct { char a; int b; } 在 x86_64 上通常占 8 字节(含 3 字节 padding),但若目标平台按 1 字节对齐,解析就会错位。
另外,int、float 等内置类型的字节序(endianness)由硬件决定,x86 是小端,ARM 可能是大端。网络传输或跨平台存储需手动序列化,不能依赖 reinterpret_cast 原样写入。
- 解决对齐问题:用
#pragma pack(1)或[[gnu::packed]]强制紧凑布局(注意性能影响) - 解决字节序问题:对多字节整数用
htons()/ntohl()或std::byteswap(C++23)标准化 - 更健壮的做法:使用协议缓冲区(protobuf)、Cap'n Proto,或手写字段级序列化函数
二进制 I/O 看似简单,真正踩坑的地方往往不在语法,而在内存布局假设、流状态误判和平台差异上。尤其是把结构体当“数据包”直接读写时,sizeof 和实际内存排布之间那几字节 padding,最容易在发布后某个客户机器上突然暴露。











