HTTP响应头解析核心难点是换行符混用(CRLF/LF)导致切分不可靠,须先定位空行分隔头/体,再归一化换行符并逐行解析,状态行单独处理,字段名需忽略大小写比较,值需清理空白和'\r'。

HTTP响应头解析的核心难点在换行与字段分隔
直接用 std::string::find 扫描 "\r\n" 或 "\n" 不可靠——真实响应可能混用 CRLF("\r\n")和 LF("\n"),尤其在测试 mock 服务或某些嵌入式 HTTP 实现中。必须先定位响应体起始位置,即首个空行(连续的 "\r\n\r\n" 或 "\n\n"),再对前面部分逐行切分。
用 std::getline 拆解响应头时要指定分隔符
默认 std::getline 以 '\n' 为界,但若原始数据含 "\r\n",会导致首行末尾残留 '\r',后续 std::string::find(":") 失败。安全做法是:先统一将 "\r\n" 替换为 "\n",再用 std::getline(..., '\n') 拆行;或手动查找 "\n" 并截取子串,显式去除两端空白与 '\r'。
- 状态行必须单独处理:第一行格式为
"HTTP/1.1 200 OK",用空格分割后取第二个字段即状态码 - 字段名不区分大小写,但建议转小写后再比对(如
"content-length"而非"Content-Length") - 字段值可能跨行(带续行空格),实际生产环境极少出现,可暂不支持;若需兼容,需检查下一行是否以
' '或'\t'开头
提取 Content-Length 和 Connection 的典型代码片段
以下示例假设已将响应头部分(不含 body)存入 std::string headers,且已完成 CRLF 归一化:
size_t pos = 0;
std::string status_line;
if ((pos = headers.find('\n')) != std::string::npos) {
status_line = headers.substr(0, pos);
// 解析状态码:跳过 "HTTP/1.x " 后取数字
size_t code_start = status_line.find(' ');
if (code_start != std::string::npos) {
code_start++;
size_t code_end = status_line.find(' ', code_start);
std::string code_str = status_line.substr(code_start, code_end - code_start);
int status_code = std::stoi(code_str); // 可加 try/catch
}
}
// 遍历其余字段
std::istringstream iss(headers.substr(pos + 1));
std::string line;
while (std::getline(iss, line, '\n')) {
if (line.empty()) continue;
size_t colon = line.find(':');
if (colon == std::string::npos) continue;
std::string key = line.substr(0, colon);
std::string value = line.substr(colon + 1);
// 去除 key/value 首尾空格和 '\r'
key.erase(0, key.find_first_not_of(" \t\r"));
key.erase(key.find_last_not_of(" \t\r") + 1);
value.erase(0, value.find_first_not_of(" \t\r"));
value.erase(value.find_last_not_of(" \t\r") + 1);
if (_stricmp(key.c_str(), "content-length") == 0) {
content_length = std::stoll(value);
} else if (_stricmp(key.c_str(), "connection") == 0) {
connection_type = value;
}}
立即学习“C++免费学习笔记(深入)”;
Windows 下注意 _stricmp 与 Linux 的 strcasecmp 兼容性
跨平台项目中,字段名比较不能直接用 ==。MSVC 提供 _stricmp,GCC/Clang 用 strcasecmp,二者行为一致但符号不同。更稳妥的做法是自己实现忽略大小写的比较函数,或用 std::equal 配合 std::tolower:
- 避免依赖 CRT 扩展函数,减少编译差异
-
std::stoll在非法字符串时抛std::invalid_argument,务必捕获 - 某些服务器返回
Transfer-Encoding: chunked时,Content-Length不存在,此时不能假定字段一定存在
真正难的不是切分,而是应对不规范响应——比如缺失状态行、字段名含空格、值内含未转义冒号。生产级解析器往往退回到状态机或正则,但多数内部工具只需处理标准服务,按上述流程已足够稳定。











