0

0

如何在C++中按分隔符分割字符串_C++字符串分割实现技巧

下次还敢

下次还敢

发布时间:2025-09-21 16:15:01

|

1040人浏览过

|

来源于php中文网

原创

C++中分割字符串主要有两种方法:一是使用std::string::find和substr手动迭代,适用于多字符分隔符和精细控制;二是利用std::istringstream结合std::getline进行流式处理,代码简洁且适合单字符分隔。前者支持复杂场景如跳过空字符串或限制分割次数,后者更符合C++惯用风格但仅限单字符分隔。性能敏感场景可考虑std::string_view减少拷贝,或使用Boost库优化。

如何在c++中按分隔符分割字符串_c++字符串分割实现技巧

在C++中按分隔符分割字符串,本质上就是在一段文本中找出特定的标记,然后把标记之间的内容提取出来。这事儿听起来简单,但实际操作起来,根据你的需求和对性能、代码可读性的偏好,会有几种不同的实现路径。核心思想无非是利用C++标准库提供的字符串查找和截取功能,或者借助流的特性来简化操作。

解决方案

要高效且灵活地在C++中分割字符串,我通常会推荐两种主流方法:一种是基于

std::string::find
std::string::substr
的迭代式查找,另一种则是利用
std::istringstream
std::getline
的流式处理。两者各有千秋,选择哪种取决于具体的场景和个人习惯。

方法一:基于

std::string::find
std::string::substr
的手动迭代

这种方法提供了最细粒度的控制,适合处理各种复杂情况,比如需要跳过空字符串、处理连续分隔符等。

立即学习C++免费学习笔记(深入)”;

#include 
#include 
#include 

std::vector splitStringManual(const std::string& s, const std::string& delimiter) {
    std::vector tokens;
    size_t lastPos = 0;
    size_t pos = s.find(delimiter, lastPos);

    while (pos != std::string::npos) {
        // 提取从lastPos到pos之间的子串
        tokens.push_back(s.substr(lastPos, pos - lastPos));
        // 更新lastPos到分隔符之后
        lastPos = pos + delimiter.length();
        // 继续查找下一个分隔符
        pos = s.find(delimiter, lastPos);
    }
    // 添加最后一个token(或整个字符串,如果没有分隔符)
    tokens.push_back(s.substr(lastPos));
    return tokens;
}

// 示例用法
/*
int main() {
    std::string text = "apple,banana,,orange,grape";
    std::string delim = ",";
    std::vector result = splitStringManual(text, delim);

    std::cout << "Manual split results:" << std::endl;
    for (const auto& token : result) {
        std::cout << "[" << token << "]" << std::endl;
    }

    std::string text2 = "one|two||three";
    std::string delim2 = "|";
    std::vector result2 = splitStringManual(text2, delim2);
    std::cout << "\nManual split with '|':" << std::endl;
    for (const auto& token : result2) {
        std::cout << "[" << token << "]" << std::endl;
    }
    return 0;
}
*/

方法二:利用

std::istringstream
std::getline
进行流式分割

这种方法对于单个字符分隔符来说,代码更简洁,更“C++ idiomatic”,尤其适合处理文件行、CSV数据等。

#include 
#include 
#include  // for std::istringstream
#include 

std::vector splitStringStream(const std::string& s, char delimiter) {
    std::vector tokens;
    std::string token;
    std::istringstream tokenStream(s); // 将字符串封装成输入流

    while (std::getline(tokenStream, token, delimiter)) {
        tokens.push_back(token);
    }
    // 注意:如果字符串以分隔符结尾,getline会产生一个空字符串。
    // 如果原始字符串为空,或者只包含分隔符,这里可能需要额外处理。
    return tokens;
}

// 示例用法
/*
int main() {
    std::string text = "apple,banana,,orange,grape";
    char delim = ',';
    std::vector result = splitStringStream(text, delim);

    std::cout << "Stream split results:" << std::endl;
    for (const auto& token : result) {
        std::cout << "[" << token << "]" << std::endl;
    }

    std::string text2 = "one|two||three";
    char delim2 = '|';
    std::vector result2 = splitStringStream(text2, delim2);
    std::cout << "\nStream split with '|':" << std::endl;
    for (const auto& token : result2) {
        std::cout << "[" << token << "]" << std::endl;
    }
    return 0;
}
*/

C++字符串分割的常见陷阱与性能考量

字符串分割这事儿,看起来直白,但实际用起来,总会遇到一些让人头疼的小问题,尤其是性能和边界情况的处理。

首先是空字符串(Empty Tokens)的问题。想象一下,如果你用逗号分割

"apple,,banana"
,期望的结果是
["apple", "", "banana"]
,还是
["apple", "banana"]
std::getline
在遇到连续分隔符时,默认会生成一个空的token。而我上面给出的
splitStringManual
实现,同样也会产生空token。这通常是符合预期的,因为空字符串也是一个有效的信息载体。但如果你的业务逻辑不希望处理空字符串,你就需要在分割后额外过滤掉它们,比如:

// 在分割结果后过滤空字符串
std::vector filteredTokens;
for (const auto& token : result) {
    if (!token.empty()) {
        filteredTokens.push_back(token);
    }
}

其次是字符串开头或结尾是分隔符的情况。比如

" ,apple,banana,"
std::getline
splitStringManual
都能很好地处理这些情况,它们会分别在开头和结尾产生一个空字符串作为token。这通常也是我们希望的行为,保持了分割的完整性。

然后就是性能。对于大多数日常应用,这两种方法在性能上都不会成为瓶颈。但如果你的应用需要处理海量的字符串分割,或者字符串本身非常长,那么字符串拷贝的开销就值得关注了。

std::string::substr
会创建新的
std::string
对象,涉及到内存分配和数据拷贝。
std::getline
在内部同样会进行字符串的构建和拷贝。

如果极致的性能是你的首要目标,你可能需要考虑:

  1. 返回
    std::string_view
    :C++17引入的
    std::string_view
    是一个非拥有字符串引用,它可以指向原始字符串的一部分,而无需进行拷贝。这能显著减少内存分配和拷贝开销。但要注意,
    string_view
    的生命周期不能超过它所引用的原始字符串。
  2. 原地修改(In-place modification):如果原始字符串可以被修改,你可以将分隔符替换为
    \0
    ,然后返回指向这些子字符串的
    char*
    指针。但这会破坏原始字符串,且需要更复杂的内存管理。
  3. Boost库:Boost库的
    boost::algorithm::split
    提供了非常丰富和优化的分割选项,包括迭代器范围分割、不同谓词过滤等,性能通常会更好,并且API设计得非常灵活。当然,引入Boost库本身也是一个考量。

我个人在大多数项目中,会优先选择

std::istringstream
std::getline
,因为它写起来更简洁,更符合直觉。只有在需要处理多字符分隔符、或者对性能有极其严苛的要求时,才会考虑手动
find/substr
或者引入Boost。

掌握
std::istringstream
std::getline
的优雅实践

std::istringstream
std::getline
的组合,在我看来,是C++标准库中最“优雅”的字符串分割方式之一,尤其是对于单字符分隔符而言。它将字符串视为一个输入流,然后像读取文件一样逐个提取“字段”。这种抽象非常强大,也让代码变得异常简洁。

海螺语音
海螺语音

海螺AI推出的AI语音生成工具,支持多种语种、情绪和效果。

下载

它处理连续分隔符的行为,即产生空字符串,是其一大特性。比如

"a,,b"
用逗号分割,会得到
["a", "", "b"]
。这在处理CSV文件时非常有用,因为空字段也是有效数据。

但它的局限性在于,

std::getline
的第三个参数只能接受一个
char
作为分隔符。这意味着,如果你想用
"##"
这样的多字符序列来分割字符串,
std::getline
就无能为力了。这时,你就得回到
std::string::find
std::string::substr
的怀抱。

不过,我们可以稍微“曲线救国”一下,让

istringstream
在某些场景下也能处理一些变体。例如,如果你的分隔符是
std::isspace
定义的任何空白字符,那么直接使用
std::istringstream
配合
operator>>
(流提取运算符)就能自动按空白分割:

std::vector splitByWhitespace(const std::string& s) {
    std::vector tokens;
    std::istringstream iss(s);
    std::string token;
    while (iss >> token) { // 自动按空白字符分割
        tokens.push_back(token);
    }
    return tokens;
}
// 示例: " hello   world  " -> ["hello", "world"]

这种方法会自动跳过所有连续的空白字符,不会产生空字符串,这在处理用户输入或命令行参数时非常方便。

再进一步,如果你想对分割后的token进行一些即时处理,比如去除首尾空白,或者转换为数字,可以在

while
循环内部直接进行。这种链式操作,让
istringstream
的用法显得更加灵活和强大。

// 假设我们有一个CSV行,想把数字字段提取出来并转换为int
std::string csvLine = "10,20,,40";
std::istringstream iss(csvLine);
std::string tokenStr;
std::vector numbers;

while (std::getline(iss, tokenStr, ',')) {
    if (!tokenStr.empty()) { // 过滤空字符串
        try {
            numbers.push_back(std::stoi(tokenStr)); // 转换为int
        } catch (const std::invalid_argument& e) {
            std::cerr << "Invalid number: " << tokenStr << std::endl;
        } catch (const std::out_of_range& e) {
            std::cerr << "Number out of range: " << tokenStr << std::endl;
        }
    }
}
// numbers 现在是 [10, 20, 40]

这种直接在循环中处理token的方式,避免了先生成所有token再遍历的二次开销,对于处理大量数据时,性能优势会更明显。

手动实现字符串分割:
find
substr
的精细控制

当我需要处理更复杂的分隔符模式,或者对分割过程有更细致的控制时,

std::string::find
std::string::substr
的组合就成了我的首选。虽然代码量比
std::getline
多一点,但它能应对
std::getline
无法处理的多字符分隔符,并且在处理边界条件时,可以根据需求灵活调整行为。

它的核心逻辑是维护两个位置索引:

lastPos
(上一个token的起始位置)和
pos
(当前找到的分隔符的起始位置)。每次找到分隔符,就从
lastPos
pos
之间截取子串,然后将
lastPos
更新到分隔符之后,继续查找。

// 再次展示手动分割函数,这次加上一些注释和思考
std::vector splitStringManualAdvanced(const std::string& s, const std::string& delimiter, bool skipEmpty = false) {
    std::vector tokens;
    size_t lastPos = 0;
    size_t pos = s.find(delimiter, lastPos); // 从lastPos开始查找分隔符

    while (pos != std::string::npos) { // 只要还能找到分隔符
        std::string token = s.substr(lastPos, pos - lastPos); // 提取当前token
        if (!skipEmpty || !token.empty()) { // 根据skipEmpty决定是否添加空token
            tokens.push_back(token);
        }
        lastPos = pos + delimiter.length(); // 更新lastPos到分隔符之后
        pos = s.find(delimiter, lastPos); // 继续查找下一个分隔符
    }
    // 处理最后一个token(或整个字符串,如果没找到分隔符)
    std::string lastToken = s.substr(lastPos);
    if (!skipEmpty || !lastToken.empty()) {
        tokens.push_back(lastToken);
    }
    return tokens;
}

这里我给函数增加了一个

skipEmpty
参数,这正是手动控制的体现。如果
skipEmpty
true
,那么像
"a,,b"
用逗号分割时,就不会产生中间的空字符串。

这种方法在处理多字符分隔符时是必不可少的。比如,你想用

"<<>>"
来分割字符串
"data<<>>more_data<<>>end"
std::getline
就做不到,但
find
可以:

std::string text = "data<<>>more_data<<>>end";
std::string delim = "<<>>";
std::vector result = splitStringManualAdvanced(text, delim);
// 结果会是 ["data", "more_data", "end"]

此外,当你需要限制分割次数时,手动实现也更容易。例如,你只想分割前N个token,剩下的作为最后一个token:

std::vector splitLimited(const std::string& s, const std::string& delimiter, int maxSplits) {
    std::vector tokens;
    size_t lastPos = 0;
    size_t pos;
    int splitsCount = 0;

    while ((pos = s.find(delimiter, lastPos)) != std::string::npos && splitsCount < maxSplits) {
        tokens.push_back(s.substr(lastPos, pos - lastPos));
        lastPos = pos + delimiter.length();
        splitsCount++;
    }
    tokens.push_back(s.substr(lastPos)); // 添加剩余部分作为最后一个token
    return tokens;
}
// 示例: splitLimited("a,b,c,d", ",", 1) -> ["a", "b,c,d"]

这种精细的控制,正是手动

find/substr
方法的价值所在。它可能不是最简洁的,但绝对是最灵活和强大的。在我的开发经验中,遇到需要处理复杂日志格式、解析自定义协议消息等场景时,我往往会选择这种方式,因为它能让我精确地定义每一个分割行为,避免因为库函数的默认行为而引入不必要的bug或性能问题。当然,也需要更细致地考虑索引的边界条件,避免常见的off-by-one错误。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

311

2023.08.02

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1427

2023.10.24

Go语言中的运算符有哪些
Go语言中的运算符有哪些

Go语言中的运算符有:1、加法运算符;2、减法运算符;3、乘法运算符;4、除法运算符;5、取余运算符;6、比较运算符;7、位运算符;8、按位与运算符;9、按位或运算符;10、按位异或运算符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

221

2024.02.23

php三元运算符用法
php三元运算符用法

本专题整合了php三元运算符相关教程,阅读专题下面的文章了解更多详细内容。

69

2025.10.17

while的用法
while的用法

while的用法是“while 条件: 代码块”,条件是一个表达式,当条件为真时,执行代码块,然后再次判断条件是否为真,如果为真则继续执行代码块,直到条件为假为止。本专题为大家提供while相关的文章、下载、课程内容,供大家免费下载体验。

79

2023.09.25

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6020

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

777

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1041

2023.12.21

苹果官网入口直接访问
苹果官网入口直接访问

苹果官网直接访问入口是https://www.apple.com/cn/,该页面具备0.8秒首屏渲染、HTTP/3与Brotli加速、WebP+AVIF双格式图片、免登录浏览全参数等特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

6

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 5.2万人学习

C 教程
C 教程

共75课时 | 3.6万人学习

C++教程
C++教程

共115课时 | 9.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号