
在处理用户输入或文本数据时,我们经常需要将一个长字符串拆分成独立的“词语”或“标记”(tokens)。然而,简单的空格分割(例如 string.split(' '))往往不足以应对复杂场景,特别是当我们需要将双引号内的短语视为一个不可分割的整体时。例如,对于输入字符串 "on time" flight,我们期望得到的结果是 ["on time", "flight"],而不是 [""on", "time"", "flight"]。
传统的 split(' ') 方法会错误地将 "on time" 分割成 ""on 和 time"",这显然不符合我们的预期。为了解决这一问题,我们需要一种更智能的解析策略,能够识别并处理双引号的边界。
处理这类字符串解析问题的强大工具是有限状态机(Finite-State Machine, FSM)。FSM通过定义一组“状态”和“状态转换规则”,来模拟解析过程。在我们的场景中,可以定义两种主要状态:
解析器会根据当前字符和当前状态,决定是继续累积当前词语/短语,还是切换到另一个状态,并完成当前词语/短语的收集。
立即学习“Java免费学习笔记(深入)”;
下面我们将通过一个JavaScript函数 splitToWordsWithQuotes 来实现这个FSM解析器:
function splitToWordsWithQuotes(str) {
let mode = null; // null: 初始状态/空白状态, 'word': 正在解析词语, 'phrase': 正在解析短语
const words = []; // 存储解析出的词语和短语
let currentToken = ''; // 临时存储当前正在构建的词语或短语
// 辅助函数:完成当前词语/短语的收集,并重置 currentToken
const completeToken = () => {
if (currentToken.length > 0) { // 只有当 currentToken 非空时才添加
words.push(currentToken);
currentToken = '';
}
};
for (let i = 0; i < str.length; i++) {
const char = str[i];
// 1. 初始状态或空白状态 (mode 为 null)
if (mode === null) {
if (char === ' ') {
continue; // 跳过前导空格
}
if (char === '"') {
mode = 'phrase'; // 遇到双引号,进入短语模式
} else {
currentToken += char;
mode = 'word'; // 遇到非空格非引号字符,进入词语模式
}
continue;
}
// 2. 处理双引号字符
if (char === '"') {
completeToken(); // 遇到引号,意味着当前词语/短语结束
// 切换模式:如果当前是词语模式,则下一个是短语;如果是短语模式,则下一个是词语。
// 实际上,这里是结束当前短语模式,并准备进入下一个词语模式 (或等待下一个引号进入短语模式)
// 修正:当遇到引号时,总是结束当前模式,并将模式设为 null,等待下一个字符决定新模式。
// 更精确的做法是:如果当前是 phrase 模式,引号表示短语结束,回到 null 模式。
// 如果当前是 word 模式,引号表示词语结束,进入 phrase 模式。
// 考虑到FSM的简洁性,这里可以简化为:引号总是完成当前token,并切换模式。
// 如果当前是 'word' 模式,遇到 '"',表示词语结束,进入 'phrase' 模式。
// 如果当前是 'phrase' 模式,遇到 '"',表示短语结束,回到 'null' 模式(等待下一个token的开始)。
mode = (mode === 'phrase') ? null : 'phrase';
continue;
}
// 3. 处理空格字符
if (char === ' ') {
if (mode === 'phrase') {
currentToken += ' '; // 在短语模式下,空格是短语内容的一部分
continue;
}
// 在词语模式下,空格表示当前词语结束
completeToken();
mode = null; // 回到 null 模式,等待下一个词语或短语的开始
continue;
}
// 4. 处理其他字符 (字母、数字等)
currentToken += char; // 将字符添加到当前词语/短语中
// 如果当前是 null 模式,且遇到非空格非引号字符,则进入 'word' 模式
if (mode === null) {
mode = 'word';
}
}
// 循环结束后,确保最后一个词语/短语被收集
completeToken();
return words;
}为了更好地理解上述FSM的工作原理,我们提供一些测试用例:
const myStr = ' "hello guys", some words with "quotes inside" some spaces inside " please keep quoted words as one "phrase / word" end-of-line ';
const myWrongStr = '"hello guys", some words" with "quotes inside" please keep quoted words as one "phrase / word" '; // 包含未闭合引号的示例
console.log('--- 正常输入示例 ---');
console.log('输入:', myStr);
console.log('输出:', splitToWordsWithQuotes(myStr));
// 预期输出: ["hello guys", "some", "words", "with", "quotes inside", "some", "spaces", "inside", "please", "keep", "quoted words as one", "phrase / word", "end-of-line"]
console.log('
--- 包含未闭合引号的示例 ---');
console.log('输入:', myWrongStr);
console.log('输出:', splitToWordsWithQuotes(myWrongStr));
// 预期输出: ["hello guys", "some", "words" with "quotes inside", "please", "keep", "quoted words as one", "phrase / word"]
// 注意:对于未闭合的引号,FSM会将其视为普通字符,或将后续内容都视为短语的一部分,直到遇到下一个引号或字符串结束。
console.log('
--- 原始问题示例 ---');
const originalInput = '"on time" "flight"';
console.log('输入:', originalInput);
console.log('输出:', splitToWordsWithQuotes(originalInput));
// 预期输出: ["on time", "flight"]代码解析:
const tokens = splitToWordsWithQuotes('"on time" "flight"');
const formattedOutput = tokens.map(token => {
// 如果token包含空格,通常意味着它是一个短语,用双引号包裹
if (token.includes(' ')) {
return `"${token}"`; // 或者 `\"${token}\"` 如果需要字面量反斜杠
}
return token;
}).join('');
console.log('格式化后的输出:', formattedOutput); // 示例输出: "on time"flight请注意,原始问题中期望的 ""ON TIME"FLIGHT" 格式可能包含额外的转义或特定含义,需要根据具体需求调整后处理逻辑。
通过采用有限状态机(FSM)的方法,我们能够健壮且高效地将复杂的文本字符串拆分为独立的词语和带引号的短语。这种方法不仅解决了简单 split() 函数的局限性,还为处理更复杂的文本解析任务提供了可扩展的基础。理解FSM的原理并将其应用于字符串处理,是提升JavaScript编程技能的重要一步。
以上就是文本分词与带引号短语保留的JavaScript实现的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号